Scrapy のLinkExtractorとブラウザのリンク仕様

Scrapyでは/ top.html |----- subdir_a/index_a.html |----- subdir_b/index_b.html というディレクトリ構造があり、 top.html に、<a href="../../../../subdir_a/index_a.html"> とあった場合、正しいURLではないので、400エラーとなり、クロールができません。一方で、最近のブラウザは頭がよくて、ド</a>…

2017-04-21

Wordpressの検索結果画面にスクリーンキャプチャを表示してみた

商用のサイト内検索サービスだと、よく検索結果画面にページのキャプチャが載っているかと思います。それを簡単にWordpressで実現できました（落とし穴あり）結論から言うと、Wordpressの非公式APIであるスクリーンショットを取得するサービスを利用すると…

2017-04-21

Googleサイトサーチ(カスタム検索)終了！チーン！

3月いっぱいで、Googleカスタム検索の有料版であるGoogleサイトサーチが新規申し込みを締め切りました。 https://enterprise.google.co.jp/intl/ja/search/products/gss.html ちゃんとサイトを設計していればあまり迷うことなく、すなわち検索機能を使わない…

2017-04-11

qTranslateX を使用してWordpressで作成されたサイトをクロールするとクロールできないページが出る件

https://qtranslatexteam.wordpress.com/browser-redirection-based-on-language/によれば、URLに言語情報を含まない場合は、下記の値を元に判断しているようだ。 referrer url (if cookie is not set) cookie (‘qtrans_front_language’) browser setting (i…

I* HACK! ウェブ関連のタレコミ

2017-04-01から1ヶ月間の記事一覧

Scrapy のLinkExtractorとブラウザのリンク仕様

Wordpressの検索結果画面にスクリーンキャプチャを表示してみた

Googleサイトサーチ(カスタム検索)終了！チーン！

qTranslateX を使用してWordpressで作成されたサイトをクロールするとクロールできないページが出る件