2017-04-25から1日間の記事一覧

Scrapy のLinkExtractorとブラウザのリンク仕様

Scrapyでは/ top.html |----- subdir_a/index_a.html |----- subdir_b/index_b.html というディレクトリ構造があり、 top.html に、<a href="../../../../subdir_a/index_a.html"> とあった場合、正しいURLではないので、400エラーとなり、クロールができません。一方で、最近のブラウザは頭がよくて、 ド</a>…