Scrapy のLinkExtractorとブラウザのリンク仕様
Scrapyでは
/ top.html
|----- subdir_a/index_a.html
|----- subdir_b/index_b.html
というディレクトリ構造があり、
top.html に、<a href="../../../../subdir_a/index_a.html">
とあった場合、正しいURLではないので、400エラーとなり、クロールができません。
一方で、最近のブラウザは頭がよくて、
ドキュメントルートトップ以上に遡れないリンクは、勝手にドキュメントルート直下にあるものと扱うようで、
上記のリンクは正しく動作するんです!
昔はそんなことなかったと思うんですがねぇ。。