Scrapy のLinkExtractorとブラウザのリンク仕様

Scrapyでは

/ top.html
|----- subdir_a/index_a.html
|----- subdir_b/index_b.html

というディレクトリ構造があり、
top.html に、<a href="../../../../subdir_a/index_a.html">
とあった場合、正しいURLではないので、400エラーとなり、クロールができません。

一方で、最近のブラウザは頭がよくて、
ドキュメントルートトップ以上に遡れないリンクは、勝手にドキュメントルート直下にあるものと扱うようで、
上記のリンクは正しく動作するんです!


昔はそんなことなかったと思うんですがねぇ。。