2017-05-01から1ヶ月間の記事一覧

Scrapyでサイトをクロールし、ElasticSearchでサイトの概要を把握する (3)

前回までで、Scrapyでクロールしたページ情報をElasticSearchにインデックスするところまで設定したが、 実はあれだけだと、うまくESやkibana上で検索できなかったりする。 デフォルトではDynamic Mappingといって データをPOSTすれば勝手にフィールドなどを…

Scrapyでサイトをクロールし、ElasticSearchでサイトの概要を把握する (2)

Vol1の続き。 今回はScrapyでクロールし、その結果をElasticSearchにインデックスするところまで。 Scrapyのプロジェクトを作成 $ scrapy startproject scrapy_tutorial ElasticSearchとの連携設定 $ cat scrapy_tutorial/settings.py ITEM_PIPELINES = { 's…

Scrapyでサイトをクロールし、ElasticSearchでサイトの概要を把握する (1)

サイトリニューアルなどで、既存のサイト状況を把握するためのツールとして サイトをScrapyでクロールし、その統計情報などをElasticSearchにインデックスしてkibanaで解析することを思いついたので、やってみた。CentOS6へセットアップします ElasticSearch…