チップス

Goutte ライブラリでスクレイピング PHP


Goutteライブラリを使ってWebスクレイピングをする。

goutte.phar(グート)を使うと短いソースコードで簡単にスクレイピング出来ますね。

google API が使えなくなったので、google検索結果 上位10件が表示されたページのHTMLソースから直接、必要な部分(件名、URL、詳細)を抜き出して多次元配列にストアしました。

あまりにも簡単にスクレイピング出来てしまったので、これからスクレイピングするなら goutte を使うようにしようと思いました。

Goutteライブラリ=>https/github.com/fabpot/goutte
ダウンロード先:http://get.sensiolabs.org/goutte.phar

include_pathに配置

https://www.google.co.jp/search?ie=UTF-8&q=ほげほげ+へろへろ

参考URL
●->WebスクレイピングライブラリGoutteで遊んでみる - hnwの日記

●->ziadoz / scrape.php https://gist.github.com/ziadoz/3344345

●->Goutteを使用してHTMLを解析する方法

保存場所 自宅サーバ/(program)/get_google.php


   チップス