Webスクレイピングができるサイトについて

Webスクレイピングは、基本的にHTMLのTABLEタグを見つけて、そこからデータを取り出すという仕組みになります。

そのため、ページによっては、TABLEタグを使って書かれていないことがあるため、テーブル状のデータとして認識ができずにデータを取得できないことがあります。

例えば、こちらのようなWebサイトであれば、スクレイピングをしてデータを取得することが可能です。

image

Exploratoryが内部で利用しているライブラリはrvestというもので、Rスクリプトデータソースを作成してその中でrvestを直接呼び出せばより柔軟にWebスクレイピングをすることが可能です。「rvest スクレイピング」で検索しますと記事が色々と出てきますので、よろしければチャレンジしてみてください。

「いいね!」 1