書店員向け情報 HELP
出版者情報
書店注文情報
データを集める技術
最速で作るスクレイピング&クローラー
- 書店発売日
- 2016年11月30日
- 登録日
- 2016年11月2日
- 最終更新日
- 2016年11月22日
紹介
インターネット・SNSから思い通りに情報を収集するための知識と実例をわかりやすく解説
ExcelやGoogleスプレッドーシート、APIなどを使ってクローラーをプログラミンし、簡単な操作で効率的にデータを集める手法を解説していきます。
企業情報、株価情報、Amazonの新刊情報、商品の口コミデータ、Googleの検索順位の履歴、Twitterから特定のキーワードの発見、iTunes/Google Playのアプリランキングなど、さまざまな役立つデータを収集していきます。
目次
Chapter1 スクレイピングとクローラーで効率的にデータを集めていく
1-1 データはWeb上に集まる
Web上に存在するデータの種類
本書が対象とするデータ
1-2 効率的にデータを収集するために行うこと
データ収集の3つのステップ
1-3 どうすれば自動化できるのか?
スクレイピングとクローラー
半自動化プログラムでできること
完全自動化プログラムでできること
本書の進め方
1-4 Webサイトからデータを集める際の注意事項
収集したデータの取り扱いと著作権
Webサイトのリソース圧迫と業務妨害
クローラーとAPI
Chapter2 Excelとブラウザを連携してWebページからデータを収集する
2-2 Excel VBAでWebからデータを収集する
Excelでのデータ収集テクニック
ExcelでVBAが使えるようにする設定
データを収集するためのプログラム
2-2 VBAでIEを操作する仕組み
宣言部分
VBAの関数の宣言
IEの操作
2-3 取得したHTMLから要素を抽出する仕組み
HTMLの構造
HTMLから要素を抜き出すプログラム
2-4 簡単な方法で要素を特定する
ChromeでXPathを抽出する方法
FirefoxでXPathの抽出する方法
2-5 WEBSERVICE関数とFILTERXML関数によるデータ収集
WEBSERVICE関数によるデータ収集
FILTERXML関数によるデータ収集
Chapter3 Googleスプレッドシートを利用して自動的にデータを収集する
3-1 GoogleスプレッドシートとGoogle Apps Scriptを準備する
Googleスプレッドシートとは
Google Apps Scriptとは
関数とクラス
3-2 ImportXML関数を使ってWebからデータを収集する
ImportXML関数の概要
株価データの取得方法
セルの値を利用した取得方法
3-3 Google Apps Scriptを利用してデータを収集する
Google Apps Scriptの使い方
Google Apps Scriptによるスクレイピング
Google Apps Scriptの実行
3-4 指定した時間に定期的にデータを収集する
Google Apps Scriptのトリガー
トリガーの設定方法
Chapter4 スクレイピング専用サービスを利用して手軽にWebからデータを収集する
4-1 import.ioを利用してWebからデータを収集する
import.ioのサービス概要
import.ioの利用方法
4-2 import.ioでスクレイピングを実行する
import.ioへのサインアップ
データの自動抽出
抽出したデータの取得方法
取得する要素の任意指定
APIを使ったデータ抽出
4-3 収集したデータをシート上に保存する
Googleスプレッドシートとの連携
Google Apps Scriptとの連携
Excelとの連携
Chapter5アプリケーションを利用してTwitterからデータを収集する
5-1 アプリを利用して収集した結果を通知する
通知を受け取るためのアプリケーション
IFTTTの概要
Slackの概要
myThingsの概要
5-2 IFTTTを使ってTwitter上でエゴサーチを行う
IFTTTの会員登録
モバイルアプリのインストール
Twitter検索のレシピ作成
5-3 Slackを利用して定期的にRSS情報を収集する
Slackの会員登録
RSSフィードの収集
モバイルアプリからの利用
5-4 myThingsを使ってTwitter上でエゴサーチを行う
会員登録とモバイルアプリのインストール
Twitter検索の組み合わせの作成
Chapter6 ターゲットを絞り込んで、さまざまなデータを自在に収集する
6-1 会社・商品に関する情報を収集する
特定のキーワードを収集する目的
収集・保存・通知方法
6-2 Webから特定の「キーワード」に関する情報を収集・蓄積する
Googleアラートの設定
IFTTTの設定
結果の確認
6-3 Twitterから特定の「キーワード」を含むツイートを収集・蓄積する
IFTTTの設定
結果の確認
6-4 App StoreからiOSアプリのランキングを収集する
ランキングのRSSフィード
ランキングの収集
結果を日付別シートに保存
指定した時間に毎日実行する
6-5 Google PlayからAndroidアプリのランキングを取得する
import.ioを使ったデータ収集
結果をGoogleスプレッドシートに保存
日本語ランキングの取得
6-6 Amazonのカスタマーレビューを収集する
import.ioを利用した収集方法
Googleスプレッドシート+ImportXMLによる収集方法
Google Apps Scriptを利用した収集方法
6-7 上場企業の時価総額を収集する
銘柄コード一覧の取得
株価に関する情報の収集
時系列で株価データを収集
6-8 Amazonのセール情報を取得する
Amazonのほしい物リスト
ほしい物リストから商品を取得(Excel版)
ほしい物リストから商品を取得する(Google Apps Script版)
Amazonの割引率が高い商品を探す
商品の割引率とポイント還元率の取得(Excel版)
商品の割引率とポイント還元率の取得(Google Apps Script版)
Chapter7 データを収集した後の見せ方と使い方のヒント
7-1 クローラー/スクレイピング開発と関連技術
認証が必要なページからのデータ収集
大規模
上記内容は本書刊行時のものです。