版元ドットコム

探せる、使える、本の情報

文芸 新書 社会一般 資格・試験 ビジネス スポーツ・健康 趣味・実用 ゲーム 芸能・タレント テレビ・映画化 芸術 哲学・宗教 歴史・地理 社会科学 教育 自然科学 医学 工業・工学 コンピュータ 語学・辞事典 学参 児童図書 ヤングアダルト 全集 文庫 コミック文庫 コミックス(欠番扱) コミックス(雑誌扱) コミックス(書籍) コミックス(廉価版) ムック 雑誌 増刊 別冊
データを集める技術 佐々木 拓郎(著/文) - SBクリエイティブ
..
【利用不可】

データを集める技術 (データヲアツメルギジュツ) 最速で作るスクレイピング&クローラー (サイソクデツクルスクレイピングアンドクローラー)

コンピュータ
このエントリーをはてなブックマークに追加
A5判
256ページ
定価 2,400円+税
ISBN
978-4-7973-8902-9   COPY
ISBN 13
9784797389029   COPY
ISBN 10h
4-7973-8902-8   COPY
ISBN 10
4797389028   COPY
出版者記号
7973   COPY
Cコード
C0055  
0:一般 0:単行本 55:電子通信
出版社在庫情報
不明
書店発売日
登録日
2016年11月2日
最終更新日
2016年11月22日
このエントリーをはてなブックマークに追加

紹介

インターネット・SNSから思い通りに情報を収集するための知識と実例をわかりやすく解説

ExcelやGoogleスプレッドーシート、APIなどを使ってクローラーをプログラミンし、簡単な操作で効率的にデータを集める手法を解説していきます。
企業情報、株価情報、Amazonの新刊情報、商品の口コミデータ、Googleの検索順位の履歴、Twitterから特定のキーワードの発見、iTunes/Google Playのアプリランキングなど、さまざまな役立つデータを収集していきます。

目次

Chapter1 スクレイピングとクローラーで効率的にデータを集めていく

1-1 データはWeb上に集まる
Web上に存在するデータの種類
本書が対象とするデータ

1-2 効率的にデータを収集するために行うこと
データ収集の3つのステップ

1-3 どうすれば自動化できるのか?
スクレイピングとクローラー
半自動化プログラムでできること
完全自動化プログラムでできること
本書の進め方

1-4 Webサイトからデータを集める際の注意事項
収集したデータの取り扱いと著作権
Webサイトのリソース圧迫と業務妨害
クローラーとAPI

Chapter2 Excelとブラウザを連携してWebページからデータを収集する

2-2 Excel VBAでWebからデータを収集する
Excelでのデータ収集テクニック
ExcelでVBAが使えるようにする設定
データを収集するためのプログラム

2-2 VBAでIEを操作する仕組み
宣言部分
VBAの関数の宣言
IEの操作

2-3 取得したHTMLから要素を抽出する仕組み
HTMLの構造
HTMLから要素を抜き出すプログラム

2-4 簡単な方法で要素を特定する
ChromeでXPathを抽出する方法
FirefoxでXPathの抽出する方法

2-5 WEBSERVICE関数とFILTERXML関数によるデータ収集
WEBSERVICE関数によるデータ収集
FILTERXML関数によるデータ収集

Chapter3 Googleスプレッドシートを利用して自動的にデータを収集する

3-1 GoogleスプレッドシートとGoogle Apps Scriptを準備する
Googleスプレッドシートとは
Google Apps Scriptとは
関数とクラス

3-2 ImportXML関数を使ってWebからデータを収集する
ImportXML関数の概要
株価データの取得方法
セルの値を利用した取得方法

3-3 Google Apps Scriptを利用してデータを収集する
Google Apps Scriptの使い方
Google Apps Scriptによるスクレイピング
Google Apps Scriptの実行

3-4 指定した時間に定期的にデータを収集する
Google Apps Scriptのトリガー
トリガーの設定方法

Chapter4 スクレイピング専用サービスを利用して手軽にWebからデータを収集する

4-1 import.ioを利用してWebからデータを収集する
import.ioのサービス概要
import.ioの利用方法

4-2 import.ioでスクレイピングを実行する
import.ioへのサインアップ
データの自動抽出
抽出したデータの取得方法
取得する要素の任意指定
APIを使ったデータ抽出

4-3 収集したデータをシート上に保存する
Googleスプレッドシートとの連携
Google Apps Scriptとの連携
Excelとの連携

Chapter5アプリケーションを利用してTwitterからデータを収集する

5-1 アプリを利用して収集した結果を通知する
通知を受け取るためのアプリケーション
IFTTTの概要
Slackの概要
myThingsの概要

5-2 IFTTTを使ってTwitter上でエゴサーチを行う
IFTTTの会員登録
モバイルアプリのインストール
Twitter検索のレシピ作成

5-3 Slackを利用して定期的にRSS情報を収集する
Slackの会員登録
RSSフィードの収集
モバイルアプリからの利用

5-4 myThingsを使ってTwitter上でエゴサーチを行う
会員登録とモバイルアプリのインストール
Twitter検索の組み合わせの作成

Chapter6 ターゲットを絞り込んで、さまざまなデータを自在に収集する

6-1 会社・商品に関する情報を収集する
特定のキーワードを収集する目的
収集・保存・通知方法

6-2 Webから特定の「キーワード」に関する情報を収集・蓄積する
Googleアラートの設定
IFTTTの設定
結果の確認

6-3 Twitterから特定の「キーワード」を含むツイートを収集・蓄積する
IFTTTの設定
結果の確認

6-4 App StoreからiOSアプリのランキングを収集する
ランキングのRSSフィード
ランキングの収集
結果を日付別シートに保存
指定した時間に毎日実行する

6-5 Google PlayからAndroidアプリのランキングを取得する
import.ioを使ったデータ収集
結果をGoogleスプレッドシートに保存
日本語ランキングの取得

6-6 Amazonのカスタマーレビューを収集する
import.ioを利用した収集方法
Googleスプレッドシート+ImportXMLによる収集方法
Google Apps Scriptを利用した収集方法

6-7 上場企業の時価総額を収集する
銘柄コード一覧の取得
株価に関する情報の収集
時系列で株価データを収集

6-8 Amazonのセール情報を取得する
Amazonのほしい物リスト
ほしい物リストから商品を取得(Excel版)
ほしい物リストから商品を取得する(Google Apps Script版)
Amazonの割引率が高い商品を探す
商品の割引率とポイント還元率の取得(Excel版)
商品の割引率とポイント還元率の取得(Google Apps Script版)

Chapter7 データを収集した後の見せ方と使い方のヒント

7-1 クローラー/スクレイピング開発と関連技術
認証が必要なページからのデータ収集
大規模

著者プロフィール

佐々木 拓郎  (ササキ タクロウ)  (著/文

大学卒業以来、一貫してWeb系のシステム開発に従事。企画から設計開発、運用まで全ての工程に関わる。またシリコンバレー勤務時代には、オープンソースのR&Dや海外プロダクトの日本導入などに従事。最近の主な活動は、AWS事業の推進とモバイルアプリ開発。どうすれば楽に過ごせるかを模索するために、忙しい日々を送っている。著書:『Rubyによるクローラー開発技法』『AmazonWebServicesパターン別構築・運用ガイド』『AmazonWebServicesクロウドネイティブ・アプリケーション開発技法』(SBクリエイティブ刊)

上記内容は本書刊行時のものです。