版元ドットコム

探せる、使える、本の情報

文芸 新書 社会一般 資格・試験 ビジネス スポーツ・健康 趣味・実用 ゲーム 芸能・タレント テレビ・映画化 芸術 哲学・宗教 歴史・地理 社会科学 教育 自然科学 医学 工業・工学 コンピュータ 語学・辞事典 学参 児童図書 ヤングアダルト 全集 文庫 コミック文庫 コミックス(欠番扱) コミックス(雑誌扱) コミックス(書籍) コミックス(廉価版) ムック 雑誌 増刊 別冊 ラノベ
Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド- 加藤 耕太(著/文) - 技術評論社
..

Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド-

発行:技術評論社
B5変型判
440ページ
定価 3,280円+税
ISBN
9784297107383
Cコード
C3055
専門 単行本 電子通信
出版社在庫情報
不明
書店発売日
登録日
2019年6月21日
最終更新日
2019年7月24日
このエントリーをはてなブックマークに追加

紹介

Pythonによるクローリング・スクレイピングの入門から実践までを解説した書籍です。2017年の初版から内容をアップデート、新ライブラリの解説などを追加した増補改訂版です。基本的なクローリングやAPIを活用したデータ収集、HTMLやXMLの解析から、データ取得後の分析や機械学習などの処理まで解説。データの収集・解析、活用がしっかりと基本から学べます。Webサービスの開発やデータサイエンスや機械学習分野で実用したい人はもちろん、基礎から解説しているのでPython初心者でもつまずかずに学習できます。多数のライブラリ、強力なフレームワークを活用して高効率に開発できます。

目次

1. クローリング・スクレイピングとは何か
1-1. 本書が取り扱う領域
1-2. Wgetによるクローリング
1-3. スクレイピングに役立つUnixコマンド
1-4. gihyo.jpのスクレイピング
1-5. まとめ
2. Pythonではじめるクローリング・スクレイピング
2-1. Pythonを使うメリット
2-2. Pythonのインストールと実行
2-3. Pythonの基礎知識
2-4. Webページを取得する
2-5. Webページからデータを抜き出す
2-6. データをファイルに保存する
2-7. Pythonによるスクレイピングの流れ
2-8. URLの基礎知識
2-9. まとめ
3. ライブラリによる高度なクローリング・スクレイピング
3-1. HTMLのスクレイピング
3-2. XMLのスクレイピング
3-3. データベースに保存する
3-4. クローラーとURL
3-5. Pythonによるクローラーの作成
3-6. まとめ
4. 実用のためのメソッド
4-1. クローラーの特性
4-2. 収集したデータの利用に関する注意
4-3. クロール先の負荷に関する注意
4-4. 繰り返しの実行を前提とした設計
4-5. まとめ
5. クローリング・スクレイピングの実践とデータの活用
5-1. データセットの取得と活用
5-2. APIによるデータの収集と活用
5-3. 時系列データの収集と活用
5-4. オープンデータの収集と活用
5-5. Webページの自動操作
5-6. JavaScriptを使ったページのスクレイピング
5-7. 取得したデータの活用
5-8. まとめ
6. フレームワーク Scrapy
6-1. Scrapyの概要
6-2. Spiderの作成と実行
6-3. 実践的なクローリング
6-4. 抜き出したデータの処理
6-5. Scrapyの設定
6-6. Scrapyの拡張
6-7. クローリングによるデータの収集と活用
6-8. 画像の収集と活用
6-9. まとめ
7. クローラーの継続的な運用・管理
7-1. クローラーをサーバーで実行する
7-2. クローラーの定期的な実行
7-3. クローリングとスクレイピングの分離
7-4. クローリングの高速化・非同期化
7-5. クラウドを活用する
7-6. まとめ
Appendix. Vagrantによる開発環境の構築
A-1. VirtualBoxとVagrant
A-2. CPUの仮想化支援機能を有効にする
A-3. VirtualBoxのインストール
A-4. Vagrantのインストール
A-5. 仮想マシンを起動する
A-6. ゲストOSにSSH接続する
A-7. Pythonのスクリプトファイルを実行する
A-8. Linuxの基本操作
A-9. Vagrantで仮想マシンを操作するコマンド

上記内容は本書刊行時のものです。