出版社を探す

Pythonクローリング&スクレイピング

増補改訂版

データ収集・解析のための実践開発ガイド

著:加藤 耕太

紙版

内容紹介

Pythonによるクローリング・スクレイピングの入門から実践までを解説した書籍です。2017年の初版から内容をアップデート、新ライブラリの解説などを追加した増補改訂版です。基本的なクローリングやAPIを活用したデータ収集、HTMLやXMLの解析から、データ取得後の分析や機械学習などの処理まで解説。データの収集・解析、活用がしっかりと基本から学べます。Webサービスの開発やデータサイエンスや機械学習分野で実用したい人はもちろん、基礎から解説しているのでPython初心者でもつまずかずに学習できます。多数のライブラリ、強力なフレームワークを活用して高効率に開発できます。

目次

1. クローリング・スクレイピングとは何か
1-1. 本書が取り扱う領域
1-2. Wgetによるクローリング
1-3. スクレイピングに役立つUnixコマンド
1-4. gihyo.jpのスクレイピング
1-5. まとめ
2. Pythonではじめるクローリング・スクレイピング
2-1. Pythonを使うメリット
2-2. Pythonのインストールと実行
2-3. Pythonの基礎知識
2-4. Webページを取得する
2-5. Webページからデータを抜き出す
2-6. データをファイルに保存する
2-7. Pythonによるスクレイピングの流れ
2-8. URLの基礎知識
2-9. まとめ
3. ライブラリによる高度なクローリング・スクレイピング
3-1. HTMLのスクレイピング
3-2. XMLのスクレイピング
3-3. データベースに保存する
3-4. クローラーとURL
3-5. Pythonによるクローラーの作成
3-6. まとめ
4. 実用のためのメソッド
4-1. クローラーの特性
4-2. 収集したデータの利用に関する注意
4-3. クロール先の負荷に関する注意
4-4. 繰り返しの実行を前提とした設計
4-5. まとめ
5. クローリング・スクレイピングの実践とデータの活用
5-1. データセットの取得と活用
5-2. APIによるデータの収集と活用
5-3. 時系列データの収集と活用
5-4. オープンデータの収集と活用
5-5. Webページの自動操作
5-6. JavaScriptを使ったページのスクレイピング
5-7. 取得したデータの活用
5-8. まとめ
6. フレームワーク Scrapy
6-1. Scrapyの概要
6-2. Spiderの作成と実行
6-3. 実践的なクローリング
6-4. 抜き出したデータの処理
6-5. Scrapyの設定
6-6. Scrapyの拡張
6-7. クローリングによるデータの収集と活用
6-8. 画像の収集と活用
6-9. まとめ
7. クローラーの継続的な運用・管理
7-1. クローラーをサーバーで実行する
7-2. クローラーの定期的な実行
7-3. クローリングとスクレイピングの分離
7-4. クローリングの高速化・非同期化
7-5. クラウドを活用する
7-6. まとめ
Appendix. Vagrantによる開発環境の構築
A-1. VirtualBoxとVagrant
A-2. CPUの仮想化支援機能を有効にする
A-3. VirtualBoxのインストール
A-4. Vagrantのインストール
A-5. 仮想マシンを起動する
A-6. ゲストOSにSSH接続する
A-7. Pythonのスクリプトファイルを実行する
A-8. Linuxの基本操作
A-9. Vagrantで仮想マシンを操作するコマンド

ISBN:9784297107383
出版社:技術評論社
判型:B5変
ページ数:440ページ
定価:3280円(本体)
発行年月日:2019年08月
発売日:2019年08月08日
国際分類コード【Thema(シーマ)】 1:UB