出版社を探す

データを集める技術

最速で作るスクレイピング&クローラー

著:佐々木 拓郎

紙版

内容紹介

インターネット・SNSから思い通りに情報を収集するための知識と実例をわかりやすく解説

ExcelやGoogleスプレッドーシート、APIなどを使ってクローラーをプログラミンし、簡単な操作で効率的にデータを集める手法を解説していきます。
企業情報、株価情報、Amazonの新刊情報、商品の口コミデータ、Googleの検索順位の履歴、Twitterから特定のキーワードの発見、iTunes/Google Playのアプリランキングなど、さまざまな役立つデータを収集していきます。

目次

Chapter1 スクレイピングとクローラーで効率的にデータを集めていく

1-1 データはWeb上に集まる
Web上に存在するデータの種類
本書が対象とするデータ

1-2 効率的にデータを収集するために行うこと
データ収集の3つのステップ

1-3 どうすれば自動化できるのか?
スクレイピングとクローラー
半自動化プログラムでできること
完全自動化プログラムでできること
本書の進め方

1-4 Webサイトからデータを集める際の注意事項
収集したデータの取り扱いと著作権
Webサイトのリソース圧迫と業務妨害
クローラーとAPI

Chapter2 Excelとブラウザを連携してWebページからデータを収集する

2-2 Excel VBAでWebからデータを収集する
Excelでのデータ収集テクニック
ExcelでVBAが使えるようにする設定
データを収集するためのプログラム

2-2 VBAでIEを操作する仕組み
宣言部分
VBAの関数の宣言
IEの操作

2-3 取得したHTMLから要素を抽出する仕組み
HTMLの構造
HTMLから要素を抜き出すプログラム

2-4 簡単な方法で要素を特定する
ChromeでXPathを抽出する方法
FirefoxでXPathの抽出する方法

2-5 WEBSERVICE関数とFILTERXML関数によるデータ収集
WEBSERVICE関数によるデータ収集
FILTERXML関数によるデータ収集

Chapter3 Googleスプレッドシートを利用して自動的にデータを収集する

3-1 GoogleスプレッドシートとGoogle Apps Scriptを準備する
Googleスプレッドシートとは
Google Apps Scriptとは
関数とクラス

3-2 ImportXML関数を使ってWebからデータを収集する
ImportXML関数の概要
株価データの取得方法
セルの値を利用した取得方法

3-3 Google Apps Scriptを利用してデータを収集する
Google Apps Scriptの使い方
Google Apps Scriptによるスクレイピング
Google Apps Scriptの実行

3-4 指定した時間に定期的にデータを収集する
Google Apps Scriptのトリガー
トリガーの設定方法

Chapter4 スクレイピング専用サービスを利用して手軽にWebからデータを収集する

4-1 import.ioを利用してWebからデータを収集する
import.ioのサービス概要
import.ioの利用方法

4-2 import.ioでスクレイピングを実行する
import.ioへのサインアップ
データの自動抽出
抽出したデータの取得方法
取得する要素の任意指定
APIを使ったデータ抽出

4-3 収集したデータをシート上に保存する
Googleスプレッドシートとの連携
Google Apps Scriptとの連携
Excelとの連携

Chapter5アプリケーションを利用してTwitterからデータを収集する

5-1 アプリを利用して収集した結果を通知する
通知を受け取るためのアプリケーション
IFTTTの概要
Slackの概要
myThingsの概要

5-2 IFTTTを使ってTwitter上でエゴサーチを行う
IFTTTの会員登録
モバイルアプリのインストール
Twitter検索のレシピ作成

5-3 Slackを利用して定期的にRSS情報を収集する
Slackの会員登録
RSSフィードの収集
モバイルアプリからの利用

5-4 myThingsを使ってTwitter上でエゴサーチを行う
会員登録とモバイルアプリのインストール
Twitter検索の組み合わせの作成

Chapter6 ターゲットを絞り込んで、さまざまなデータを自在に収集する

6-1 会社・商品に関する情報を収集する
特定のキーワードを収集する目的
収集・保存・通知方法

6-2 Webから特定の「キーワード」に関する情報を収集・蓄積する
Googleアラートの設定
IFTTTの設定
結果の確認

6-3 Twitterから特定の「キーワード」を含むツイートを収集・蓄積する
IFTTTの設定
結果の確認

6-4 App StoreからiOSアプリのランキングを収集する
ランキングのRSSフィード
ランキングの収集
結果を日付別シートに保存
指定した時間に毎日実行する

6-5 Google PlayからAndroidアプリのランキングを取得する
import.ioを使ったデータ収集
結果をGoogleスプレッドシートに保存
日本語ランキングの取得

6-6 Amazonのカスタマーレビューを収集する
import.ioを利用した収集方法
Googleスプレッドシート+ImportXMLによる収集方法
Google Apps Scriptを利用した収集方法

6-7 上場企業の時価総額を収集する
銘柄コード一覧の取得
株価に関する情報の収集
時系列で株価データを収集

6-8 Amazonのセール情報を取得する
Amazonのほしい物リスト
ほしい物リストから商品を取得(Excel版)
ほしい物リストから商品を取得する(Google Apps Script版)
Amazonの割引率が高い商品を探す
商品の割引率とポイント還元率の取得(Excel版)
商品の割引率とポイント還元率の取得(Google Apps Script版)

Chapter7 データを収集した後の見せ方と使い方のヒント

7-1 クローラー/スクレイピング開発と関連技術
認証が必要なページからのデータ収集
大規模

著者略歴

著:佐々木 拓郎
大学卒業以来、一貫してWeb系のシステム開発に従事。企画から設計開発、運用まで全ての工程に関わる。またシリコンバレー勤務時代には、オープンソースのR&Dや海外プロダクトの日本導入などに従事。最近の主な活動は、AWS事業の推進とモバイルアプリ開発。どうすれば楽に過ごせるかを模索するために、忙しい日々を送っている。著書:『Rubyによるクローラー開発技法』『AmazonWebServicesパターン別構築・運用ガイド』『AmazonWebServicesクロウドネイティブ・アプリケーション開発技法』(SBクリエイティブ刊)

ISBN:9784797389029
出版社:SBクリエイティブ
判型:A5
ページ数:256ページ
定価:2400円(本体)
発行年月日:2016年11月
発売日:2016年11月30日
国際分類コード【Thema(シーマ)】 1:KN
国際分類コード【Thema(シーマ)】 2:TJK