出版社を探す

大規模データのマイニング

他著:Anand Rajaraman
訳:岩野 和生
訳:浦本 直彦

紙版

内容紹介

 ウェブやインターネットコマースの隆盛によって,とてつもなく巨大なデータセットが出現し,そして,データマイニングによってそれらから情報が抽出されている。
巨大なデータに対するマイニングにおいては,従来から知られているアルゴリズムがそのままでは機能しないことが多い。巨大なデータを扱う上でこれまでとは違った処理戦略や技法が必要となる。

 本書はデータマイニングにおいて重要な問題の解決に使われてきており,さらに巨大なデータセットに対しても使用できる実用的なアルゴリズムを,データベースやウェブ技術の分野で著名な原著者が解説する。

 まず,データマイニングの本質や,データマイニングがどのように扱われているかを概観する。次に,今後非常に大量のデータの解析を行う際に,クラウドコンピューティングとともに重要視されると考えられ,この後の章の議論に必須のものとなるマップレデュースを解説する。その後,類似するアイテムの検索で用いられるシングリング,ミンハッシュや局所性鋭敏型ハッシュ(LSH)を説明する。その次に,すぐに反応しないと消えてしまう,ストリーム形式のデータについて考え,そのあとで検索エンジンに用いられているPageRankという計算手法を扱う。それ以降では,頻出するアイテムセットやクラスターを見つける問題を扱い,最後には,現在のオンライン商店の活動で必須の,推薦システムとオンライン広告という,二つの話題を扱う。

 全体として初心者にもわかりやすく詳説されており,大規模なデータに立ち向かう学生のみならず,データサイエンティストを始めとした実務家にも必携の書となろう。

目次

第1章 データマイニング
1.1 データマイニングとは何か?
1.2 データマイニングの統計的な限界
1.3 知っておくと役に立つこと
1.4 本書の概略
1.5 第1章の要約
1.6 第1章の参照文献

第2章 大規模ファイルシステムとマップレデュース
2.1 分散ファイルシステム
2.2 マップレデュース
2.3 マップレデュースを用いたアルゴリズム
2.4 マップレデュースへの拡張
2.5 クラスター計算の効率
2.6 第2章の要約
2.7 第2章の参照文献

第3章 類似したアイテムを探す
3.1 近傍探索の応用
3.2 文書のシングリング
3.3 類似度を保持した集合の要約
3.4 文書の局所性鋭敏型ハッシング
3.5 距離尺度
3.6 局所性鋭敏型関数の理論
3.7 その他の距離尺度のためのLSH族
3.8 局所性鋭敏型ハッシュ法の応用
3.9 高い類似度に対する手法
3.10 第3章の要約
3.11 第3章の参照文献

第4章 データストリームのマイニング
4.1 ストリームデータモデル
4.2 ストリームデータのサンプリング
4.3 ストリームをフィルタリングする
4.4 ストリーム中の異なる要素を数える
4.5 モーメントを推定する
4.6 窓に含まれる1の数をカウントする
4.7 減衰する窓
4.8 第4章の要約
4.9 第4章の参照文献

第5章 リンク解析
5.1 PageRank
5.2 PageRankの効率の良い計算
5.3 話題に敏感なPageRank
5.4 リンクスパム
5.5 ハブとオーソリティー
5.6 第5章の要約
5.7 第5章の参照文献

第6章 頻出アイテムセット
6.1 マーケットバスケットモデル
6.2 マーケットバスケットとアプリオリアルゴリズム
6.3 主記憶上でより大きなデータセットを扱う
6.4 パスの回数が限られているアルゴリズム
6.5 ストリームで頻出アイテムを数える
6.6 第6章の要約
6.7 第6章の参照文献

第7章 クラスタリング
7.1 クラスタリング技法の入門
7.2 階層型クラスタリング
7.3 K平均アルゴリズム
7.4 CUREアルゴリズム
7.5 非ユークリッド空間でのクラスタリング
7.6 ストリームに対するクラスタリングと並列化
7.7 第7章の要約
7.8 第7章の参照文献

第8章 ウェブ上での宣伝
8.1 オンライン広告の課題
8.2 オンラインアルゴリズム
8.3 マッチング問題
8.4 アドワーズ問題
8.5 アドワーズの実装
8.6 第8章の要約
8.7 第8章の参照文献

第9章 推薦システム
9.1 推薦システムの1つのモデル
9.2 内容にもとづいた推薦
9.3 協調フィルタリング
9.4 次元の削減
9.5 Netflixチャレンジ
9.6 第9章の要約
9.7 第9章の参照文献

ISBN:9784320123755
出版社:共立出版
判型:B5
ページ数:372ページ
定価:5500円(本体)
発行年月日:2014年07月
発売日:2014年07月28日
国際分類コード【Thema(シーマ)】 1:UB