出版社を探す

エンジニア入門シリーズ

Pythonではじめる異常検知入門 ー基礎から実践までー

監:笛田 薫
著:江崎 剛史
著:李 鍾賛

紙版

内容紹介

ビジネスの現場で異常が発生することは、従来通りに順調に進めてきた業務が妨げられ、原因究明や修理に時間と手間をとられることになるため、異常が発生する前に、もしくは発生したとしても、早めに検知して対策を取りたいものです。
本書を手に取られた読者の方々が、各自のデータで分析を行い、異常を検知するためのスタートの手助けになる書籍を書けないかと思ったことが、本書を執筆するに至った理由です。そのため、第I 部と第II 部は、知識と方法に関しての説明を行っていますが、第III 部の実践では、分析例をお示ししており、そこで用いたソースコードとcsv 形式にしたデータをダウンロード可能な環境として整備しました。ソースコードをダウンロードできることで、読者の方のパソコンで分析を再現することができます。そして何より、データをcsv 形式で共有していることが、意外に大きなポイントであると考えています。csv 形式であれば、実際にExcel などでファイルを開いてみて、「こんな形のデータを用意すればいいのか」と、自分達のデータの形式を変換することで、自分達のデータを分析することができます。
本書を読んでいただくと、課題設定、データの前処理と可視化方法、分析の手法の選択、結果の解釈方法など、データを見ながらどのように考えるかということに、かなり人間の頭を使う項目が多かったように感じられるかと思います。
目的に応じた課題を設定し、データの中からビジネス課題を解決できるような問題を提起し、結果を可視化して「気づき」を得て、どのように検知を実装していくか、という頭の使い所は、これからも必要になってきます。本書をスタートとし、データを使った異常検知を体験していただき、AI などのデータ分析手法を使って(使われるのではなく)、DX 時代らしいデータ分析を行ってビジネス課題解決に取り組んでいただければ、至高の喜びです。

目次

第I部 異常検知の準備
第1章 イントロダクション
1–1  異常検知とは何か
1–2  各章のつながり
第2章 異常検知のデータサイエンス
2–1  得られたデータの見える化(可視化)
2–2  得られたデータの数式化:回帰モデル
2–2–1  回帰モデルの構築
2–2–2  モデルの当てはまりの良さ
2–3  交差検証法
2–4  次元圧縮:主成分分析
2–4–1  主成分の導出
2–4–2  寄与率と累積寄与率
2–4–3  主成分スコア
2–4–4  因子負荷量と主成分の解釈
2–5  ベイズの定理
2–5–1  事象の設定
2–5–2  事象の確率
2–5–3  条件付き確率
2–5–4  ベイズの定理
第3章 異常検知
3–1  データに基づいた異常検知
3–2  異常度:正常と異常を判別する客観的基準
3–2–1  異常度算出の例1:データ間の距離を参考に正常と異常を考える
3–2–2  異常度算出の例2:正規分布を仮定して正常と異常を考える
3–3  異常検知の性能評価
3–3–1  正常データに対する精度
3–3–2  異常データに対する精度
3–3–3  分岐精度とF 値
3–3–4  ROC 曲線の下部面積
3–4  この章で使用したPython コード
第4章 距離に基づいた異常検知
4–1  はじめに
4–2  類似度(距離)
4–3  距離に基づく異常検知のアプローチ
4–3–1  全てのデータ点との距離
4–3–2  最近傍(Nearest Neighbor) からの距離
4–3–3  k 近傍(Nearest Neighbor) からの平均距離
4–3–4  k 最近傍までの距離の中央値
第II部 データの特性でアプローチを決める
第5章 入出力の情報にもとづくアプローチ
5–1  通常状態からの乖離に基づく検知:ホテリングT2
5–1–1  データが従う確率分布の仮定
5–1–2  異常度の算出
5–1–3  異常判別の閾値設定
5–2  過去の傾向からの乖離に基づく検知:k-近傍法
5–2–1  データが従う確率分布の仮定
5–2–2  異常度の算出
5–2–3  異常判別の閾値設定
5–3  特定の構造から外れたデータの検知:One-ClassSVM
5–3–1  データを囲む最小の球を考える
5–3–2  異常度の定義
5–3–3  カーネルトリック
5–3–4  異常判別の閾値設定
5–4  この章で使用したPython コード
第6章 時系列情報にもとづくアプローチ
6–1  定常状態の時系列データの異常検知
6–1–1  前の時点との相関を調べる
6–1–2  異常度の算出
6–1–3  異常度判別の閾値設定
6–2  非定常状態の時系列データの異常検知
6–2–1  差分をとって定常状態とみなせる形に変換する
6–2–2  異常度の算出
6–2–3  異常度判別の閾値設定
6–3  この章で使用したPython コード
第III部 実践
第7章 異常検知の実践例
7–1  複数入力データの異常検知
7–1–1  通常状態からの乖離に基づく検知:ホテリングT2
7–1–2  特定の構造から外れたデータの検知:One-Class SVM
7–1–3  補足:ホテリングT2 とOne-Class SVM の違い
7–2  時系列データの異常検知
7–2–1  気温データの時系列解析
7–2–2  補足:時系列モデルのパラメータ推定
第8章 補足
8–1  Python のインストールと実行
8–1–1  Anaconda のインストール
8–1–2  Jupyter Notebook を使ったインタラクティブ環境
8–1–3  簡単な計算
8–1–4  変数の型
8–1–5  データ構造
8–1–6  プログラムの基本(for 文とif 文)
8–1–7  データの可視化
8–1–8  ライブラリのインストール
8–2  分岐ルールを作るアプローチ(Isolation Forest)
8–3  異常検知の理解に有用な文献・サイト
8–3–1  統計の基礎知識に関する書籍
8–3–2  一般的な統計に関する書籍
8–3–3  さらに進んだ統計の学習のための書籍
8–3–4  機械学習に関する書籍
8–3–5  データの可視化に関する書籍
8–3–6  Python の使い方に関する書籍
8–3–7  異常検知に関する書籍・Web サイト
8–3–8  データを使ったビジネス課題の解決のヒントになる書籍
参考文献

著者略歴

監:笛田 薫
九州大学大学院数理学府学位取得(学位:数理学)。九州大学大学院数理学研究院助手、岡山大学環境理工学部講師、岡山大学環境学研究科准教授を経て、現在滋賀大学データサイエンス学部教授、滋賀大学データサイエンス・AI イノベーション研究推進センター長。
著:江崎 剛史
大阪大学大学院生命機能研究科学位取得(博士(理学))。理化学研究所生命システム研究センターリサーチアソシエイト、医薬基盤・健康・栄養研究所特任研究員、滋賀大学データサイエンス教育研究センター助教、同データサイエンス・AI イノベーション研究推進センター准教授を経て、滋賀大学データサイエンス学部准教授。専門はケモインフォマティクスとバイオインフォマティクス。
著:李 鍾賛
(韓国)高麗大学大学院統計学科学位取得(数理統計学博士)。高麗大学統計研究所研究教授、高麗大学医学部医学統計学教室研究教授、滋賀大学データサイエンス教育研究センター助教を経て、大阪経済法科大学経済学部准教授。専門は数理統計学に基づいたデータ可視化、多変量分析、医学統計学、ベイズ統計モデリング、計量経済学。

ISBN:9784910558196
出版社:科学情報出版
判型:A5
ページ数:206ページ
定価:3500円(本体)
発行年月日:2023年04月
発売日:2023年04月20日
国際分類コード【Thema(シーマ)】 1:UB