出版社を探す

impress top gearシリーズ

pandasライブラリ活用入門[第2版] データクリーニング/前処理など一連の分析プロセスをマスター!

著:Daniel Y. Chen
著:吉川邦夫
著:福島真太朗

電子版

内容紹介

<データサイエンス/データ分析の基本技術を体系的に網羅!>
<pandasの威力を実感! 効率的なデータ操作と可視化を実践できる>

データ分析や機械学習を利用する現場では、データを取り込み、変換/整備する必要があります。
そうしたデータの取り込みや前処理から始め、データ解析をスムーズに進めるための
Pythonライブラリとして、pandasが用意されています。

本書では、pandasなどを使ったデータ分析全体の基本手法を体系的・網羅的にカバー。
巻末の付録では、Python環境のインストールや文法などPythonの基本事項も確認できます。

初中級レベルの方がコードを試しながら理解を深めたり、おぼろげな知識について
確認したりすることで、基礎技術の定着やスキルアップが図れる一冊になっています。

「データクリーニング/前処理に慣れてから、モデリングを解説!
解釈しやすい形にデータセットを変更できる」

※本書は『Pandas for Everyone, 2nd Edition』の翻訳書です。

■本書の「序文」から抜粋
pandasを使うと、Pythonによるデータ分析が理解しやすくなり、
組織的で保守が可能なデータセットを作ることができ、
しかも(最も重要なことですが)整然としたデータセットが得られます。

目次

表紙
口絵
本扉
サンプル/正誤表など
序文―第2版に寄せて
初版の序文
はじめに
本書の構成
本書の読み方/開発環境の準備
謝辞/初版の謝辞
著者について
第2版での変更点
目次
第1部 基本的な使い方
第1章 DataFrameの基礎/1.1 はじめに
1.2 最初のデータセットをロードする
1.3 列、行、セルを見る
1.4 グループ分けと集約の計算
1.5 基本的なプロット
1.6 まとめ
第2章 pandasのデータ構造
2.1 データを自作する
2.2 Seriesについて
2.3 DataFrameについて
2.4 SeriesとDataFrameの書き換え
2.5 データのエクスポートとインポート
2.6 まとめ
第3章 プロッティングによるグラフ描画
3.1 データを可視化する理由/3.2 matplotlibの基本
3.3 matplotlibによる統計的グラフィックス
3.4 seaborn
第4章 「整然データ」を作る
4.1 列に(変数ではなく)値が入っているとき
4.2 複数の変数を含む列があるとき
4.3 行と列の両方に変数があるとき
4.4 まとめ
第5章 関数を適用(apply)する
5.1 関数の初歩
5.2 applyの基本
5.3 関数のベクトル化
5.4 ラムダ関数
5.5 まとめ
第2部 データ操作
第6章 データの組み立て/6.1 データセットを組み合わせる
6.2 連結
6.3 データが観測単位ごとの表に分かれている場合
6.4 複数のデータセットをマージする
6.5 まとめ
第7章 データの正規化/7.1 1個の表に観察単位が複数あるとき(正規化)
7.2 まとめ
第8章 groupby演算による分割-適用-結合
8.1 集約
8.2 変換(transform)
8.3 フィルタリング
8.4 DataFrameGroupByオブジェクト
8.5 マルチインデックスの使い方
8.6 まとめ
第3部 データの型
第9章 欠損データ/9.1 NaNとは何か
9.2 欠損値はどこから来るのか
9.3 欠損データの扱い
9.4 pandas組み込みのNA(欠損値)
9.5 まとめ
第10章 データ型/10.1 データ型
10.2 型変換
10.3 カテゴリ型データ
第11章 文字列とテキストデータ
11.1 文字列
11.2 文字列メソッド
11.3 その他の文字列メソッド
11.4 文字列の書式整形(f文字列)
11.5 正規表現(RegEx)
11.6 regexライブラリ/11.7 まとめ
第12章 日付と時刻/12.1 Pythonのdatetimeオブジェクト
12.2 datetimeへの変換
12.3 日付を含むデータをロードする
12.4 日付の各部を抽出する
12.5 日付の計算とtimedelta
12.6 datetimeのメソッド
12.7 株価データを取得する
12.8 日付によるデータの絞り込み
12.9 日付の範囲
12.11 リサンプリング
12.12 時間帯(タイムゾーン)
12.13 日付と時刻の扱いが優れたarrowライブラリ
12.14 まとめ
第4部 データモデリング
第13章 線形回帰モデル/13.1 単純な線形回帰
13.2 重回帰
13.3 カテゴリ変数を使うモデル
13.4 sklearnのone-hotエンコーディングと、トランスフォーマーのパイプライン
13.5 まとめ
第14章 一般化線形モデル
14.1 ロジスティック回帰
14.2 ポアソン回帰
14.3 その他の一般化線形モデル
14.4 まとめ
第15章 生存分析
15.1 生存データ
15.2 カプランマイヤー曲線
15.3 Coxの比例ハザードモデル
15.4 まとめ
第16章 モデルを評価する
16.2 複数のモデルを比較する
16.3 k分割交差検証
16.4 まとめ
第17章 正則化で過学習に対応する/17.1 正則化とは
17.2 LASSO回帰
17.3 リッジ回帰
17.4 Elastic Net
17.5 交差検証
17.6 まとめ
第18章 クラスタリング/18.1 k平均法
18.2 階層的クラスタリング
18.3 まとめ
第5部 次のステップへ
第19章 pandas周辺の強力な機能/19.1 Pythonの科学計算スタック
19.2 コードの性能
ほか

JP-eコード:2950176911000000000D
出版社:インプレス
コンテンツ公開日:2023年09月14日