出版社を探す

Rユーザのためのtidymodels[実践]入門〜モダンな統計・機械学習モデリングの世界

著:松村 優哉
著:瓜生 真也
著:吉村 広志

紙版

内容紹介

Rには多くの分析手法を実行するパッケージが提供されていますが、同じ用途であってもパッケージごとに関数の記法が違ったり、データの入力形式や出力形式が違ったりするため、データの前処理やモデルの評価といった工程におけるコーディングは、意識しなければバラバラになってしまいます。また、これが原因でスムーズな分析パイプラインを作成できず、分析環境で行ったモデリングを本番システムへ移行することを考えると、その保守は困難を極めます。

これらの問題を解消するために開発され、統一的なインターフェースを提供するのがtidymodelsです。データ整形における同様のコーディングの問題を解決するためのパッケージ群で知られるtidyverseのプロジェクトの1つとして注目を浴びています。

データ分析の工程には、データ準備、モデルの作成、モデルの評価、モデルの改善、モデルの運用といった一連の工程があります。本書ではそれぞれの工程をtidymodelsパッケージ群で行う方法について解説します。tidymodelsパッケージ群を利用することで、スムーズなデータ分析パイプラインを効率的に構築できるようになるでしょう。

目次

tidymodelsとは
本書の特徴
本書の構成
本書の対象読者
本書で解説しなかったこと
本書のサポートページ
ようこそtidymodelsの世界へ

第1章 データの準備
■1-1 データ分割とリサンプリング法
■1-2 rsampleパッケージによるデータ分割のアプローチ
■1-3 無作為抽出によるデータ分割が不適切なケースへの対応
■1-4 リサンプリング法
■1-5 recipesパッケージによる前処理
■1-6 まとめと参考文献

第2章 回帰モデルの作成
■2-1 statsパッケージによる線形回帰モデルの作成
■2-2 parsnipパッケージによる線形回帰モデルの作成
■2-3 parsnipパッケージの便利な機能
■2-4 yardstickパッケージによるモデルの評価
■2-5 まとめと参考文献

第3章 分類モデルの作成
■3-1 分類モデルとは
■3-2 parsnipパッケージのpredict()関数の扱い方
■3-3 parsnipパッケージによる分類モデルの作成
■3-4 yardstickパッケージによる離散値の評価指標
■3-5 yardstickパッケージによる連続的な確率に対する評価指標
■3-6 まとめと参考文献

第4章 モデルの運用
■4-1 workflowsパッケージによるレシピやモデル、データの変更
■4-2 workflowsetsパッケージによる複数レシピ・モデルの一元管理
■4-3 まとめと参考文献

第5章 ハイパーパラメータチューニング
■5-1 ハイパーパラメータチューニングの流れ
■5-2 ハイパーパラメータチューニングの手法
■5-3 tuneパッケージによるハイパーパラメータチューニング
■5-4 まとめと参考文献

第6章 自然言語処理を使ったtidymodels実践
■6-1 データと形態素解析器MeCabの準備
■6-2 tidymodelsによるモデリング
■6-3 まとめと参考文献

著者略歴

著:松村 優哉
松村 優哉(まつむら ゆうや)
ノバセル株式会社 データサイエンティスト。
慶應義塾大学大学院で経済学修士を取得。HR系企業でデータサイエンティスト・データエンジニアとして分析組織の立ち上げ経験を経て、2022年2月より現職。データサイエンス技術を用いた応用分析を得意とし、「Tokyo.R」や「Music×Analytics Meetup」などのデータ分析に関わるコミュニティ運営にも勢力的に取り組む。著書に『改訂2版 RユーザのためのRStudio[実践]入門』(共著, 技術評論社, 2021)、開発Rパッケージに形態素解析器JUMAN++のラッパー「rjumanpp」などがある。本書のはじめに、5章、6章の執筆を担当。
Twitter: @y__mattu
著:瓜生 真也
瓜生 真也(うりゅう しんや)
徳島大学デザイン型AI教育研究センター助教。
横浜国立大学大学院にて森林生態学を専攻。企業、研究機関でのデータエンジニアとしての経験を経て、2021年10月より現職。地理空間データの分析を研究題材とし、データサイエンス・AI教育や大学業務のDX化に取り組む。著書に『データ分析のためのデータ可視化入門』(翻訳, 講談社サイエンティフィク, 2021)、『Rによるスクレイピング入門』(共著, C&R研究所, 2017)など。日本語文章をtidymodelsで扱うwashokuをはじめ、多くのRパッケージを開発・保守する。本書の1章、4章の執筆を担当。
Twitter: @u_ribo
著:吉村 広志
吉村 広志(よしむら ひろし)
AIコンサルティングやAIソリューションの提供会社でAIエンジニアとして勤務。
芝浦工業大学大学院を修了。大学時代は創薬化学の研究に取り組み、科学的根拠に基づく医薬品の効果検証に興味を持つ。卒業後は独学で数理統計学を学び、製造業の会社でAIを活用したプロジェクトを担当しデータ収集から機械学習モデルの構築と生産ラインへの実装まで経験する。AIに対する理解度向上のための人材育成企画やAI開発のナレッジ管理の仕組みを導入展開する業務も行う。その後、AIの研究開発を行う企業で幅広い分野のAI活用プロジェクトを経験。分析にはR言語を好み、R言語のコミュニティ等で情報発信活動を行っている。本書の2章、3章の執筆を担当。
Twitter: @Ringa_hyj

ISBN:9784297132361
出版社:技術評論社
判型:B5変
ページ数:224ページ
定価:2720円(本体)
発行年月日:2023年01月
発売日:2023年01月06日
国際分類コード【Thema(シーマ)】 1:PBT