原論文から解き明かす生成AI

書籍

オンデマンド版

大活字版

書籍

雑誌

電子版

読み上げ可能電子版

オーディオブック

著：菊田遥平

出版社：技術評論社

同一作品の他版

アクセシブルブック

内容紹介

生成AI技術は目覚ましい進歩を続けています。そのため、表面的なトレンドを追うだけでは、そのしくみを理解することが困難になっています。本書は、このような状況を受けて、生成AIを支える理論的基礎について原論文レベルまで深く踏み込んで解説し、読者が技術の核心部分を理解できるよう導く一冊です。本書の主な特徴は、以下の3つにあります。

1つ目の特徴は、Transformerから推論時のスケーリング則に至るまでの「生成AIの重要な理論」について、原論文の内容を参照しながら数式と図版を用いて詳細に解説しています。2つ目の特徴は、英語・日本語を問わず既存の文献ではあまり扱われていない分布仮説の実験的根拠や拡散モデルの数学的保証など、「生成AIを理解する上で、重要であるものの他の書籍などで十分に扱われていない理論」も丁寧に掘り下げています。3つ目の特徴として、「演習問題とGitHubサポートページを連携させた読者参加型の学習環境」を提供し、より深い学びをサポートしています。

本書を通じて読者は、生成AIに関わる重要な理論について深い理解を得ることができるだけでなく、原論文レベルの内容を読み解く力を身につけることができます。これにより、新たなモデルや技術動向を独力で理解し、急速に変化する技術トレンドへの自律的なキャッチアップ能力を獲得することができるでしょう。表面的な知識ではなく、生成AI技術の本質的な理解を求める全ての方にとって、必携の一冊です！

第1章本書の読み方と論文を読み解く技術
■1.1 本書の読み方
■1.2 論文を読み解く技術
■■1.2.1 論文を読む環境の構築
■■■1.2.1.1 論文を入手する
■■■1.2.1.2 論文を電子媒体で読む
■■■1.2.1.3 論文は人間が書いたものであることを認識する
■■1.2.2　自分の力で論文を読み解くための技術
■■■1.2.2.1 議論が成立する条件を確認する
■■■1.2.2.2 具体例を構成する
■■■1.2.2.3　実装を読み解いて理解を深める
■■■1.2.2.4　重要となる参考文献は踏み込んで調べる
■■■1.2.2.5　アウトプットすることで理解を深める
■■1.2.3　自分以外の力も借りて論文を読み解くための技術
■■■1.2.3.1　少人数で深く議論する
■■■1.2.3.2　論文の著者に直接質問する
■■■1.2.3.3　ウェブ上で議論する
■■■1.2.3.4　生成 AI を使う
■1.3　本書における数式記法

第2章入力データの特徴量化
■2.1　埋め込みと分布仮説
■2.2　サブワードの必要性とトークン化
■2.3　バイト対符号化 (Byte Pair Encoding)
■2.4　サブワードユニグラム言語モデル
■2.5　SentencePiece
■2.6　文字単位よりも細かいサブワード分割
■2.7　トークナイザーは本当に必要なのか

第3章生成 AI モデルの大前提となる Transformer
■3.1　Transformer の全体像
■3.2　位置埋め込み (Positional Encoding)
■3.3　マルチヘッド注意
■■3.3.1　注意機構 (Attention Mechanism)
■■3.3.2　クエリー・キー・バリューを用いた定式化
■■3.3.3　スケール化内積注意 (Scaled Dot-Product Attention)
■■3.3.4　マルチヘッド注意（Multi-Head Attention）
■■3.3.5　自己注意は何が優れているのか
■3.4　エンコーダーとデコーダーの共通要素
■3.5　デコーダーの出力部分
■3.6　モデルの学習と実験結果

第4章 Generative Pre-trained Transformer とテキスト生成
■4.1　複数タスクモデルとしての GPT-1, 2
■■4.1.1　GPT-1
■■4.1.2　GPT-2
■4.2　生成モデルとしての GPT-3, 4
■■4.2.1　GPT-3
■■4.2.2　GPT-4
■4.3　テキスト生成モデルの性能を高めるための要素
■■4.3.1　学習の新たなパラダイムとなる文脈内学習
■■4.3.2　Reinforcement Learning from Human Feedback

第5章拡散モデルと画像生成
■5.1　画像分類モデルとしての Vision Transformer
■5.2　拡散モデル
■■5.2.1　拡散過程と逆拡散過程が同じ関数形で表現できる理由
■■5.2.2　Denoising Diffusion Probabilistic Models (DDPM)
■5.3　画像生成モデル Diffusion Transformer

第6章テキストと画像の融合
■6.1　テキストと画像の特徴量を関係づける CLIP
■6.2　text-to-image モデルである unCLIP
■6.3　text+image-to-image モデルであるImagic
■6.4　text+image-to-text の実現方法

第7章生成 AI モデルのスケーリング則
■7.1　生成AIモデルの事前学習スケーリング則
■■7.1.1　テキスト生成モデルの事前学習のスケーリング則
■■7.1.2　様々なモデルや領域における事前学習のスケーリング則
■■7.1.3　テキスト生成モデルの学習データ量の限界
■7.2　テキスト生成の推論スケーリング則
■■7.2.1　DeepSeek-V3
■■7.2.2　思考の連鎖 (Chain-of-Thought)
■■7.2.3　DeepSeek-R1

第8章生成 AI モデルの評価
■8.1 人間による相対評価
■8.2 高い専門性を有するタスクでの評価

Appendix A.1 参考文献の取り扱い
Appendix A.2 Landauのビッグオー記法と計算量