Apache Spark徹底入門

徹底入門

書籍

オンデマンド版

大活字版

書籍

雑誌

電子版

読み上げ可能電子版

オーディオブック

他原案：Jules S. Damji

他原案：Brooke Wenig

他原案：Tathagata Das

出版社：翔泳社

※二次利用等に関するお問い合わせは
出版社トップページへ

同一作品の他版

アクセシブルブック

内容紹介

Apache Sparkの仕組みとビッグデータ向けの大規模処理とML開発を徹底解説

本書は、ビッグデータを主な対象としたデータ分析フレームワークであるApache Spark、MLflow、Delta Lakeの中級入門書です。「動かしてみる」だけではなく、どのような仕組みになっているのか、どうすれば効率的な実装が行えるかまで踏み込みつつ、データAIの実装者がApache Spark、MLflow およびDelta Lakeを使いこなすための解説を行います。

本書では、単純なデータ分析と複雑なデータ分析を実行し、どのように機械学習アルゴリズムを採用していくか、解説していきます。Apache Sparkの導入から解説をはじめ、Spark SQLとデータフレーム、データセットを紹介していきます。そこから、Apache Sparkを利用した実践的な機械学習の方法を解説していきます。本書での学習を通じて、次のことが学習できます。

・Python、SQL、Scala、またはJavaの高レベルの構造化APIの学習
・Spark の操作とSQLエンジンの理解
・Spark 構成とSpark UIを使用したSpark操作の検査、調整、デバッグ
・JSON、Parquet、CSV、Avro、ORC、Hive、S3、またはKafkaといったデータソースへの接続
・構造化ストリーミングを使用してバッチデータとストリーミングデータの分析を実行
・オープンソースのDelta LakeとSparkを使用して信頼性の高いデータパイプラインを構築
・MLlibを使用する機械学習パイプラインの開発、MLflowを使用するモデルの管理、本番化
・［日本語版オリジナルコンテンツ］pandas DataFrame、SparkDataFrameに関する各種データフレームの使い分け
・［日本語版オリジナルコンテンツ］LLMやEnglish SDK for SparkなどAIを活用した新たなコーディングスタイル、LLMの利用方法の実践
※本書は『Learning Spark: Lightning-Fast Data Analytics 2nd Edition』の邦訳です。

第1章　Apache Spark入門：統合型アナリティクスエンジン
第2章　Apache Sparkのダウンロードとスタートアップ
第3章　Apache Sparkの構造化 API
第4章　Spark SQLとデータフレーム：組み込みのデータソースの紹介
第5章　Spark SQLとデータフレーム：外部データソースとのインタラクション
第6章　Spark SQLとデータセット
第7章　Sparkアプリケーションの最適化およびチューニング
第8章　構造化ストリーミング
第9章　Apache Sparkによる信頼性の高いデータレイクの構築
第10章　MLlibによる機械学習
第11章　Apache Sparkによる機械学習パイプラインの管理、デプロイ、スケーリング
第12章　エピローグApache Spark 3.x

ISBN：9784798182285
出版社：翔泳社
判型：B5変
ページ数：464ページ
定価：4000円（本体）
発行年月日：2024年04月
発売日：2024年04月12日
国際分類コード【Thema（シーマ）】１：UNK
国際分類コード【Thema（シーマ）】２：UTR。

ご購入はこちら

Apache Spark徹底入門

内容紹介

目次