まえがき（pdf）

(1)

まえがき

予測分析は，現在最も重要なテクノロジーの1つです．あらゆる業界の企業，研究機関が日々予測技術を利用して，さまざまな問題解決をしています．主なアイデアやテクニックの多くは何十年も前から存在していますが，予測モデルを構築するための材料であるデータの取得と蓄積の技術が向上したため，予測分析の利用は近年爆発的に増えました．予測分析の導入が増えていることを説明する大きな要因が2点あります．1点目は計算処理能力の驚異的な向上，そして2点目は多くのオープンソースのソフトウェアプロジェクトが利用できるようになり，アカデミア以外の専門家も強力な予測分析の技術へアクセスできるようになったという点です．Pythonのプログラミング言語とその分析ライブラリのエコシステムは，Pythonのデータサイエンススタックとも呼ばれ，そのようなプロジェクトによって高度な分析技術の利用が民主化されました．これは予測分析に関する本ですが，詳細なアルゴリズムとテクニックの説明に特化するのではなく，実世界で予測分析を行うプロセスに焦点を置いた本です．この本の主な目的は，予測モデリングを利用してビジネス上の問題を解決するプロセスのすべての段階を理解し，ハンズオンでの事例を通して実際の予測分析プロジェクトに使用される主な手法やアプローチを，Pythonとそのデータ分析エコシステムを使って実装することです．本書では2つの主なプロジェクトを使用し，ビジネスと問題の理解からモデルのデプロイまで，実際の例を通して予測分析プロセス全体を説明します．予測分析に使用できる手法は多数あります．統計モデル，時系列分析，空間統計などです．ただし，この本では最も広く適用可能で成功している分野のテクニック，つまり機械学習，特に教師あり学習の分野に焦点を当てています．私の考えでは，予測モデルは目的を達成するための手段にすぎません．予測分析におけるゴールは問題解決です．したがって，優れた予測モデルは，最新かつ最も流行りの手法を使用したものでも，最も複雑もしくは単純なものでもありません．良い予測モデルは，現実世界の問題を満足のいく方法で解決するモデルです．私のゴールは，本書を通じて読者が予測分析を使って現実世界の問題を解決するために必要な基礎を習得することです．対象読者この本は，データサイエンティスト，データエンジニア，ソフトウェアエンジニアおよびビジネスアナリストを対象としています．また，金融・経済・ビジネスなど，定量的な分野で常にデータを扱っていて，予測を行うためのモデルを作成したい学生や専門家においても有益な本で

(2)

す．一般的に，この本はPythonによる予測分析の実用的な導入に焦点を当てたいすべての専門家を対象としています．この本がカバーする内容第1章「予測分析プロセス」では，この分野の基本的な概念を説明し，予測分析プロセスのさまざまな段階について高次に説明し，本書で使用するライブラリの概要を説明します．第2章「問題理解とデータ準備」では，本書全体で利用する問題とデータセットを紹介し，モデリングのためにデータセットを収集して準備する方法の基本を説明します．第3章「データセットの理解ー探索的データ解析」では，可視化やその他の数値手法を用いて，データセットから重要な情報を得る方法を説明します．第4章「機械学習による数値変数の予測」では，機械学習の主な考え方や概念，さらに最も一般的な線形回帰モデルを説明します．第5章「機械学習によるカテゴリの予測」では，最も重要な機械学習の分類モデルを説明します．第6章「予測分析のためのニューラルネットの紹介」では，ニューラルネットワークモデルの作成方法について説明します．これらのモデルは非常に強力で高精度なモデルを作成することができるためとても人気があります．第7章「モデル評価」では，予測モデルから生成された予測がどの程度優れているかを評価するために必要な主な指標とアプローチについて説明します．第8章「モデルのチューニングとパフォーマンスの向上」では，予測モデルのパフォーマンスを向上させるk-分割交差検証などの重要な手法について説明します．第9章「Dashを用いたモデルの実装」では，ユーザーからの入力を受け取り，学習済みの予測モデルから予測を出力するインタラクティブなWebアプリケーションの構築方法について説明します．この本を最大限に活用するためにこの本を最大限に活用するために，以下を前提条件とします． • 基本的なPythonの知識を有する • 基本的な統計概念の知識を有する Pythonのデータサイエンススタックを知っていることはアドバンテージになりますが必須ではありません．また，Python3.6と多くの主要な分析ライブラリも使用します．これらを入手する最も簡単な方法はAnacondaをインストールすることです．必須ではありませんが，パッケージ管理が容易になります．このソフトウェアの詳細については，_https：_{//www.anaconda.com/} jp/download/を参照してください． ii まえがき

(3)

サンプルコードファイルをダウンロードするこの本のサンプルコードファイルは，www.packt.comのアカウントページからダウンロードできます．この本を他の場所で購入した場合は，_{www.packt.com/support}にアクセスして登録すると，ファイルを直接電子メールで送信することができます．次の手順に従ってコードファイルをダウンロードできます． 1. www.packt.comでログインまたは登録します． 2. SUPPORTタブを選択します．

3. Code Downloads＆Errataをクリックします．

4. 検索ボックスに本の名前を入力し，画面上の指示に従います．

ファイルがダウンロードされたら，必ず以下のいずれかの最新バージョンを使用してフォルダを解凍または抽出してください．

• WinRAR / 7-Zip for Windows • Zipeg / iZip / UnRarX for Mac • 7-Zip / PeaZip for Linux

この本のコードはGitHubの https://github.com/PacktPublishing/Hands-On-Predictive-Analytics-with-Pythonでもホストされています．コードが更新された場合は，既存のGitHubリポジトリのhttps://github.com/PacktPublishingが更新されます．また， https://github.com/PacktPublishingにある書籍やビデオの豊富なカタログから他のコードも入手できます．是非チェックしてみてください．カラー画像をダウンロードするこの本で使用されているスクリーンショット/図のカラー画像を含むPDFファイルも提供しています．以下のリンクからダウンロードできます． http://www.packtpub.com/sites/default/files/downloads/9781789138719_ColorImages. pdf 表記についてこの本全体で使われているテキスト表記上のルールを説明します． CodeInText:テキスト内のコード，データベースのテーブル名，フォルダ名，ファイル名，ファイル拡張子，パス名，ダミーURL，ユーザ入力，およびTwitterハンドルを示します．例は次のとおりです．「ダウンロードしたWebStorm-10 * .dmgディスクイメージファイルをシステム内の別のディスクとしてマウントします．」コードは以下のように表記します．

(4)

carat_values = np.arange(0.5, 5.5, 0.5) preds = first_ml_model(carat_values)

pd.DataFrame({"Carat": carat_values, "Predicted price": preds})

コードブロックの特定の箇所に注意を払う必要がある場合は，関連した行や項目を太字で示します．

numerator = ((ccd[’default’]==1) & (ccd[’male]==1)).sum()/N denominator = Prob_B

Prob A given B = numerator/denominator

print("P(A|B) = {:0.4f}".format(Prob_A_given_B))

すべてのコマンドラインでの入力または出力は以下のように表記します．

dim_features.corr()

太字: 新しい用語，重要な単語，または画面に表示される単語を示します．例えば，メニューやダイアログボックス内の単語は，以下のようにテキストに表示されます．

"Select System info from the Administration panel."

重要な箇所や注意するべき事項を表記しています．ヒントやコツを表記しています．

(5)

訳者まえがき

「Pythonによる予測分析:課題発見から予測モデルのデプロイまで徹底解説」（原題Hands-On

Predictive Analytics with Python）は，予測分析で課題解決を志す，すべての人に向けて書か

れた，Pythonデータ分析の入門書です．本書では，データ分析，その中でも特にデータの「予測」を中心に取り扱う予測分析に焦点を当てています．本書が数多く存在するデータ分析の書籍のなかでユニークである点は，アルゴリズムや技法の説明に終始するものではなく，現実世界において予測分析を行う過程そのものについて詳説する構成にあります．具体的には，予測分析を用いてビジネス課題を解いていく，すべての過程（ビジネス課題の発見・理解から予測モデルのデプロイまで）において，Pythonとそのエコシステムをいかに適用できるのかを実際の例を通して解説しています．ビジネスの実務と，データ分析の書籍で学べる方法論の間には，いまだ大きなギャップがあると言わざるを得ません．本書は，一貫した実践的な観点とプロセス全体を見通す俯瞰的な視点によりその間を埋めることで，読者をデータ分析の実践的なステージへ導いてくれます．本書が翻訳され出版を迎えることができたのは，周囲の方々のサポート・ご配慮があってこそだと感じています．高柳慎一氏（ホクソエム株式会社）に訳者を出版社に紹介して頂き，2019 年に本書の翻訳作業がスタートしました．訳者にとっては今回が初めての出版に向けた翻訳作業であり，改めて文章表現の難しさを痛感しました．同時に，本書に詰まった予測分析のセオリーは，訳者が日々のデータ分析の実務で得た学びと通ずるものがあり，本書を出版する強いモチベーションに繋がりました．山下宙元氏（ペンシルバニア州立大学）には，全編についてレビュー・校正作業をして頂きました．また，共立出版の山内千尋氏と，編集制作担当の島田誠氏にも翻訳全般でサポートをして頂きました．改めて，心より感謝申し上げます．翻訳に際し，読みやすさの観点から随所で意訳または補足をしています．同義の用語が複数存在するものについては，より実務で使われている用語を訳者の判断で採用しています．校正を重ね不備がないよう努めましたが，文章表現の拙さや誤訳がある場合はひとえに訳者の責任です．誤りにお気づきの場合は是非お知らせ頂きたいと存じます．本書は，インダストリーで実際に予測分析を活用したビジネスを行いたい読者や，大学でデータ分析・機械学習の理論やモデルを学びその活用法について知りたい読者にお勧めできる1冊です．本書が多くの人々に読まれ，予測分析への理解が深まり，課題解決が成し遂げられたならば，訳者として何よりの幸いです． 2021年1月井手絢絵