• 検索結果がありません。

まえがき(pdf)

N/A
N/A
Protected

Academic year: 2021

シェア "まえがき(pdf)"

Copied!
5
0
0

読み込み中.... (全文を見る)

全文

(1)

まえがき

予測分析は,現在最も重要なテクノロジーの1つです.あらゆる業界の企業,研究機関が日々 予測技術を利用して,さまざまな問題解決をしています.主なアイデアやテクニックの多くは何 十年も前から存在していますが,予測モデルを構築するための材料であるデータの取得と蓄積の 技術が向上したため,予測分析の利用は近年爆発的に増えました.予測分析の導入が増えている ことを説明する大きな要因が2点あります.1点目は計算処理能力の驚異的な向上,そして2点 目は多くのオープンソースのソフトウェアプロジェクトが利用できるようになり,アカデミア以 外の専門家も強力な予測分析の技術へアクセスできるようになったという点です.Pythonのプ ログラミング言語とその分析ライブラリのエコシステムは,Pythonのデータサイエンススタッ クとも呼ばれ,そのようなプロジェクトによって高度な分析技術の利用が民主化されました. これは予測分析に関する本ですが,詳細なアルゴリズムとテクニックの説明に特化するのでは なく,実世界で予測分析を行うプロセスに焦点を置いた本です.この本の主な目的は,予測モデ リングを利用してビジネス上の問題を解決するプロセスのすべての段階を理解し,ハンズオンで の事例を通して実際の予測分析プロジェクトに使用される主な手法やアプローチを,Pythonと そのデータ分析エコシステムを使って実装することです.本書では2つの主なプロジェクトを使 用し,ビジネスと問題の理解からモデルのデプロイまで,実際の例を通して予測分析プロセス全 体を説明します. 予測分析に使用できる手法は多数あります.統計モデル,時系列分析,空間統計などです.た だし,この本では最も広く適用可能で成功している分野のテクニック,つまり機械学習,特に教 師あり学習の分野に焦点を当てています. 私の考えでは,予測モデルは目的を達成するための手段にすぎません.予測分析におけるゴー ルは問題解決です.したがって,優れた予測モデルは,最新かつ最も流行りの手法を使用したも のでも,最も複雑もしくは単純なものでもありません.良い予測モデルは,現実世界の問題を満 足のいく方法で解決するモデルです.私のゴールは,本書を通じて読者が予測分析を使って現実 世界の問題を解決するために必要な基礎を習得することです. 対象読者 この本は,データサイエンティスト,データエンジニア,ソフトウェアエンジニアおよびビ ジネスアナリストを対象としています.また,金融・経済・ビジネスなど,定量的な分野で常に データを扱っていて,予測を行うためのモデルを作成したい学生や専門家においても有益な本で

(2)

す.一般的に,この本はPythonによる予測分析の実用的な導入に焦点を当てたいすべての専門 家を対象としています. この本がカバーする内容 第1章「予測分析プロセス」では,この分野の基本的な概念を説明し,予測分析プロセスのさ まざまな段階について高次に説明し,本書で使用するライブラリの概要を説明します. 第2章「問題理解とデータ準備」では,本書全体で利用する問題とデータセットを紹介し,モ デリングのためにデータセットを収集して準備する方法の基本を説明します. 第3章「データセットの理解 ー探索的データ解析」では,可視化やその他の数値手法を用い て,データセットから重要な情報を得る方法を説明します. 第4章「機械学習による数値変数の予測」では,機械学習の主な考え方や概念,さらに最も一 般的な線形回帰モデルを説明します. 第5章「機械学習によるカテゴリの予測」では,最も重要な機械学習の分類モデルを説明し ます. 第6章「予測分析のためのニューラルネットの紹介」では,ニューラルネットワークモデルの 作成方法について説明します.これらのモデルは非常に強力で高精度なモデルを作成することが できるためとても人気があります. 第7章「モデル評価」では,予測モデルから生成された予測がどの程度優れているかを評価す るために必要な主な指標とアプローチについて説明します. 第8章「モデルのチューニングとパフォーマンスの向上」では,予測モデルのパフォーマンス を向上させるk-分割交差検証などの重要な手法について説明します. 第9章「Dashを用いたモデルの実装」では,ユーザーからの入力を受け取り,学習済みの予 測モデルから予測を出力するインタラクティブなWebアプリケーションの構築方法について説 明します. この本を最大限に活用するために この本を最大限に活用するために,以下を前提条件とします. 基本的なPythonの知識を有する 基本的な統計概念の知識を有する Pythonのデータサイエンススタックを知っていることはアドバンテージになりますが必須では ありません.また,Python3.6と多くの主要な分析ライブラリも使用します. これらを入手す る最も簡単な方法はAnacondaをインストールすることです.必須ではありませんが,パッケー ジ管理が容易になります.このソフトウェアの詳細については,https//www.anaconda.com/ jp/download/を参照してください. ii まえがき

(3)

サンプルコードファイルをダウンロードする この本のサンプルコードファイルは,www.packt.comのアカウントページからダウンロード できます.この本を他の場所で購入した場合は,www.packt.com/supportにアクセスして登録 すると,ファイルを直接電子メールで送信することができます.次の手順に従ってコードファイ ルをダウンロードできます. 1. www.packt.comでログインまたは登録します. 2. SUPPORTタブを選択します.

3. Code DownloadsErrataをクリックします.

4. 検索ボックスに本の名前を入力し,画面上の指示に従います.

ファイルがダウンロードされたら,必ず以下のいずれかの最新バージョンを使用してフォルダを 解凍または抽出してください.

• WinRAR / 7-Zip for Windows • Zipeg / iZip / UnRarX for Mac • 7-Zip / PeaZip for Linux

この本のコードはGitHubの https://github.com/PacktPublishing/Hands-On-Predictive-Analytics-with-Pythonで も ホ ス ト さ れ て い ま す .コ ー ド が 更 新 さ れ た 場 合 は ,既 存 のGitHubリ ポ ジ ト リ のhttps://github.com/PacktPublishingが 更 新 さ れ ま す .ま た , https://github.com/PacktPublishingにある書籍やビデオの豊富なカタログから他のコード も入手できます.是非チェックしてみてください. カラー画像をダウンロードする この本で使用されているスクリーンショット/図のカラー画像を含むPDFファイルも提供し ています.以下のリンクからダウンロードできます. http://www.packtpub.com/sites/default/files/downloads/9781789138719_ColorImages. pdf 表記について この本全体で使われているテキスト表記上のルールを説明します. CodeInText:テキスト内のコード,データベースのテーブル名,フォルダ名,ファイル名,ファ イル拡張子,パス名,ダミーURL,ユーザ入力,およびTwitterハンドルを示し ます.例は次のとおりです.「ダウンロードしたWebStorm-10 * .dmgディスクイ メージファイルをシステム内の別のディスクとしてマウントします.」 コードは以下のように表記します.

(4)

carat_values = np.arange(0.5, 5.5, 0.5) preds = first_ml_model(carat_values)

pd.DataFrame({"Carat": carat_values, "Predicted price": preds})

コードブロックの特定の箇所に注意を払う必要がある場合は,関連した行や項目を太字で示し ます.

numerator = ((ccd[’default’]==1) & (ccd[’male]==1)).sum()/N denominator = Prob_B

Prob A given B = numerator/denominator

print("P(A|B) = {:0.4f}".format(Prob_A_given_B))

すべてのコマンドラインでの入力または出力は以下のように表記します.

dim_features.corr()

太字: 新しい用語,重要な単語,または画面に表示される単語を示します.例えば,メニューや ダイアログボックス内の単語は,以下のようにテキストに表示されます.

"Select System info from the Administration panel."

重要な箇所や注意するべき事項を表記しています. ヒントやコツを表記しています.

(5)

訳者まえがき

「Pythonによる予測分析:課題発見から予測モデルのデプロイまで徹底解説」(原題Hands-On

Predictive Analytics with Python)は,予測分析で課題解決を志す,すべての人に向けて書か

れた,Pythonデータ分析の入門書です. 本書では,データ分析,その中でも特にデータの「予測」を中心に取り扱う予測分析に焦点を 当てています.本書が数多く存在するデータ分析の書籍のなかでユニークである点は,アルゴリ ズムや技法の説明に終始するものではなく,現実世界において予測分析を行う過程そのものにつ いて詳説する構成にあります.具体的には,予測分析を用いてビジネス課題を解いていく,すべ ての過程(ビジネス課題の発見・理解から予測モデルのデプロイまで)において,Pythonとそ のエコシステムをいかに適用できるのかを実際の例を通して解説しています.ビジネスの実務 と,データ分析の書籍で学べる方法論の間には,いまだ大きなギャップがあると言わざるを得ま せん.本書は,一貫した実践的な観点とプロセス全体を見通す俯瞰的な視点によりその間を埋め ることで,読者をデータ分析の実践的なステージへ導いてくれます. 本書が翻訳され出版を迎えることができたのは,周囲の方々のサポート・ご配慮があってこそ だと感じています.高柳慎一氏(ホクソエム株式会社)に訳者を出版社に紹介して頂き,2019 年に本書の翻訳作業がスタートしました.訳者にとっては今回が初めての出版に向けた翻訳作 業であり,改めて文章表現の難しさを痛感しました.同時に,本書に詰まった予測分析のセオ リーは,訳者が日々のデータ分析の実務で得た学びと通ずるものがあり,本書を出版する強いモ チベーションに繋がりました.山下宙元氏(ペンシルバニア州立大学)には,全編についてレ ビュー・校正作業をして頂きました.また,共立出版の山内千尋氏と,編集制作担当の島田誠氏 にも翻訳全般でサポートをして頂きました.改めて,心より感謝申し上げます. 翻訳に際し,読みやすさの観点から随所で意訳または補足をしています.同義の用語が複数存 在するものについては,より実務で使われている用語を訳者の判断で採用しています.校正を重 ね不備がないよう努めましたが,文章表現の拙さや誤訳がある場合はひとえに訳者の責任です. 誤りにお気づきの場合は是非お知らせ頂きたいと存じます. 本書は,インダストリーで実際に予測分析を活用したビジネスを行いたい読者や,大学でデー タ分析・機械学習の理論やモデルを学びその活用法について知りたい読者にお勧めできる1冊で す.本書が多くの人々に読まれ,予測分析への理解が深まり,課題解決が成し遂げられたなら ば,訳者として何よりの幸いです. 2021年1月 井手絢絵

参照

関連したドキュメント

本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o

町の中心にある「田中 さん家」は、自分の家 のように、料理をした り、畑を作ったり、時 にはのんびり寝てみた

• パフォーマンス向上コーディネーター( PICO )を発電所各部に 配置した。 PICO は、⽇々の不適合/改善に関するデータのスク

これら諸々の構造的制約というフィルターを通して析出された行為を分析対象とする点で︑構

※ CMB 解析や PMF 解析で分類されなかった濃度はその他とした。 CMB

核種分析等によりデータの蓄積を行うが、 HP5-1

 分析実施の際にバックグラウンド( BG )として既知の Al 板を用 いている。 Al 板には微量の Fe と Cu が含まれている。.  測定で得られる

予測の対象時点は、陸上競技(マラソン)の競技期間中とした。陸上競技(マラソン)の競 技予定は、 「9.2.1 大気等 (2) 予測 2)