日本のデータサイエンスの過去・現在・
未来と OR
―データサイエンスを支える最適化という概念―
上田 雅夫
わが国において,データサイエンティストが不足しているという報告を時折目にするが,不足の原因について,
また,今後の方向性について言及している指摘はほとんどない.本稿では,わが国の企業の意思決定に,データ 分析が活用されてきたことを,事例をもとに示し,日本における,データサイエンティストが少ない理由を,産 業構成が主因であることを指摘した.加えて,データサイエンスを活用するためには,何をすべきかについて検 討を行い,その中で,「最適化」という考えが,不可欠であることを指摘した.
キーワード:データサイエンス,データ分析,最適化
1. はじめに
インターネットの普及は,社会・産業に大きな変化 をもたらした.特に,ソーシャル・メディア,
IoT
の 普及によりインターネットを経由して,膨大な種類と 量のデータが蓄積されるようになった.これまで,ビ ジネスに活用するデータは,調査や実験を通して「集 めて」いたが,現在では,データが自然と「集まる」時 代となった[1]
.集まるデータは,日々のビジネス活動 を通じて蓄積され,自社の状況を正確に反映した記録 であり,行った施策に対する結果である.この結果の データを分析し,伸ばすべき点を伸ばし,改めるべき 点を改めることができれば,企業は,厳しい市場環境 においても確実に成長することが可能である.データ分析から得られた結果を活用するためには,
日々蓄積される膨大なデータを分析する人材,いわゆ る,データサイエンティストと呼ばれる人材が必要で ある.データサイエンティストを雇用することは,企 業の競争力の維持・向上という点において喫緊の課題 であり,大学などの教育機関は,企業からこのデータサ イエンティストの育成に大きな期待が寄せられている.
2010
年のマッキンゼーの調査によると,データサイエ ンス関連の教育を受けた学生は,アメリカの24,730
人 に対し,日本は3,400
人と約8
倍の開きがあった[2]
. この差を埋めるべく,わが国では,2017
年に滋賀大学 に初めてデータサイエンス専門の学部が誕生し,翌年 には,横浜市立大学でもデータサイエンス学部が設置うえだ まさお 横浜市立大学
m [email protected]
された.また,大学間の連携を通して,データサイエ ンス教育の向上を目的に,数理・データサイエンス教 育拠点コンソーシアムが,
2016
年に立ち上げられた.データサイエンス教育の支援のために国立情報学研究 所では,
2015
年に設置したデータセット共同利用研究 開発センターにおいて,研究用のデータを提供してい る.さらに,学生だけではなく社会人向けの教育のた めに,総務省は2015
年にオンライン講座「社会人の ためのデータサイエンス入門」を立ち上げた.しかしながら,
2020
年4
月28
日付の日本経済新聞 では,企業の6
割がデータサイエンティストの採用が 目標に達していないと回答している.2. データサイエンスを受け入れる土壌
日頃から意思決定にデータを利用することが組織の 文化として根付いているか否かにより,先にあげた施 策が実を結ぶまでの時間は異なる.過去にデータを活 用した経験がなければ,教育や活用に関するノウハウの 蓄積から始める必要がある.一方,過去にデータを活 用した経験があれば,それらの遺産を活用できるため,
施策が効果をあげるまで,さほど時間が掛からない.
わが国の企業は,長きにわたりビジネスにデータを 活用してきた.たとえば,品質管理や製造の部門では,
実験計画法に基づいて実験を行い,データを収集し,
そのデータを分析することで,品質の改善に努めてい る.よく引き合いに出される例として,伊奈製陶(現
LIXIL
)において1953
年に実施されたタイルの焼成 実験の例がある[3]
.タイルを連続的に焼成するにあた り,焼成の不揃いを解消することを目的に実験を行い,データを分析し,連続生産の製造法を確立した.また,
図
1
花王のマーケティング・リサーチ体系(文献[4]
より転載)マーケティング部門では,消費者調査のデータや小売 店の
POS
データを分析し,マーケティングの意思決 定にデータ分析の結果を活用してきた.図
1
は花王の新商品の開発から上市後までのマーケ ティング・リサーチ全体の流れである[4]
.この図が掲 載された書籍は1988
年に刊行されており,30
年以上 前から,商品開発の各ステージにおいて必要なデータ が,開発のフローにあわせて活用されていることが理 解できる.また,この当時から,花王では,データを 分析するための端末を社内に設置しており,必要なと きにいつでもデータを分析し,その結果を基に意思決 定できる体制が整えられていた.しかしながら,すべての企業が花王のような完全な 活用体系を持っていたとは考えにくいが,
1982
年に は,セブン-
イレブン・ジャパンにおいて,世界で初め てPOS
データをマーケティングやマーチャンダイジン グに活用していた点[5]
,法政大学産業情報センター・小川によるデータ活用についてまとめられた書籍が刊 行されている点
[6]
などを考慮すると,程度の差はあ るにしても,少なくとも1990
年代から日本企業はデー タを分析し,得られた結果をもとにビジネスに活用し ていたと考えられる.加えて,もう一つ特筆すべき点として,データサイエ ンスという言葉や概念も
1990
年代にすでに存在したと いう点である.データサイエンスという言葉が統計学 の研究者の間で用いられるようになったのは,1996
年 に神戸で行われた国際学会からであるという指摘があ る[7]
.また,データサイエンスという概念も,ほぼ同 時期に新村により論文としてまとめられている[8]
.そ図
2
データサイエンスの概念図(文献[8]
より転載)の論文では,データを分析することを,図
2
にあるよ に,自動車の運転にたとえ,前輪に統計理論,後輪に データ解析のためのソフトウェア,分析者はそれらを 駆使して分析を行い,分析の目的に達するというもの であると説明している.図
2
について,前輪に機械学習を加味し,後輪に,分析用のフリーソフト,分散処理技術,クラウドコン ピューターを追加すれば,現在のデータサイエンスを 十分に表現することができる.
また,統計理論,データ解析については,大学の各 学部や学科(たとえば,経営工学科や商学部のマーケ ティング・サイエンス,経済学部の計量経済学など)に おいて授業が行われ,そのような知識とスキルを有す る人材の育成が行われてきた.
3. 問題の所存
データサイエンスを受け入れる土壌があり,既存の 大学でも統計学などの教育を行っていたにもかかわら ず,データサイエンティストの需要を満たせない理由
を考えたい.その理由を明らかにすることができれば,
現在の施策の成否がある程度判断することができる.
過去にもデータ・マイニングという言葉でデータ分 析に注目が集まった時期があったが,そのときと現在 では,利用するデータが大きく異なる.データ・マイ ニングの時代は主に購買履歴データなどの顧客とのト ランザクション・データを扱ってきたが,現在は,ソー シャル・メディアの投稿,ウェブのアクセスログなど を分析するようになった.これらの新しいデータはイ ンターネットを経由して蓄積されるため,
IT
系企業中 心に活用されてきた.一方,日本では,インターネッ トが普及した現在でも,企業といえば,トヨタ自動車,日立製作所といった「モノ」作りの企業が想起される ことがほとんどである.
IT
企業が,日本に誕生することはなかった.もし,
IT
企業が,そのニーズに対応するためにさまざまな施策(現在行 われているような施策)が実施されたと考えられる.
データサイエンスを支える土壌がすでにあったことを 考えると,その時期に実施された施策の効果により,
データを分析するスキル・知識を身に付けた人材が社 会に供給され,現在とは異なった状況となっていたで あろう.しかしながら,日本では
インターネットの普及は,データ環境の変化だけで はなく,新しい消費者ニーズや新しいビジネスのコン セプトの出現を促した.「モノ」を所有するよりも,体 験する「コト」を重要視する消費者が登場し,市場で 生き残るために,このような消費者に対し,モノ作り の企業も新たなビジネスの創出,および,ビジネス環 境への適応に迫られている.たとえば,トヨタ自動車 では,カーシェアリング事業
[9]
や「KINTO
」という 新会社を設置し,サブスクリプション・サービスを事 業化している[10]
.これらの新しい事業は,「モノ」の 販売ではなく,「コト」の販売である.「コト」の販売 で継続的に収益を上げるには,消費者と継続的な関係 を構築し,その関係から得られる利用状況のデータを分析し,提供する価値の向上を図る必要がある.
さらに
Industry 4.0
という新しい製造プロセスの概 念が提唱され,モノ作り企業全体において,データサ イエンスの必要性が生じた.加えて,わが国にも,メ ルカリ,Gunosy
,freee
などのIT
企業が次々に誕生 した.これらの企業では,自社が提供する商品・サー ビスの改善にはデータ分析が欠かせないため,データ サイエンティストに対するニーズが高い.このように,既存の企業と新規の企業,両方の需要 が,ほぼ同時期に生じたことでデータサイエンティス トの需要が供給を上回り,既存の教育システムでは対 応できす,企業側で十分な採用ができないという結果 に陥った.このことが,データサイエンティストが不 足しているという原因と考えられる.
4. さらなる飛躍を目指して
先に,データサイエンティストが不足している問題 は,日本とアメリカにおける主力となる業種の違い,お よび,
IT
企業が誕生した時期による差に起因すると説 明した.加えて,日本にはデータサイエンスを受け入 れる土壌があることを考えると,今,行われているデー タサイエンティスト育成のための施策が,将来,成果 を生み出すことは間違いない.ただし,データサイエ ンスが企業の競争力の源泉となる時代になったことを 考慮すると,今の施策の効果をさらに向上させること を考えるべきである.これまでは,データを分析し,分析した結果を用いて 意思決定する部署・人は限られていた.これからは,企 業のあらゆる活動のデータが収集されるため(集まっ てくるため),あらゆる部署においてデータ分析した結 果を用いて意思決定するようになる.この変化に対し,
これまで一部の人が有していたデータサイエンスに関 する知識・スキルを拡大する必要がある.そのために は,
Citizen Datascientist
と言われるビジネスでデー タを利用する人と先進的な知識・技術を有するデータ サイエンティストとの間を橋渡しする人材の育成[11]
や,データを利用する人が分析結果を誤認しないよう に,データサイエンスに関するリテラシーの向上も行 う必要がある.
このような流れの中で,教育機関である大学は,一 部の学生に対する専門的な教育を提供するだけではな く,幅広い学生にデータサイエンスに関する基礎的な 知識を提供する必要がある.データサイエンスの手法 は,さまざまな研究者が精力的に研究を進めた結果,膨 大な手法が提案されている.それらの内容をすべて理
解することは専門の研究者ではない限り難しい.その ため,手法の誤用並びに結果を正しく解釈できるよう な入門的な教材を作成するべきである.
データサイエンスは,データに依存しながら発展し てきた側面をもつ.たとえば,自己組織化マップとい う手法は,変数の数が多い多次元のデータを理解しや すいように縮約すると同時にセグメンテーションを行 う目的で開発された.データとは,人や機械のさまざ まな行動の結果,蓄積されるものであり,国や地域に よってその内容が異なる.
データサイエンスは,社会での活用を目的とする応 用研究的な側面を有する.そのため,国内のデータだ けではなく広く海外における活用状況を学ぶことで,
新しい方法論,課題の解決方法を学ぶことができる.
また,企業の海外進出を考えると,企業内のデータサ イエンティストも,国内のデータだけではなく,海外 のデータを分析することもあるため,大学においては 海外の大学と提携し,データの種類や分析事例につい ての情報を収集し,適宜,授業やシンポジウムなどを 通じてフィードバックする必要がある.
上にあげた二つの項目に関する対応を取る際,学部 単体で教育を行うのではなく,全学的な横断組織が主 体となり,教育を行うことが望ましい.もし,データ サイエンス関連の底上げをするための教育を,各学部 が主体となり教育を行うと,その学部で主に使う手法 に偏りがちになる可能性がある.また,海外の大学と の連携のような場合,窓口を一つにして対応した方が 連携を円滑に行える.データサイエンスのための学部 横断的な組織を,すでに設置している大学は複数あり,
たとえば,早稲田大学では,「データ科学センター」と いう全学横断的な組織を作り,データサイエンス・統 計学の学習コンテンツを作成し,大学全体に展開して いる.今後はこのような横断的な組織と各学部との連 携によりお互いの長所を生かした教育が行われること が期待される.
5. データサイエンティストが活躍するには
データサイエンティストを育成するために,専門の 学部の設置,大学間の連携さらに学内横断的な組織が 設置されるなど,さまざまな施策が実施されている.
これらの施策により,データサイエンティストを確保 できないという問題は早晩に解決されると考えられる.
ただし,企業にとっては,データサイエンティストを 雇用することが目的ではなく,データを分析した結果 を用いて合理的な意思決定を行うことが目的である.
したがって,データサイエンティストを雇用しただけ では不十分であり,データサイエンティストが活躍で きる環境を整備する必要がある.そのためには,どの ようにデータを活用することが企業活動全体にとって 望ましいか検討し,必要に応じて,業務のフローを修 正する必要がある.業務のフローを考え直す際は,自 社の業務の全体最適を目的とし,再設計する必要があ る.同時に,データを利用した意思決定の意義を社内 に浸透させることも重要である.
企業活動とは,顧客へ提供する価値を最終的な目的 とし,それに付随する制約条件を考え,その条件下に おいて提供する価値の最大化を図ることである.その 際は,価値の提供フロー全体を最適化する必要がある.
生産工程を最適化し,品質の高い商品を作ったとして も,物流に問題があり,消費者が必要としているときに 提供できなければビジネスとしての意味はない.デー タが手許にあったとしても,全体最適の概念・考え方 が企業全体に十分に浸透していないと,企業全体の活 動を最適化することは容易ではない.企業の経営が複 雑になった現在では,そのリスクを低下させるために データ分析した結果を用いて意思決定を行う.データ は意思決定を行ううえで不可欠な材料である.ただし,
「集まる」データには,「集める」データとは異なり,真 に必要なデータが手許にない場合がある.その際は,
コストをかけてデータを収集するのか,必要なデータ と相関の高い「集まる」データで代替するのか考える 必要がある.データがないからデータを用いずに実行 するのではなく,データを参照して実行するにはどの ような手段を採用するべきか考えることが重要である.
先にあげた考えは,オペレーションズ・リサーチ(
Op-
erations Research; OR
)という学問の考えと一致す る.後者の考えについても,後藤により代替となるデー タの重要性はすでに指摘されている[12]
.経営工学科 出身の人々はカリキュラムにOR
が含まれており,全 体を最適化することの重要性は理解しているが,他学 部,他学科では,OR
が教科として含まれていること が少ないため,企業人のすべての人がOR
の知識や考 え方などを理解しているとは考え難い.現在はデータ 環境の変化に合わせた業務の進め方,社内システムの 再考する時期である.OR
的な考えを基に,データを 用いた意思決定の意義を理解し,現在の業務の進め方 を見直すことができて初めて,データサイエンティス トを雇用した目的が達せられる.6. まとめ
2022
年のデータのトラフィック量が2017
年の3
倍 になるという予測がある[13]
.今以上にデータのトラ フィック量が増加することは,データサイエンティスト が活躍する機会が今以上に増えることである.その機 会に対応するためにも人材の育成は重大な課題である.日本において,データサイエンティストが少ない理 由は,産業構成が主因であり,データサイエンスの歴 史,データサイエンスを受け入れ発展させる土壌がな いというわけではない.データサイエンティストの需 要を満たせていないという現状の課題はあるが,その 課題を克服するためのさまざまな施策が行われており,
データサイエンスに関するこれまで蓄積された資産を 用いれば,今後については悲観することはない.むし ろどのように活用すれば,結果が出せるのかという点 を考えるべきである.
企業では将来を見据え,データサイエンティストの 採用を進めようとしているが,データサイエンティス トを雇用するだけでは,業務においてデータサイエン スを活用することはできない.データ分析から得られ た何らかの知見を活用するには,自社のビジネスのど こに組み込むのか,また,データを活用することで,ビ ジネス全体にどのような効果があるのかといった,全 社の視点で見る必要がある.
先にデータサイエンス的な取り組みは,大半の日本 企業は行ってきたと述べたが,それは,品質管理部や マーケティング部などの部署単位の活動が中心であっ た.これまでは,データは「集める」モノであったた めにコストが掛かり,必要な部署で必要なデータを収 集して活用していた.このことは,データを活用する 業務,人材が一部の部署に偏ることを意味する.しか し,現在は企業の活動全体にわたって,データが「集 まる」時代となった.営業部は
POS
データ,取引明細 のデータ,宣伝部はソーシャル・メディアの投稿デー タ,広報部は自社の広報サイトのアクセスログ,製造 部は工場の機械のセンサーのデータといった具合に,データは企業の活動とともに集まってくる.この集ま るデータをもとに,どのように業務を再構築するか検 討する時期である.言い換えると,全社の活動に関し て,データを用いて円滑な意思決定ができるようにす ることである.意思決定を行ううえで,最善のデータ がなければ,次善の策を考えるべきである.企業の活 動にはリスクが伴う.このリスクをコントロールする ためにもデータを用いた意思決定は不可欠である.
図
3
データサイエンスデータサイエンスの時代には,「合理的な意思決定」
並びに「最適化」という言葉が,企業が競争を優位に進 めるためのキーワードである.企業活動全体でデータ を活用できる現在では,企業活動全体を通しての最適 化が求められる.どこかの部署という部分最適ではな く,顧客に届ける価値の創造から,その価値を伝達す るところまで,全体を通しての最適化である.そのた めには,最適化という概念の普及が重要である.デー タサイエンスでは,解決できなかった問題を解決する 手法の開発も重要であるが,それと同時に,データを 活用するうえで基本となる考えの普及も重要である.
合理的な意思決定並びに最適化という考えを普及させ るためにも,
OR
もデータサイエンス教育に加えるべ きであろう.図3
にあるように,統計学や機械学習を 支える根本的な考えが合理性と最適化である.同時に,そのような考えを広く知らしめるような活 動が重要になる.その活動については,さまざまな組 織が担うことができるが,社会に
OR
の考え方を浸透 させることができる組織として,日本オペレーション ズ・リサーチ学会に対する期待は小さなものではなく,データサイエンスの時代に今以上に存在感を発揮する ことが期待される.
参考文献
[1]
星野崇宏,上田雅夫,『マーケティング・リサーチ入門』,有斐閣,2018.
[2] Mckinsey & Company, https://www.mckinsey.com/
∼
/media/McKinsey/Business%20Functions/McKins ey%20Digital/Our%20Insights/Big%20data%20The
%20next%20f rontier%20f or%20innovation/MGI big
data full report.pdf(2020
年6
月30
日閲覧).[3]
田口玄一,『品質工学の数理』,日本規格協会,1999.[4]
陸正,『マーケティング情報システム』,成文堂新光社,1988.
[5]
セブン-イレブン・ジャパン,https://www.sej.co.jp/company/aboutsej/info 03.html(2020
年6
月30
日 閲覧)[6]
法政大学産業情報センター,小川孔輔,『POSとマーケ ティング戦略』,有斐閣,1993.[7]
椿広計,システム科学とデータ科学,横幹,14 , pp. 64–69,
2020.
[8]
新村秀一, テータ解析からテータ・サイエンスへ―情報 技術(統計ソフト・WWW・AI)との共生により統計知識を 国民の知的共有財に―, 統計数理,45, pp. 23–40, 1997.
[9]
トヨタ自動車,プレスリリース資料より,https ://
global.toyota/jp/newsroom/corporate/30300614.html
(2020年