• 検索結果がありません。

word2vec を用いた分析作業の流れ

第 4 章 「ヒット製品」の事例検証

第 2 部 新聞記事の表現から見る

5.3 word2vec を用いた分析作業の流れ

ここではword2vecを用いたとブランド分析作業の流れ、そしてword2vecの実行と結果 の整理の手順について述べる。

5.3.1 ブランド分析作業の流れ

分析作業は、記事データからword2vecを用いて得られた類義語とコサイン類似度を企業 名、製品名、製品カテゴリーの 3 つの観点から整理、比較し、企業及び製品の特徴を見出 す。この3つの観点は表5-1や表5-2、表5-3で示したようなword2vecの試行結果を整理 して決定した。

①いくつかの業界、あるいは製品カテゴリーにおいて競合関係にある企業名を指定し、そ

れぞれword2vecを用いて類義語とそのコサイン類似度を得る。ここで得られた類義語の

コサイン類似度を集計し41、a.製品名(個別製品の固有名詞)、b.製品カテゴリー(製品共 通の一般名称)、c.企業名、d.その他に分類しそれぞれを比較する。

これによりある企業が力を入れている製品や競合する他社の製品がどういったもので、

どのような製品カテゴリーに属しているのか、同様の製品カテゴリーに取り組んでいる のがどのような企業かを知ることができ、他社との違いも知ることができると推測され る。

②①で得られた製品名を指定し、word2vecを用いて類義語とそのコサイン類似度を得、得 られた類義語のコサイン類似度集計し、①と同じように a.製品名、b.製品カテゴリー、

c.企業名、d.その他に分類し、それぞれを比較する。

ここでは製品から競合する他社の製品がどういったもので、どのような製品カテゴリー に属しているのか、同じ製品カテゴリーに取り組んでいるのがどのような企業かを知る ことができると推測される。企業と製品という組み合わせで分析を試みるため、①で得 られた製品名を用いることにした。

③①で得られた製品カテゴリーを指定し、word2vecを用いて類義語とそのコサイン類似度 を得、得られた類義語のコサイン類似度集計し、①と同じようにa 製品名、b 製品カテ ゴリー、c 企業名、d その他に分類しそれぞれを比較する。

このことにより、製品カテゴリーから、その製品カテゴリーの特徴を表している製品が どういったもので、関連しているのはどのような製品カテゴリーか、同様の製品カテゴ リーに取り組んでいるのがどのような企業を知ることができると推測される。

図5-1はこの①から③の分析の流れのイメージ図である。

41 コサイン類似度の集計については5.3.2で詳述する。

59

図 5-1 word2vecによる記事データ分析のイメージ図

5.3.2 word2vecの実行と結果の整理の手順

word2vec は実行の前に何らかのテキストデータを形態素解析ソフトで語の単位に分解、

データ化し、各単語の特徴を学習させ、その学習したモデルを適用して実行することにな る。

ここでは西南学院大学吉武春光教授が作成された学習モデルを用いて、word2vecを実行 する。word2vecにより得られたコサイン類似度の集計は以下のようにおこなう。なお、こ

の word2vec 実行のための環境作成については吉武教授の論文(吉武,2016)に詳しく述

べられている。

①2003年から2012年(10年間)の日本経済新聞の記事データ42に対して、キーワード(製 品名、製品カテゴリー、企業名)を年ごとにpositive wordとして与えてword2vecを実 行し、各年の上位30位まで43の類義語と各類義語のコサイン類似度(r)を得る。各年の

word2vecで得られた結果は表5-1、表5-2、表5-3のイメージである。

この研究では変化を分析するのではなく、ある一定期間での企業と製品のイメージ(ブ ランド)の関係を分析するため、分析対象期間を本研究で利用可能な記事データの最新 の10年である2003年から2012年の10年間とした。10年間とした根拠は期間を短く すると、ある限られた期間だけ突発的に発生する事象(例えば大災害や大きな事件、爆 発的で一時的なブーム)に関連して生じる語が類義語として候補になるのを除外するた めである。逆に確立されたブランドであれば、一定の期間そのイメージが保持されなけ ればならないからでもある。

②①で得た2003年から2012年の上位30位の類義語ごとのコサイン類似度(r)を集計(Σ

r)し、上位30位までの類義語を抽出する。

10年間のword2vecの分析で得られた類義語と類義語が出現した回数、コサイン類似度

42 新聞記事は記事単位で1件のデータとして分析をおこなった。このため同一記事内に相反する類義語が 発生することもある。

43 各年のword2vecで得られた結果および10年間の集計結果を上位30位までしか分析に用いなかったの

は、それ以下の類義語のコサイン類似度に大きな差がなかったためである。

製品名

製品カ 企業名

製品名

類義語+類似係数

企業名 新聞記事データ

word2vec

製品カテゴリー

その他

60

表 5-4 アップルでの2003年から2012年類義語句抽出

の集計結果(Σr)の数値の大きい順に上位30位までを並べたのが表5-4である。

③類義語は年によって異なるため、②で得た 10 年間のコサイン類似度の集計結果(Σr)

の上位 30 位の類義語を、その類義語が出現した回数(年数=n)で除して各類義語の類 似係数(R)とし、10年間の類似度はこのRを用いる。

ここで類義語の出現した回数(出現数)で除するのは出現数が少ないのにコサイン類似 度が大きな類義語の評価を高めるためである。とはいえ、Σrの上位30位までを対象と しているため、特殊な事情で出現した類義語は除外されると考えられる。

類義語 Σr(コサイン類似

度計) 出現数

iPod 6.298381627 9

携帯音楽プレーヤー 5.876129210 9

マイクロソフト 5.668904364 9

i-pod 5.660716176 9

iPhone 4.928206563 6

Store 4.391272008 7

スティーブ・ジョブズ 4.386488080 7

音楽配信サービス 4.244774252 7

アイフォーン 4.105462611 5

Google 3.852727890 6

アップル社 3.499390185 5

ANDROID 3.416294456 5

ウィンドウズ 3.390211612 6

アップルコンピュータ 3.303206444 5

基本ソフト 3.296371579 5

iTunes 3.212289155 5

デル 3.104917943 5

多機能携帯端末 3.034018934 4

音楽配信 2.962536573 5

マッキントッシュ 2.910183847 5

配信サービス 2.903646410 5

WALKMAN 2.896934986 5

smartphone 2.771989524 4

Napstar 2.702177227 5

多機能携帯電話 2.691088676 4

App 2.603041947 4

nano 2.552643180 4

Windows 2.505138814 4

iPad 2.446907103 3

Music 2.429981589 4

1)word2vecの実行結果の集計より上位30件を表示。

61