金融市場ニュースの分散表現学習による辞書作成
The Financial Dictonary with Distributed Representation Learning.
片倉 賢治
1高橋 大志
1Kenji Katakura
1, Hiroshi Takahashi
11
慶應義塾大学
1
Keio Univercity
Abstract: In recent years, a method of machine learning technology has been advancing. Getting the
distributed representation of words by the Neural Probabilistic Language Model (NPLM) has attracted interest. In this study, we attempt to create a new dictionary on the basis of ones widely used in finance. In this analysis, we use News Feed Direct of Thomson Reuters Corporation provides (NFD) that focus on the market trends of the Japanese stock market in order to make the dictionary. As a result of analysis, we could succeed in creating a new financial dictionary. However, we also found problems to be solved to get better performance.
はじめに
近年, 金融市場に対する関心が高まっている.金 融市場の分析については,従来より様々な手法が提 案されており, これまで市場データを用いた数多く の分析が報告されている. 株式価格を対象とした分 析においては,例えば, 合理的な投資家等を想定し た資産価格モデルである資本資産価格評価モデル (CAPM:Capital Asset Pricing Model)や,Fama-Frenchの3 ファクターモデルといった手法が広く用いられ ている[1,2]. 一方,昨今,必ずしも合理的でない投資 家を考慮した行動ファイナンス(Behavioral Finance) [3]に関する議論も関心を集めており,その議論に広 がりをみせている[4,5,6]. また,近年の情報処理技術の向上等を背景とし, 市場参加者が利用可能な情報は年々飛躍的に増大し ており, 従来からの分析手法に加え, 新たな分析手 法に対する要望が高まっている. このような中, 大 規模情報の一つとして, 企業の開示情報やニュース, マイクロブログといった広く利用可能なテキスト情 報を分析対象とした研究が盛んに行われている. 例 えば, ニュース記事を機械学習手法の一つ SVM
(Support Vector Machines)によって分類し, 株価動 向に関して分析を行った研究[7]や, 深層学習(Deep Learning)と呼ばれる多階層ニューラルネットワー ク モ デ ル の 一 つ で も あ る RNN-RBM ( Recurrent Neural Networks Restricted Boltzmann Machine)を用い て, ニュース記事から時間的に変動する株価の上昇, 下落を予測した研究[8]等, 国内外問わず数多くの 研究報告がなされている. また,SEC(米証券取引 委員会)に提出された 10-Ks(年次報告書)を対象 とし,ファイナンスに特化した辞書(ファイナンス用 辞書)を用いた分析も行われている.ファイナンス用 辞書には, Positive や Negative 等の極性を持つ単語群 が定義されているが,これら辞書を用いて分析する ことにより,心理社会学辞書の H4N(Harvard-IV-4 TagNeg)を用いて分析をしたものと比較して,誤分 類による影響が緩和され, 説明力が向上するとの報 告が行われている[9]. 更に,これらファイナンス用 辞書を金融市場の分析に活用した報告なども行われ ている[10]. このようにテキスト情報の分析におい て,分析に採用する辞書・単語群の精度は,重要な 要素の一つとして挙げられており,より優れた辞 書・単語群の構築の意義は大きい. これらを背景とし,本研究では, 新たにファイナ ンス用の辞書の作成を試みる.とりわけ本分析では, これまでに提案されているファイナンス用辞書[9] お よ び 金 融 市 場 ニ ュ ー ス の 言 語 情 報 を CBOW (Continuous Bag-of-Words)で学習した分散表現を 活用し, 新たな辞書の作成を試みる. 当手法を通じ, 金融市場特有の表現や極性を持ちうる単語群を新た に抽出することを試みるものである. なお,本分析 では,日本の株式市場を対象としたニュースを分析 対象とした. 本稿の構成は以下の通りである.次節において, 新たな辞書の作成にて本稿で採用する Continuous Bag-of-Words (CBOW)の概略について説明を行った 後,分析に用いるデータおよび分析方法について説
明を行う.次いで,分析結果,考察を示した後,本稿 のまとめを示す.
Continuous Bag-of-Words(CBOW)
CBOW は, 近年注目を集めている新しい機械学 習手法であり,単語の分散表現を高精度で獲得でき るという特徴を有している. 分散表現とは, 単語を K 次元で一意に表現するという 1-of-K 符号化によっ て得られるベクトルをより低次元で表現したもので あり, 意味が近しい単語同士はそのベクトル距離が 近くなるような性質を有する表現を指す. 従来から言語情報の分析には, 文章中に現れる単 語を扱うBag-of-words(BOW)によって表現する手 法が一般的であったが, 順序性の欠如, 扱う単語数 によって膨大な次元数となる等の欠点があった. し かしながら, CBOW によって学習した分散表現はこ れらの課題を克服し, 更に精度も向上するとの報告 が行なわれている.精度向上には,ロジスティック回 帰を階層的なグループに対して用いることでソフト マックスを近似する階層的ソフトマックスや, ラン ダムに偽の入力を選び, その偽の入力で正解の出力 が出る確率が下がるように学習するネガティブサン プリングといった手法が採用されている等, 工夫が なされている. Fig.1 は,CBOW の分散表現の獲得方法の概略を示 したものである.図の左から,Input, Projection, Output となっている.CBOW においては, 注目する単語 w(t)の前後の単語群 w(t-2), w(t-1), w(t+1), w(t+2)から 構成される BOW を入力とし, 注目する単語 w(t)を 出力するニューラルネットワークの学習により,分 散表現が獲得される1[11,12,13]. また,分散表現(単 語ベクトル)を学習した結果を基に,各単語と距離 1 本稿においては,分散表現学習において,word2vec と呼ばれる モジュールを採用した.https://code.google.com/p/word2vec/ が近い単語群を出力することが可能である2.なお, 本分析では,コサイン距離を採用した.データ
本稿では, 金融市場ニュースおよび既存の辞書[9] をベースにし,新たにファイナンス用辞書の作成を 行う3.金融市場ニュースに関しては,世界で最も広 く知られたニュース提供会社の一つであるThomson Reuters社により提供されているニュースを採用した. 具体的には,世界のマーケット動向に関するニュー スとして, Thomson Reuters社提供のNews Feed Direct (NFD)を用いた. NFDは, News Scope Directとしても 知られており, ニュースのヘッドラインや経済イベ ントを極小の遅延で配信し, 発表時刻もミリ秒単位 で保持している等, 分析に適した特徴を有している. サンプル期間は,2003 年 1 月 1 日〜2012 年 7 月 31 日とした.NFD は,世界各国の市場を対象とした ニュースが含まれており,ニュースの言語も英語, フランス語,ドイツ語,日本語などをはじめ多岐に わたる.このような膨大な量のニュースの中から本 分析では,とりわけ, 日本市場及び日本企業に関す る英語ニュース記事 411,531 件を対象として分析を 行った. ニュース記事は, 1,349 万行, 9,265 万単語を 含み, 対象記事の内, 日本企業に関連する記事は, 363,970 件, 該当する企業数は 308 件であった.分析方法
本研究では, 金融市場において配信されているニ ュースから分散表現を学習し, 新たなファイナンス 辞書の作成を試みる.具体的には,全期間のNFDを 分散表現学習モジュールによって,単語の分散表現 を学習し, 既存辞書の単語リストとの関係性に注目 して分析を行う. 2 本稿においては,距離算出において,distance モジュールを採 用した. 3 既存の辞書については,前述のファイナンス用辞書データ[9] を用いた.http://www3.nd.edu/~mcdonald/Word_Lists.html Fig. 1: CBOW の概略. Fig. 2: システム概要図.Fig.2は,分析方法の概略を示したものである.図 中の左部分は,ニュース情報(NFD)および既存のフ ァイナンス用辞書(Financial Dictionary)を示している. 本分析では,これら情報を基に単語群の作成を行う. 具体的な分析方法は,次のとおりである. (1) 全期間のニュースデータ(NFD)を1つのファイル に抽出する. (2) 分析対象のニュースデータ(NFD)に対して,必要 な前処理を行う.(例:URL及びEメールアドレス の除外処理を行う. 全ての大文字を小文字に変 換する等.) (3) ニュースデータ(NFD)ファイルを分散表現学習 モジュールに入力し,分散表現を学習する. 本分 析では,学習手法は階層化ソフトマックスとし, 考慮する文脈サイズは5(w(t-5)〜w(t+5))とした. (4) 分散表現学習モジュールの出力結果を,距離算 出のための入力として実行する. (5) 既存辞書のNegative単語を距離算出モジュール に順次入力し, 分散表現のコサイン距離が近い 単語群の一覧を取得する. 本分析においては,上記プロセスを通じ,単語群 の作成を行った.
分析結果
本稿では, はじめに Negative 単語について分析を 行った後, Positive 単語について分析を行った.Negative 単語
はじめにNegative 単語を対象とした分析を行った. 分析結果, 全 2,329 件中, 金融市場ニュースに出現し た単語は1,933 件, 出現しない単語は 396 件であるこ とがわかった. 次いで,距離算出モジュール(distance モジュール)に, この出現した単語のみ 1,933 件を入 力し, コサイン距離の近い単語リストを獲得した. 結果について分析をしたところ,コサイン距離が0.7 以上の単語数は,67 単語であり,それらのうち,既 存辞書に含まれていな単語は45 単語であった.新た に示された単語の中には,drop, fell などのものが含 まれるが,その一方で,rose, climed などといったも のもあり,今後,詳細な分析の必要性を示す結果と なっている.Positive 単語
次いで,Positive 単語を対象とした分析を行った. Positive 単語についても同様にコサイン距離の近い 単語群の抽出を試み, 既存辞書の単語全 354 件中, 金融市場ニュースに出現した単語は 335 件, 出現し ない単語は19 件であった. 同様に, コサイン距離が 0.7 以上の単語数は 35 単語であり,それらのうち, 既存辞書に含まれていな単語は20 単語であった.当 結果も今後詳細な分析の必要性を示す結果である.考察
本 分 析 で は , 既 存 の フ ァ イ ナ ン ス 用 辞 書 及 び CBOW によって新たに単語の抽出を行った.本分析 では,CBOW のパラメータを固定して分析を行った が(例えば,文脈サイズを5 に固定),より改善した 手法による詳細な分析は今後の課題として挙げられ る.また,専門家による評価の採用や, 株価や市場 データとの関係性に関してのより進んだ分析を実施 することで,更なる改善が図れる可能性があること から,これらの分析についても今後の課題である.まとめ
本稿では, 金融市場ニュースの分散表現学習によ る新たな辞書作成を試みた.分析の結果, 既存辞書 には含まれない新たな単語を抽出することができた. 一方,得られた結果は,今後精度の改善の余地があ ることを示すものであることから,より詳細な分析 は今後の課題である.具体的には,抽出する単語群 の閾値であるコサイン距離の範囲の調整, CBOW の 学習パラメータ調整, 株価や市場データとの関係性 の分析, 他の金融市場ニュースにおける新たな単語 群の抽出や比較などが,今後の課題として挙げられ る.参考文献
[1] Jensen, Michael C.: Some anomalous evidence regarding market efficiency. , Journal of financial economics 6.2 , pp. 95-101. , (1978).
[2] Fama, Eugene F., and Kenneth R. French. : Common risk factors in the returns on stocks and bonds. , Journal of financial economics 33.1, 3/56. (1993).
[3] Shleifer, Andrei. Inefficient markets : An introduction to behavioral finance. , Oxford university press, (2000).
[4] 砂川伸幸,山崎尚志. : マーケットの非効率性と企業
の投資・財務戦略. , 國民經濟雜誌 186.3 , pp. 65-77, (2002).
[5] Ikenberry, David, Josef Lakonishok, and Theo
Vermaelen. : Market underreaction to open market share repurchases. , Journal of financial economics 39.2 , pp. 181-208, (1995).
markets. , (1989).
[7] Schumaker, Robert P., and Hsinchun Chen. : Textual analysis of stock market prediction using breaking financial news: The AZFin text system. , ACM Transactions on Information Systems (TOIS) 27.2, 12, (2009).
[8] 吉原輝, 藤川和樹,関和広. : 深層学習による経済指 標動向推定. , 人工知能学会全国大会論文集 28 , pp. 1-4, (2014).
[9] Loughran, Tim, and Bill McDonald.: When is a liability not a liability? Textual analysis, dictionaries, and 10-Ks , The Journal of Finance 66.1 , pp. 35-65 (2011).
[10] Yamashita, Y., Jotaki, H., and Takahashi, H.: Analyzing the Influence of Head-Line News on the Stock Market in Japan, International Journal of Intelligent Systems Technologies and Applications,12, pp.328-341, (2013).
[11] Mikolov, Tomas, et al.: Efficient estimation of word representations in vector space., arXiv preprint arXiv:1301.3781 (2013).
[12] Mikolov, Tomas, et al.: Distributed representations of words and phrases and their compositionality., Advances in Neural Information Processing Systems. (2013).
[13] 西尾泰和.: word2vec による自然言語処理, オラ