• 検索結果がありません。

文書情報による企業特性の定量化方式

N/A
N/A
Protected

Academic year: 2021

シェア "文書情報による企業特性の定量化方式"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

文書情報による企業特性の定量化方式

A quantification method of enterprise characteristics

using documents

加藤元英

1

米森力

1

松永務

1

Motohide Kato

1

,Chikara Yonemori

1

and Tsutomu Matunaga

1

1

株式会社 NTT データ 技術開発本部

1

Research and Development Headquarters, NTT DATA Corporation

Abstract: With daily enterprise activity, the activity has been electronically accumulated in the

form of documents including a newspaper. By retrieving the documents about an attention enter-prise, it is the environment which can get to know the enterprise. However, actually it is difficult to grasp the enterprise activity due to the huge amount of documents. It is the situation that an enterprise evaluation such as growth characteristics can not help relying on the fragmentary memory of each analyst. We propose a quantification method of enterprise characteristics using documents in this paper. This proposed method enable to give the degree of arbitrary character-istics concerned to the enterprise quantitatively, and then an comprehensive enterprise evaluation is promoted. In addition, this method realizes extraction of documents revevant to each charac-teristic by a common principle. By this method, a document is expressed by a vector based on included terms and an object of an enterprise and its characteristic is generated through a vector set corresponding to the documents in a form of subspace. The degree of relations between them is quantified by an angle of the two subspace. The effectiveness of the proposed method was shown through experimental results using newspaper for the case of an enterprise’s intellectual potential.

1

はじめに

昨今の IT 環境の進展により電子情報の蓄積が促進さ れ,このデータ資産の有効活用のニーズが顕在化しつ つある.企業評価においても従来のアナリストによる 業務知識に基づいた財務データ分析から,文書情報に 拡げた網羅的分析への期待が高まってきている.本稿 では,文書情報による企業特性の定量化方式を提案す る.本方式によれば,任意の特性における関連度合を 定量的に企業に付与することが可能となる.文書情報 の活用 [1] としては,これまで検索をはじめ,情報分類 や抽出について元の文書情報が保たれた形の検討が数 多くされてきている [2].本稿のねらいは,企業を例に 取り上げ,大量の文書情報が統計的な分析に活用可能 であり [3],任意の企業特性の定量化を実現する点を示 すことにある.更に,その特性に応じた文書の自動抽 出を示し,企業特性の結果を根拠付ける解釈が促進さ れることについて述べる.以下,2.で企業情報の定 量化について述べ,3.で提案する企業特性の定量化 連絡先:株式会社 NTT データ       〒 135-8671 東京都江東区豊洲 3-3-9  豊洲センター ビルアネックス 11F        E-mail: katoumth@nttdata.co.jp 方式を明らかにする.4.では,実データを用いた実 験評価を通して,提案方式の有効性を示す.5.はま とめと今後の課題である.

2

企業特性の定量化

企業評価は一般に BS(貸借対照表)や PL(損益計 算書)などの財務指標を利用して,当該分野の専門家に より行われることが一般的な状況である.一方,Web や EDI などに代表されるように企業に関する情報が電 子化される環境が整いつつあり,大量の情報が流通す る状況下にある.例えば,2000 年∼2005 年に発行さ れた全国紙 4 紙の自動車・自動車部品企業に関する記 事数は 25,996,新製品・新サービスに関する記事数は 33,515にも及ぶ [4].文書情報は,企業の一般的な活動 を理解する上で,企業評価に欠かせない有効な情報源 と考えられるが,文書情報の取り扱いとして一般的な 文書検索では,キーワードの選択など人手を介するた め,企業活動を包括的に捉えた分析を行うことは困難 であるといえる.ここに,文書情報を活用した企業評 価の自動化のニーズがあると考えられる.

SIG-DMSM-A701-12 (7/26)

人工知能学会研究会資料

(2)

׍ஊἫἁἚἽምЈ ׍ஊἫἁἚἽምЈ ˖ಅ ᵡᶇ ỉ ỼἨἊỹἁἚ ᚇໜ ᵴᵿ ỉ ỼἨἊỹἁἚ ૨୿ἫἁἚἽ ᶂᶉ ˖ಅ ᵡᶇ Ệ ᧙ẴỦ૨୿ ᚇໜ ᵴᵿ Ệ ᧙ẴỦ૨୿ ЈྵҥᛖửؕỆ ૨୿ửἫἁἚἽᘙྵ҄ ЈྵҥᛖửؕỆ ૨୿ửἫἁἚἽᘙྵ҄ ˖ಅ ᵡᶇ ỉᚇໜ ᵴᵿ Ệ ݣẴỦ᧙ᡲࡇ ૨୿ ᶂᶉ ỉᚇໜ ᵴᵿ Ệ ݣẴỦ᧙ᡲࡇ ᚇໜỉỼἨἊỹἁἚể˖ಅỉ ỼἨἊỹἁἚỉ᧙ᡲࡇᚘም ᚇໜỉỼἨἊỹἁἚể ᶂᶉ ỉ᧙ᡲࡇᚘም ⹏ଔㇱ ⷰὐࠝࡉࠫࠚࠢ࠻ ↢ᚑㇱ 図 1: 文書情報による企業特性の定量化フロー 企業評価は一般的に倒産分析などでロジットモデル [5]の活用が挙げられる.ロジットモデルによる企業評 価のスコア Slogitは次式のように定められる. Slogit= 1 1 + exp(−(a0x0+· · · + amxm)) ここで,xr(0≤ r ≤ m) は財務指標や成長期待度など 定量的な値,m は定量値の数,arはパラメータである. しかしながら,ロジットモデルに利用される定量値は, 財務指標を始めとした,取り扱いが容易なデータに限 られる.したがって,企業属性を定める観点(例えば, 倒産の要因や,企業の好調・不調など)の中で,指標 化が困難な分析に対しては評価を行うことができない 限界がある. 本論文では,文書を統計的に扱えるように表現し,こ れらの文書情報に基づいて,評価対象となる企業と,評 価の観点を統一的なオブジェクトとして扱うことによ り,企業特性に基づく企業属性の判定と,判定を根拠 付ける文書を抽出することを可能とするアプローチを 提案する.観点と企業とにオブジェクトによる統一的 な表現を用いることにより,企業属性の判定結果と抽 出される文書とに矛盾のない結果が得られると考えら れ,企業評価における効果的なアプローチといえる.

3

提案方法

本章では,企業特性の定量化方式による,企業属性 の判定方法(3.1)とその判定を根拠付ける文書抽出の 方法(3.2)について述べる. 本方式の全体像を図 1 に示す.本方式は,文書ベク トルを基に観点オブジェクトを生成する観点オブジェ クト生成部と,各企業オブジェクトの相対的な近さを 定量化し,企業属性判定と根拠文書を抽出する評価部 とで構成される. 観点オブジェクト生成部では,文書内の出現単語を 基に文書をベクトル表現し,これらの文書ベクトル群 の特徴から評価対象企業と,企業評価の観点とを,固 有ベクトルから得られる部分空間の形でオブジェクト として表現する.評価部では,企業オブジェクトと観 点オブジェクトとの相対的な近さを定量化し,比較す ることにより,企業属性の判定が実現される.また,こ の判定を根拠付ける文書は,観点オブジェクトと文書 ベクトルの関連度を通して,抽出される.以下,各処 理の詳細について述べる.

3.1

企業属性判定方法

3.1.1 文書情報を用いた企業のオブジェクト生成 提案方式では,文書情報を用いた企業の表現に,文書 ベクトル群から得られる部分空間表現を用いる.BOW (Bag Of Words)[6]の考え方により,あらかじめ用意さ れた企業特性を記述する N 個の単語群をベクトルの各 要素に割り当て,文書を次式の要素を持つ文書ベクト ルとして表現する. dj = T F (d, j)× IDF (j) (j = 1, 2,…, N ) ここで,j に対応する単語は基底語と呼ばれ,T F (d, j) は j の語の文書 d における頻度(Term Frequency)で ある.また,IDF (j) は j の語に関する重みであり,文 書数に対する相対的な文書頻度の対数の逆数から定義 される IDF(Inverse Document Frequency) を用い,下 の式から算出される [7]. IDF (j) = log ( 総文書数 単語 j が出現する文書数 ) 文書情報を用いた企業のオブジェクト表現は,当該企 業に関して記述された文書ベクトル群からの固有ベク トルから得られる.ここに,企業 Ciのオブジェクトは, 企業 Ciに関する K 個の文書群を dCki(k = 1,· · · , K) と するとき,自己相関行列 RCi RCi = 1 K Kk=1 dCTi k d Ci k

(3)

の KL 展開, φCi~v = RCi~v により算出された N 次元の固有ベクトル φCi の上位 fCi(α)個の固有ベクトルからなる基底により得られる. ただし,fCi(α)は下に示す,固有ベクトル φCiに対す る固有値 λCi r に対する α までの累積寄与率を満たす最 大の N0とする. α > N0r=1 λCi r / Nr=1 λCi r ここに,α(0≤ α ≤ 1)は実験的に定められるパラメー タである. 3.1.2 文書情報を用いた観点オブジェクトの生成 文書情報を用いた企業評価の観点 Vgのオブジェク ト表現は,企業オブジェクトの生成と同様,観点に関 して記述された文書ベクトル群からの固有ベクトルか ら得られる.ここに,観点 Vgのオブジェクトは,観点 Vg(g = 1,· · · , G) に属する M 個の文書群を d Vg k (k = 1,· · · , M) としたとき,自己相関行列 RVg RVg = 1 M Mk=1 dV T g k d Vg k の KL 展開, φVg~v = RVg~v により算出された N 次元の固有ベクトル φVg の上位 fVg(α)個の固有ベクトルからなる基底により得られる. 3.1.3 企業属性判定 企業オブジェクトと観点オブジェクトを用いて,企 業毎に観点に対する関連度が定量化される.具体的に は,両オブジェクトの部分空間の間の角度から算出さ れる.企業 Ciに関連する観点の影響度合いは,当該 企業オブジェクトと複数の観点 Vg(1≤ g ≤ G) の近さ を角度として定量化される.企業 Ciと観点 Vgに対し て,オブジェクトを構成する固有ベクトルをそれぞれ, φS(Vg) l 及び,φ S(Ci) k とするとき,その二つのオブジェ クトの角度 L(Vg,Ci) S から関連度が得られ,次式により 算出される. L(Vg,Ci)2 S = λ S(Vg,Ci) max ここで,λS(Vg,Ci) max は次の行列 X = (xij)の固有値問題 を解いて得られる最大固有値である. xij = Nl=1 ( φS(Vg) i , φ S(Ci) l ) ( φS(Vg) l , φ S(Ci) j ) 0 500 1000 1500 2000 2500 0 100 200 300 400 500 600 700 企業 記事数 記事数の多い上位企業 1位:2272 2位:1641 3位:1535 18社のみ1記事 図 2: 企業の記事数分布 企業属性は,この関連度を全ての観点に対して算出 し,観点間の関連度の比較によって判定される.なお, 判定には,観点毎にその関連度で対象企業を順位付け することによって規格化した値により比較を行う. 企業 Ciに対し,関連度の大きい観点が,当該企業の 企業属性と判定される.

3.2

企業属性判定の根拠文書抽出方法

ある企業に与えられた属性の根拠は,その算出の基 となった観点オブジェクトに関連する根拠文書を通し て解釈される.根拠文書の抽出は,当該企業に関する 記事に対し,観点 Vgの観点オブジェクトと文書ベク トル dCi k (k = 1,· · · , M) から算出される下の関連度 L ( Vg,dCik ) S から求められる. L ( Vg,dCik ) S = Dl=1 ( dCiT k φ S(Vg) l )2 dCiT k d Ci k ここで,D は φS(Vg) l の次元数である.この関連度 L ( Vg,dCik ) S の高い文書を根拠文書として抽出し,結果の解釈が促 進される.

4

実験

本章では新聞記事を用いた実験により,知の潜在力 企業 [8] を例に提案方式を検証する.

(4)

T 図 3: 企業属性判定の累積正解率

4.1

実験データ

本実験で用いるデータは新聞記事とし,評価対象企 業 774 社に関する 25,939 記事1を用いた.図 2 は縦軸 を記事数,横軸を記事数の降順に当該企業を並べて示 す2. 本実験では,企業の観点の例に,知の潜在力指数を 取り上げる.知の潜在力指数は,財務指標を用いて計算 される 6 つの要素「技術革新力」・「取引の効率性」・「従 業員の生産性」・「設備の活用力」・「将来収益期待」・「市 場の視点」から構成され3,これらを観点として扱った. 実験では,方式の有効性を評価するため,ここに, 企業と観点オブジェクトを作成するために用いる学習 (closed)と,企業属性判定の対象データとして用いる 評価(open)用に分割した.具体的には,知の潜在力 指数から,全体をランキング4し,奇数順位を学習用, 偶数順位を評価用とした.文書ベクトルに用いる基底 語は数詞を除く 2 文字以上の名詞のうち,単語頻度上 位 1,500 を選定した.ただし,基底語には企業名(略 称を含む)は含めていない. 12002年時の東京証券取引市場一部上場企業で,日本標準産業分 類の製造業に分類される企業から欠損値を除いた 774 社を選択した. 2002年 1 月 1 日から 12 月 31 日の 1 年間の日本経済新聞記事デー タから,数表を除く全 166,733 記事の内,企業名(略称を含む)が 記事中に含まれている 25,939 記事を得た. 2一部の企業に記事数が多く見られ,記事数に偏りがみられる.分 布としてみると興味深い面がある. 3知の潜在力指数は,それぞれ,「技術革新力」は過去二年間分の 研究開発費合計,「取引の効率性」は棚卸資産回転日数,「従業員の生 産性」は営業利益 / 従業員数,「設備の活用力」は営業利益 / 有形固 定資産,「将来収益期待」は当期利益 + 研究開発費,「市場の視点」は 株式時価総額から算出される. 46つの要素に主成分分析を適用して得られる第一主成分のスコ ア順とした. S Ყセ 図 4: 評価データにおける出現単語に基づく企業属性 判定との比較

4.2

企業属性判定の実験

本節では,提案する企業属性判定方法の有効性を検 証する.本検証では,評価対象企業の企業属性判定で 得られた上位 q 個内に正解観点が含まれている割合で ある累積正解率を評価指標に用いた.ここに,正解観 点は,知の潜在力指数に基づいてもっとも高い要素と した.また,観点オブジェクトは便宜的に観点毎の上 位 50 企業に関する記事群から,企業に関する記事数で 規格化5して作成した. 図 3 に,学習用と評価用データに対する企業属性判 定の結果を示す.横軸は評価対象企業の企業属性判定 で得られた上位 q を,縦軸は累積正解率を示しており, 正解率を表す線が図中左上に寄るほど高い精度である ことを意味する.図中の破線はランダムに選択した場 合の累積正解率である.この図から,学習用および評価 用の累積正解率 (実線) が,ランダムに選択した場合よ りも全体にわたり左上に寄っていることが示され,提 案する企業属性判定方法が妥当に動作していることが 検証される. 図 4 は出現単語頻度に基づく企業属性判定6を行った 結果との比較であり,図 3 と同じ様に図示している.こ の図において,出現単語頻度に基づく企業属性判定(点 線)に比べ,提案法の累積正解率(実線)が上回って いることが示され,単語群の出現を捉えることの有効 性が確認された. 5上位 50 位の各企業の自己相関行列 RCj (j = 1,· · · , 50) の和 を企業数 50 で割った行列を用いた. 6出現単語頻度に基づく企業属性判定は,各企業に関する記事群 に対して,出現頻度上位 1,000 単語を求め,観点の記事群における 出現頻度上位 1,000 単語に含まれる割合の最大値により判定する方 法とした.

(5)

⸥੐㧭 ߤߩⷰὐߩᩮ᜚㑐ㅪᐲ㗅૏߽ ዁᧪෼⋉ᦼᓙߣᲧߴߡ  એౝ㧔⊕㧕 ߩ⸥੐ߩਛߢ਄૏ߩ⸥੐ ⸥੐㧮 ߤߩⷰὐߩᩮ᜚㑐ㅪᐲ㗅૏߽ ዁᧪෼⋉ᦼᓙߣᲧߴߡ  એ਄㧔㤥㧕 ߩ⸥੐ߩਛߢ߽ߞߣ߽਄૏ߩ⸥੐        図 5: 将来収益期待の観点による上位 600 記事 ⸥੐㧯 ߤߩⷰὐߩᩮ᜚㑐ㅪᐲ㗅૏߽ Ꮢ႐ߩⷞὐߣᲧߴߡ  એ਄㧔㤥㧕 ߩ⸥੐ߩਛߢ߽ߞߣ߽਄૏ߩ⸥੐        図 6: 市場の視点の観点による上位 600 記事

4.3

根拠文書抽出の実験

根拠文書抽出にあたっては,予備実験から,各観点の 関連度の高い文書は,他の観点の関連度も同様に高くな る結果となった7.ここでは,各観点に対して全 25,939 記事の関連度を降順に序列化し,観点に応じた文書が 観点間と比較する中で抽出されていることを記事の例 とあわせて,検証することとした.図 5 は,図の上か ら将来収益期待の順に上位 600 記事を並べ,横軸に他 の観点に対して,100 位以上低い記事について,黒で 塗りつぶした.図 6 は同様に市場の視点について示し た図である. 図 5 において,上位 200 位までは,複数の観点に共 通して高い順位の記事が多く見られる.この記事の例 として,記事 A を取り上げる.また,450 位付近にあ る黒の直線(記事 B)は,将来収益期待が他の 5 つの 観点に比べて,相対的に高いことを意味し,将来収益 期待に特化している記事が抽出されていることを示し ている.図 6 では,550 位付近にある,市場の視点に 特化している記事 C を代表として取り上げた.それぞ れの記事の関連度による順位を表 1 に,各記事を図 7 に示す. 記事 A は,全観点に対して関連度が 30 位前後と共 通して高いとされる記事である.記事をみると,新製 品発表の記事であり,知の潜在力に新製品との関わり が伺える. 記事 B は,将来収益期待が 452 位と相対的に高い記 事である.記事をみると,共同出資会社を通じて,製 造や販売を統合するという記事であり,共同出資によ る効率化と開発力向上を図る内容が,将来への収益が 期待される内容であると考えられる. 記事 C は,市場の視点が 542 位で,それ以外の観点 は 729 位以下となっている.記事をみると,衛生管理に 関するガイドラインを作成したという記事であり,市 場が食品の衛生管理に敏感である解釈につながる. 以上から,観点の根拠を示す文書抽出の可能性が示 された.詳細評価は残る課題である.

5

おわりに

本論文では,文書を用いた企業特性の定量化による 企業属性判定と,観点の根拠文書の抽出方式を提案し た.提案方法を適用することで,計算機処理によって 自動的に企業属性の判定と根拠の把握が実現し得るこ とを,実験結果を通して示した. 実際に企業評価を行う際には,企業属性判定の後,評 価企業に関して,得られた観点に対する根拠文書の抽 出に臨むこととなる.今回の実験では企業毎に根拠文 7観点オブジェクトを生成する記事に,観点間で重複があること が理由に考えられる.この記事の扱いの高度化に検討の余地がある.

(6)

観点 技術革新力 取引の効率性 従業員の生産性 設備の活用力 将来収益期待 市場の視点 記事 A 30 30 32 28 28 28 記事 B 588 10,909 569 617 452 5,263 記事 C 837 8,492 4,852 4,708 729 542 表 1: 抽出記事の各観点における根拠関連度による順位(全 25,939 記事中) ' & $ % 記事 A 排気臭を抑えた掃除機――企業Ω(ニューフェー ス)  空気とごみを吸い込むサイクロン旋回室とごみ 収集カップを分離.(・・・中略・・・)サイクロン旋回 室とごみ収集カップは丸洗いできる. 記事 B 企業 X,企業 Y,亜鉛事業を来春統合――国内需 要低迷で効率化.  企業 X は子会社の企業 Z で亜鉛を生産しており, 企業 Y から年間約一万トンの生産を受託している. 個別に手掛ける亜鉛の合金製造や販売を,共同出 資会社を通じて統合する方向だ.詳細は今後詰め るが,企業 X が主導する見通し.(・・・中略・・・) 企業 X は規模の大きい企業 Z を軸に,企業 Y と の提携で合金の開発力などを高める. 記事 C 野菜・畜産物,HACCP 導入――P 県が産地指導, 衛生管理徹底へ.   P 県は HACCP 方式(原材料調達から加工まで の全工程で細菌感染などを監視する食品衛生管理 の手法)の考え方を盛り込んだ県独自のガイドラ インを作成.乳牛,肉牛などの畜産物のほか,露 地のホウレンソウ,水耕栽培のミツバ,トマトな ど品目別に定めた.(・・・中略・・・)特に残留農薬の 検査は強化する方針で,モデル事業として深谷市 など県内二カ所で実施していた残留農薬の簡易検 査も来年度以降は県内全域に広げる方針.(・・・中 略・・・)県はこうした手法を参考に,ホウレンソ ウの場合,生産段階を十七に分けて残留農薬,洗 浄水の水質などを管理する.遅くとも五年以内に 県内の各産地に定着させたい考えだ. 図 7: 記事の抜粋内容 書を抽出するには至らず,使用するデータを拡大し,検 証を進める予定である.観点間の関係が考慮された判 定方法の開発も今後の課題に挙げられる.

謝辞

本論文の実験に用いた新聞記事データ並びに財務デー タを使用させて頂いた日本経済新聞社様に感謝致しま す.また,本研究を行う機会を与えてくださった,関 根副本部長と上島シニアスペシャリスト,ならびに常 日頃,有益なコメントを頂くビジネスインテリジェン ス推進センタの諸氏に感謝いたします.

参考文献

[1] Yates R.B., and Neto B.R.: Modern Infomation Re-trieval, Addision Wesley, (1999)

[2] Malone T., Grant K., Turbak F., Brobst S., and Co-hen M.: Intelligent infomation-sharing stem, Comm. of ACM, Vol. 30, No. 5, pp. 390-402, (1987)

[3] Matsunaga T., and Muramatsu M.: Knowledge-based computational search for genes associated with the metabolic syndrome, Bioinfomatics, Vol. 21, No. 14, pp. 3146-3154, (2005)

[4] Factiva http://www.factiva.com/

[5] Altman E.I., and Saunders A.: Credit risk measure-ment: Developments over the last 20 years, Journal of Banking, Vol. 21, pp. 1721-1742, (1998)

[6] Manning C.D., and Schtze H.: Foundations of statis-tical natural language processing, MIT pressm Cam-bridge, (1999)

[7] Salton G.: Automatic Text Processing The Trans-formation, Analysis, and Retrieval of Information by Computer, Addison-Wesley Publishing Com-pany, (1989)

参照

関連したドキュメント

絡み目を平面に射影し,線が交差しているところに上下 の情報をつけたものを絡み目の 図式 という..

研究計画書(様式 2)の項目 27~29 の内容に沿って、個人情報や提供されたデータの「①利用 目的」

エネルギー状況報告書 1 特定エネルギー供給事業者の概要 (1) 特定エネルギー供給事業者の氏名等

エネルギー状況報告書 1 特定エネルギー供給事業者の概要 (1) 特定エネルギー供給事業者の氏名等

エネルギー状況報告書 1 特定エネルギー供給事業者の概要 (1) 特定エネルギー供給事業者の氏名等

選定した理由

②企業情報が「特定CO の発給申請者」欄に表示

䋤䋱㪩㪆㪙 䋤䋱㪫㪆㪙 䋤䋲㪩㪆㪙 䋤䋲㪫㪆㪙 䋤䋳㪩㪆㪙 䋤䋳㪫㪆㪙 䋤䋴㪩㪆㪙 䋤䋴㪫㪆㪙 䋤䋵㪩㪆㪙 䋤䋵㪫㪆㪙 䋤䋶㪩㪆㪙 䋤䋶㪫㪆㪙 䋤䋷㪩㪆㪙 䋤䋷㪫㪆㪙