テキストマイニングとは

第 8 章間接上場の課題

第三部米国に上場する中国企業

9.1 テキストマイニングとは

数字型のデータに含まれる情報より、構造化されていない（Unstructured）テキストに含まれる情報の量がはるかに多い⁹²。例えば、ウェブサイト、オンラインニュース、会議記録、医療記録、電子メールなどのテキストは大量かつ非構造化である一方、そのなかには巨大な価値がある。したがって、こうしたテキストから重要情報の抽出・分析が課題となっている。これは

「Information Retrieval、又はInformation Extraction」と言われるアプローチであり、「情報抽出」

と訳されている。

情報抽出はテキストマイニングの重要な応用分野である。テキストマイニングは、テキストデータマイニングや、テキスト型データベースによる知見発見（Know ledge Discovery）とも呼ばれ、非構造化のテキスト集から面白い、自明でない（Non－trivial）パターンや知識を抽出するためのプロセスである⁹³。これはまた、複数の文書データの内容を総合的に捉えることで初めて得られる知見を抽出するための内容分析の技術⁹⁴、と定義できる。

9.1.1 テキストマイニングの手法

テキスト内容を対象とする分析手法は、19世紀末に単語の長さの分布を用いる研究に遡ることができる⁹⁵。1990年代後半からパソコンの普及による電子テキストの急激な増加及びコン

91 本論文「2.3.2.1米国の情報開示制」で論じているように、米国情報開示ルールでは「小規模登録会社」に認

定される会社は一部の情報開示の義務が免除されるとなっている。

92 Gupta and Lehal（2009）によれば、テキストに含まれる情報の量は全情報の少なくとも80%を占めている。

93Tan（2010）p1

94那須川（2006）

95 齋藤（2012）

94 ピュータの情報処理能力の向上により、テキストマイニングは、データマイニングの一層の進化として出現し、欧米を中心に多分野に進展している。今日、テキストマイニングは、データベース、情報検索、情報抽出、機械学習（Machine Learning）、自然言語処理、統計分析、など多分野を跨る学科となっており、主に機械学習通じて大量なテキスト集よりパターン、規則、

トレントを発見し、社会科学に新たな定量的なアプローチを提供している。

一般に、テキストマイニングでは、テキスト文書は「自然言語処理モジュールを通して統計的分析が可能な状態に変換され、マイニングの対象となる。そしてそのマイニングが、視覚化モジュールを通じてインタラクティブに行われる点が重要である」⁹⁶。したがって、テキストマイニングは、①テキストの自然言語処理、②データマイニング技術より統計処理、③結果の可視化、という流れで行われる。

図9－1 テキストマイニングの流れ

出典：那須川（2006）p19

①自然言語処理（Natural Language Processing、NLP）

ここでは、主には自然言語処理を通じて非構造化のテキスト集を初処理する。

数値型データといったパソコンで扱えるデータ（いわゆるStructured Data）に対して、テキストデータはコンピュータに直接取り扱えない構造化されていないデータである。自然言語処理とは、こうしたテキストデータを自然言語処理の技術により解析し、コンピュータに処理可能な形式に変換するプロセスである。様々な自然言語処理の技術のうち、a形態素解析、b構文解析、c固有表現・同義語・評判情報の抽出、等がテキストマイニングに有用な技術として挙げられる⁹⁷。

a形態素解析。日本語や中国語のようなアジア系言語では単語間の区切りが明示されていない文字列で構成されている。したがって、分析に先立ってテキストを意味のある単位の構成要素に切り分ける作業が必要となっている。次に、切り分けられている単語に、名詞、動詞などの品詞をつける。そうすると、意味のない助詞を取り除いたり、

名詞や動詞を中心に分析したりすることができ、テキストの意味をより精確に捉えられる。こうした一連の作業は形態素解析と呼ばれている。

96 那須川（2006）p19

97 吉田、中川（2010）

95 b構文解析。構文解析は単語どうしの関係を分析し、それを文法的・意味的関係にまとめ

る技術である。

c固有表現・同義語・評判情報の抽出。これは、固有表現、固有名詞を特定したり、複数の同義語を1つの単語に統合したり、「良い、悪い、最高、最低」等の評判情報を抽出したりする技術である。

②データマイニング技術より統計処理

初処理を経て、テキスト集はコンピュータが扱える構造化データになっている。次は、こうしたデータを対象にマイニングしていく。ここでは、主に頻度集計、テキスト分類、テキストクラスタリング（トピック抽出）、相関分析、傾向分析、等が用いられている。

a 頻度集計（Frequency Counting）。頻度集計の手法では、文章の中の構成用語の出現頻度の変化から、テキストに定着している単語を発見できる。また、出現頻度急増の単語から、過去から現在へのテキストの変化を発見できる。更に、理論上は出現頻度が低く、目立たない単語から、将来のテキストの変化の予兆を発見できる⁹⁸。

b テキスト分類（Text Classification、又はText Categorization）。これは、テキスト集に収められる個別のテキストを予め定められているカテゴリーに分類する、という技術を指す。ここでは、カテゴリーの設定は手作業が必要となるので、これは有監督

（Supervised）機械学習と呼ばれる。この場合、構造化されているデータは、トレニングデータ（Training Data）とテストデータ（Test Data）との2つのグループに分かれて、

トレニングデータよりカテゴリーが作成され、テストデータがカテゴリーに分類される、というプロセスが一般に用いられている。

c テキストクラスタリング（Text Clustering）。テキスト分類という有監督機械学習に対して、テキストクラスタリングは無監督（Unsupervised）機械学習という。テキストクラスタリングの目的は、機械学習を通じてテキスト集を幾つかのクラスタに分類し、

クラスタ内の個々のテキストの類似度が最大になる、ということである。この方法を通じて、各クラスタは1つのテーマにまとめられる。

d 相関分析（Association Analysis）。これはテキスト集にある単語間の関係を分析する手法であり、共起分析（Cooccurrence）とも呼ばれる。それは頻度集計の手法に基づき、

単語Aと単語Bが同時に出現する回数、いわゆる共起頻度を集計することによって、

共起行列を作って分析する手法である。

e トレンド分析（Trend Prediction）。これは既存のテキストの分析を通じて、将来ある時点の特定データの数値を予測する手法である。

f そのほかに、ベクトルスペースモデル（Vector Space Model、VSM）がよく利用されている。ベクトルスペースモデルは文章に含まれる情報をベクトルで表示するアプローチである。

③結果の可視化（Visualization）

これは統計処理の結果を人間が見易い図表等の形式に可視化するプロセスである。

テキストマイニングは主にこうした3つのプロセスにより行われる。

9.1.2 テキストマイニングの応用分野

今日、テキストマイニングは、生体医学（Biomedical）、科学教育、金融・商業、等様々な分野に広く適用している。

98 杉浦、菰田（2008）p8

96 例えば、テキストマイニングが最も広く利用されている生物医療分野では、Cohen and Hersh

（2005）は、医学情報は2004年から毎年50万条以上のスピードで急増加しており、遺伝子学の進展はこうした状況をより一層複雑化していると指摘し、テキストマイニングはこうした過剰情報（Information Overload）対策の1つであると指摘した。Spasic（2005）は、生体医学の研究が急増加している中、テキストマイニングなしには、医学関連情報を効率的にマネジメント、検索することは困難だと指摘した。Kogan、Levin etc（2009）は、「Text Regression」というモデルを提起し、それより米国公開会社がSECに届け出るForm 10－Kの「MD&A」を対象に、MD&Aに開示されるリスクより同対象企業の株式ボラティリティーを予測している。

Peramunetilleke and Wong（2002）は新聞記事のヘッドラインより抽出されるキーワードと為替レ

ートとの関係をテキストマイニングし、為替レートの予測をしている。

日本では、公的機関が作成した書類を対象にテキストマイニングを行う研究は多数ある。そのうち、増田（2010）、増田（2012）はそれぞれフランス地方議会の審議内容と高崎市議会の審議内容を、出現頻度の変化に着目して分析している。余野、和泉等（2010）は英国中央銀行が作成した英文経済レポートをテキストマイニングし、英国スワップ金利の予測をしている。

更に、余野、和泉等（2011）は、本論文が後述するTFIDFによるテキストマイニングの分析ツールを開発し、英国中央銀行が作成した英文経済レポートと英国スワップ金利との関係を再分析している。西山、竹内等（2007）は、特許文書に開示されるキーワードをテキストマイニングにより抽出して分析することで、将来技術動向の予測をしている。迫村、和泉、サンティ

（2013）は、32億件にのぼるツイッターを収集し、それより抽出された情報と市場動向との関係を分析している。

中国でも、テキストマイニングを応用する研究が進んでいる。前述した日米の研究で挙げた生体医学や金融・商業の分野に加えて、近年はウェブサイトのユーザーコメントを対象にテキ

ドキュメント内中国上場企業の情報開示に関する研究 (ページ 95-98)

第 8 章 間接上場の課題

第三部 米国に上場する中国企業

9.1 テキストマイニングとは

第 8 章間接上場の課題

第三部米国に上場する中国企業