米国上場する中国企業におけるテキストマイニング

第 8 章間接上場の課題

第三部米国に上場する中国企業

9.3 米国上場する中国企業におけるテキストマイニング

99 図9－2 上場方式別の新規上場企業数と上場廃止企業数単位（社）

出典：各種公開資料より筆者作成

注：2016年のデータは上半期のみとなっている。

100 ステップ③ キーフレーズ集に収録されるキーフレーズがMD＆Aに出現する回数を数え上げ

る。

ステップ④ TF－IDFアルゴリズムによって推定される重要度をMD＆Aの出現キーフレーズのスコアとする。各社のMD＆Aのすべての出現キーフレーズのスコアの合計を対象企業各社の情報開示スコアとする。

9.3.1 ステップ①：リスクファクターズ、MD＆A情報を収集・整理する

本論文は、主に3つの上場方式より米国取引所に上場した中国企業285社を研究対象としている。こうした上場方式の違いにより、対象企業の届け出書式が違ってくる。殻借り上場の中国企業103社は米国国内企業用のForm 10－Kを利用しており、中国籍国有企業12社とタックスヘイブン籍の中国企業168社はForm 20－Fを利用している。そこで、本論文は、対象企業

285社の2007－2015年のアニュアルレポート、延べ1280社のリスクファクターズとMD＆A情

報を収集している。

1280社のリスクファクターズの字数の合計は2.12千万字である。そのうち、字数が最も多いのはナスダックに上場している「ソホ（搜狐、SOHU）」という企業の2014年のリスクファクターズで、46,979字である。最も少ないのは12社（延べ32社）ある。こうした企業は

「Smaller Reporting Company」のため、リスクファクターズの開示は求められない。

9.3.2 ステップ②：リスクファクターズよりキーフレーズ集を作成する

ここでは、下記①－④の手順に従って、対象企業のリスクファクターズよりキーフレーズ集を作成していく。

①対象企業285社の2007－2015年の延べ1,280のアニュアルレポートに掲載されたリスクファクターズを1つのファイルに統合して、各英語単語にPOS Tag（品詞コード）を付ける（図表などを除く）。

②上述ファイルに、任意の接される2つの単語からなるすべてのフレーズの出現頻度を数え上げる。そこで、合計20万種類以上のフレーズが得られている。

③20万種類以上のフレーズのうち、名詞フレーズだけを抽出する。具体的には、品詞コードより「形容詞JJ+名詞NN」、「名詞NN+名詞NN」のフレーズを抽出する。ここで、

73,298種類のフレーズが得られている。

④最後に、出現頻度のトップ20,000位までのフレーズをキーフレーズとしている。

図9－4はその結果（一部）を示している。キーフレーズのうち、「financial condition(財務状

況)」の出現頻度が1280社のうち1247社に合計24053回出現して、最高値となっている。

20,000位のキーフレーズは「component manufacturing」となり、5社に合計10回が分析されてい

る。

101 図9－4 キーフレーズ集

9.3.3 ステップ③：キーフレーズがMD&Aに出現した回数を数える

ここまではアニュアルレポートのリスクファクターズを対象としていたが、ここからはアニュアルレポートのMD&Aに移り変わる。具体的には、キーフレーズ集の20,000種類のキーフレーズが、対象企業延べ1280社のMD&Aに出現した回数を1種類ずつ、1社ずつ数え上げる。

そこで、20,000種類のキーフレーズのうち、13,856種類（69.28%）がMD&Aで分析された。

例えば、「IFM Investments Limited」という会社の2009年のMD&Aでは、13,856種類のキーフレーズのうち、5,549種類が出現された。5,549種類のうち、例えば「fair value」というキーフレーズは、37回出現した。全対象企業延べ1,280社のうち、「fair value」は1,217社で分析され、

その回数の合計は26,233回となっている。

同様に、13,856のキーフレーズの出現回数を1つずつ数えた。次のステップ④で、それぞれのキーフレーズの重要度を計算して、情報開示スコアを算定していく。

9.3.4 ステップ④：TF－IDFアルゴリズムより情報開示スコアを推定する

頻度集計の手法では、各構成用語の重要度は同様と相違という2つの考えがある。

まず、テキストの構成用語の重要度が同じであるという考えでは、各単語はテキストに1回出れば、1点とされる。同様に、2回出れば、合計2点となり、0回ならば、0点となる。

一方、テキストの構成用語の重要度がそれぞれ違うという考えでは、ある用語が1回出て、

その重要度は1か0の代わりに、0から1までの小数で示される。したがって、その得点は回数かけるその小数となる。ここで、各用語の重要度の推定がポイントとなっている。本論文は重要度がそれぞれ違うという考えに従って、TFIDFアルゴリズムより重要度を推定していく。

TFIDFは広く利用されているアプローチであり、TFとIDFの積によって推定される。

𝐓𝐅 − 𝐈𝐃𝐅 = 𝐓𝐅_𝐢×𝐈𝐃𝐅_𝐢 式9-1

102 本論文では、3つの手順を通じて各単語のTFIDF値を計算していく。

① TFは「Term Frequency」の頭文字であり、キーワードの出現頻度を指している。

② IDFは「Inverse Document Frequency」の頭文字であり、キーワードの希少の程度を指して

いる

𝐈𝐃𝐅_𝐢= 𝐥𝐨𝐠(^𝑵_𝒏) 式9-2 N はテキストの総数（ここでは総社数1,280）

n はキーフレーズiを含むテキストの数（社数）、n≥1

③ 各フレーズの重要度を［0,1］にするため、それぞれのキーフレーズの IDFをそのうちのIDFの最大値で割る

𝐓𝐅 − 𝐈𝐃𝐅 = 𝐓𝐅_𝐢×𝐈𝐃𝐅_𝐢× ( ^𝟏

𝐦𝐚𝐱{𝐈𝐃𝐅}) 式9-3 前出の「fair value」の計算例を通じて、a－dの手順で説明していく。

まず、手順aでは、「IFM Investments Limited」という会社の2009年のMD&Aで、「fair

value」が37回出現した。

𝑇Ffair value=37

次に、手順bでは、「fair value」のIDFを計算する。全対象企業述べ1,280社のうち、「fair

value」というキーフレーズは1,217社のMD&Aに出現した。

IDF_{fair value}=log(^N

n )＝ log(¹²⁸⁰

1217 )＝0.0223

手順cでは、13,856種類のキーフレーズのIDFをそれぞれ計算した。その最大値は3.1075である。したがって、「fair value」のIDF0.0223を3.1075で割り、その結果は0.007163である。

wfair value= IDFfair value× (_max{IDF}¹ )＝^0.0223

3.1075=0.007163

最後に、手順dでは、「fair value」のTFとIDFをかける。その結果は0.265031である。

TF − IDFfair value＝TFfair value×IDFfair value＝37× 0.007163 ＝0.2650212

ここで、「IFM Investments Limited」にとって、「fair value」というキーフレーズのTFIDFが分かった。本論文はこのTFIDF値を情報開示スコアとしている。

「IFM Investments Limited」社2009年のMD&Aでは、5,549種類のキーフレーズの情報開示スコアを合計すると、その得点は361.99186となっている。同じように、対象企業2007年－2015

年延べ1280社のMD&Aの情報開示スコアをそれぞれ計算した。

ドキュメント内中国上場企業の情報開示に関する研究 (ページ 101-104)

第 8 章 間接上場の課題

第三部 米国に上場する中国企業

9.3 米国上場する中国企業におけるテキストマイニング

第 8 章間接上場の課題

第三部米国に上場する中国企業