本論文では,事象の観測頻度を用いて条件付き確率と尤度比という二種類の統計量を推定 することに取り組んだ.これまでは,頻度の高低によらず最尤推定量や期待値といった不偏 推定量が推定によく用いられてきた.それに対して筆者は,頻度の低さに応じて推定量を保 守的に見積もるという新しい推定の枠組みを考案した.
第1章では,保守的な推定法を提案するに至る背景および本論文の研究目的をまとめた.具 体的にはまず,統計量を推定することの重要性と,推定に不偏推定量を用いた場合の問題点 を指摘した.そして,問題点を軽減する方策として保守的な推定があることを述べ,その根 本的な考え方を説明した.最後に,本論文を構成する研究内容についてそれぞれを概説した.
以下では各内容に対する結論を述べる.
第2章では,条件付き確率を保守的に推定するために,信頼区間の構築手法を提案した.信 頼区間を漸近的に近似する手法はこれまでに多く提案されている.しかし,これらの手法は 信頼区間を構築したい事象について,得られる頻度が十分ではない場合,構築した信頼区間 に大きな誤差を含んでしまう問題があった.条件付き確率の保守的な推定法は,推定したい 事象の頻度に基づいて条件付き確率の信頼区間を構築し,その下限値を使用する.また,観 測対象とする事象は低頻度を多く含む言語要素である.以上のことから,信頼区間の誤差は 保守的な推定法の有効性に影響し,低頻度からも誤差の少ない区間を構築する必要があった.
そこで,数値積分によって信頼区間を数値的に構築する手法を提案した.そして,既存の信 頼区間との数値比較を行った.結果として,低頻度の事象に対して提案手法が既存の区間よ りも誤差の少ない区間を構築できることを確認した.また,数値積分による信頼区間は端点 に0や1を含まないため,スムージングした推定量に対する信頼区間としても有用と考える.
第3章では,第2章で構築した信頼区間を用いて,条件付き確率の保守的な推定法を実現 した.具体的には,まず事前分布として一様分布を仮定し,事後分布を計算する.そして,事 後分布の信頼区間を求め,その下限値を条件付き確率の推定値とする.これは条件付き確率 の保守的な推定値となる.提案手法は信頼区間を活用することで分散を推定値に反映できる.
また信頼係数を変化させることで,結果を利用する際に要求される適合率に応じて,推定値 を保守的に見積もる度合いを調節できる.評価実験では,提案手法を相関ルールマイニング の枠組みに応用し,新聞記事コーパスから都道府県・市郡間の包含関係をマイニングする実験 を行った.結果として,提案手法はまず高頻度の確実な関係を優先して発見でき,次いで不 偏推定量を用いると発見が難しい低頻度の正しい関係も多くマイニングできることが分かっ た.また,データの事前知識を用いる推定量との比較実験も行い,データに関する事前知識 がなくても推定量を偏らせることが有効なことを示唆した.
第4章では,保守的な推定の考え方を推定がより困難な尤度比へと応用した.尤度比を推 定する素朴な方法は,尤度比の定義に従い,尤度比を構成する個々の確率分布を最尤推定で 求めてその比を取ることである.しかしこの方法では,低頻度から尤度比を求めるときに推 定量を不当に高く見積もってしまう場合がある.そこで,尤度比の直接推定法uLSIFを応用 し,最適化の枠組みで導入される正則化により,尤度比を保守的に推定する手法を提案した.
そして,提案手法の有効性と実用性を明らかにするため,二種類の評価実験を行った.一つ 目の実験は,カタカナ語直前に出現することのある文字バイグラムを尤度比で予測する単純 なものであった.この実験によって,提案手法の振る舞いが解明され,その有効性も示唆さ れた.二つ目の実験は,自然言語処理の半教師有り学習法であるブートストラップ法に提案 手法を組み込んだ.そして,わずか10個の科学雑誌名を手掛かりに,日本語科学ニュース記 事から雑誌名の出現文脈を尤度比で獲得し,雑誌名を自動抽出する枠組みを構築した.結果 として,提案手法を用いると低頻度の偶発的な文脈による誤抽出を正則化で抑え,多数の雑 誌名が抽出でき,提案手法の実用性が示唆された.
第5章では,第4章で提案した尤度比の保守的な推定法を改良し,低頻度のみならずゼロ 頻度のNグラムにも有益な推定値を付与する,尤度比の推定法を提案した.ゼロ頻度のNグ ラムに推定値を与える一つのアプローチは,Nグラムをアイテム単位に分解し,アイテム毎 の尤度比を推定した上でそれらの積を取ることである.これは単純な方法だが,アイテム間 に存在する依存関係を無視してしまう.そこで提案手法では,Nグラムの頻度から推定され る項を前述の推定結果に追加し,依存性を推定量に取り入れる.これによって,観測された Nグラムと観測されていないNグラムの両方を効果的に処理できる.また,低頻度のNグラ ムにも対処できるよう,上記の枠組みと尤度比の保守的な推定法を組み合わせた.この組み 合わせで導入された二つの正則化パラメータλitemとλdにより,提案手法はアイテム間に必 要な依存性の強さを考慮しながら,推定値を保守的に見積もることができる.評価実験では,
コーパスから固有表現の左Nグラムを尤度比で予測することを試みた.結果として,提案手 法は高頻度からゼロ頻度に渡る多数の左Nグラムを予測できた.また,アイテム間の依存性 を考慮した保守的な推定法の有効性も示唆された.
本論文では,条件付き確率と尤度比という二つの統計量に対して,推定量を保守的に見積 もる手法を提案し,その有効性を確かめた.従来,確率的にデータを扱う際は偏らない推定 量,すなわち不偏推定量がよく利用されてきた.しかし,現実的な課題は不偏推定量では解 決できない場合も多い.そこで,工学的な応用を想定した際に“推定量をあえて低めに偏らせ る”という保守的な推定法を考案し,それが意義深いものであることを実験的に示した.保守 的な推定法は,正確な推定というよりも現実的なデータの扱いに着眼した推定法であり,応 用面で大きい波及効果が期待される.そのため,保守的な推定法を様々なアプリケーション に導入し,その実用性を示すことが今後の課題として挙げられる.
参考文献
[1] Saeed Piri, Dursun Delen, Tieming Liu, and William Paiva. Development of a new metric to identify rare patterns in association analysis: The case of analyzing diabetes complications.
Expert Systems with Applications, Vol. 94, pp. 112–125, 2018.
[2] Georgios Petkos, Symeon Papadopoulos, Luca Aiello, Ryan Skraba, and Yiannis Kompat-siaris. A soft frequent pattern mining approach for textual topic detection. InProceedings of the 4th International Conference on Web Intelligence, Mining and Semantics, pp. 1–10, 2014.
[3] Takafumi Kanamori, Shohei Hido, and Masashi Sugiyama. A least-squares approach to direct importance estimation. Journal of Machine Learning Research, Vol. 10, pp. 1391–1445, July 2009.
[4] Charles J. Clopper and Egon S. Pearson. The use of confidence or fiducial limits illustrated in the case of the binomial. Biometrika, Vol. 26, No. 4, pp. 404–413, 1934.
[5] Edwin B Wilson. Probable inference, the law of succession, and statistical inference. Journal of the American Statistical Association, Vol. 22, No. 158, pp. 209–212, 1927.
[6] Alan Agresti and Brent A. Coull. Approximate is better than “exact” for interval estimation of binomial proportions. The American Statistician, Vol. 52, No. 2, pp. 119–126, 1998.
[7] Theodore E. Sterne. Some remarks on confidence or fiducial limits. Biometrika, Vol. 41, No.
1/2, pp. 275–278, 1954.
[8] Edwin L. Crow. Confidence intervals for a proportion. Biometrika, Vol. 43, No. 3/4, pp.
423–435, 1956.
[9] Colin R. Blyth and Harold A. Still. Binomial confidence intervals. Journal of the American Statistical Association, Vol. 78, No. 381, pp. 108–116, 1983.
[10] Helge Blaker. Confidence curves and improved exact confidence intervals for discrete distri-bution. Canadian Journal of Statistics, Vol. 28, No. 4, pp. 783–798, 2000.
[11] Lawrence M. Leemis and Kishor S. Trivedi. A comparison of approximate interval estimators for the bernoulli parameter. The American Statistician, Vol. 50, No. 1, pp. 63–68, 1996.
[12] Tomoyuki Kakizume and Masafumi Akahira. Construction of the confidence interval of exact level for discrete distributions. RIMS Kokyuroku, Vol. 1334, pp. 112–147, 2003.
[13] Ana M. Pires and Conceic¸˜ao Amado. Interval estimators for a binomial proportion: Compari-son of twenty methods. REVSTAT Statistical Journal, Vol. 6, No. 2, pp. 165–197, 2008.
[14] Lawrence D. Brown, T. Tony Cai, and Anirban DasGupta. Interval estimation for a binomial proportion. Statistical science, Vol. 16, No. 2, pp. 110–117, 2001.
[15] V´ıctor Robles, Pedro Larra˜naga, Jose Maria Pe˜na, Ernestina Menasalvas, and Maria S. P´erez.
Interval estimation na¨ıve bayes, pp. 143–154. Springer-Verlag, Berlin Heidelberg, 2003.
[16] Paul Anthony Mancill. An exploration of naive bayesian classification augmented with confi-dence intervals. PhD thesis, Washington State University, 2010.
[17] Takumi Sonoda and Takao Miura. Conditional collocation in japanese. InProceedings of the 18th Australasian Document Computing Symposium, pp. 82–88, 2013.
[18] Antonio Jimeno-Yepes and Rafael Berlanga Llavori. Knowledge based word-concept model estimation and refinement for biomedical text mining. Journal of Biomedical Informatics, Vol. 53, pp. 300–307, 2015.
[19] 間瀬茂. ベイズ法の基礎と応用:条件付き分布による統計モデリングとMCMC法を用い たデータ解析. 日本評論社,第1版, 2016.
[20] Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules. In Proceedings of the 20th International Conference on Very Large Data Bases, pp. 487–499, 1994.
[21] William DuMouchel and Daryl Pregibon. Empirical bayes screening for multi-item associ-ations. In Proceedings of the 7th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 67–76, 2001.
[22] Ling Zhou and Stephen Yau. Association rule and quantitative association rule mining among infrequent items. InProceedings of the 8th International Workshop on Multimedia Data Min-ing:(associated with the ACM SIGKDD 2007), pp. 1–9, 2007.
[23] Tobias Scheffer. Finding association rules that trade support optimally against confidence.
Intelligent Data Analysis, Vol. 9, No. 4, pp. 381–395, 2005.
[24] Masato Kikuchi, Mitsuo Yoshida, Masayuki Okabe, and Kyoji Umemura. Confidence inter-val of probability estimator of Laplace smoothing. InProceedings of the 2nd International Conference on Advanced Informatics: Concepts, Theory and Applications, pp. 1–6, 2015.
[25] 山本英子,梅村恭司. コーパス中の一対多関係を推定する問題における類似尺度. 自然言 語処理, Vol. 9, No. 2, pp. 45–75, 2002.
[26] 岡部正幸,梅村恭司. 頻度差が著しい場合における一対多関係を推定する類似尺度. 情報 学シンポジウム講演論文集, Vol. 2005, pp. 129–136, 2005.
[27] Harold Jeffreys. An invariant form for the prior probability in estimation problems. In Pro-ceedings of the Royal Society of London A: Mathematical, Physical and Engineering Science, Vol. 186, pp. 453–461, 1946.
[28] Hidetosi Takahasi and Masatake Mori. Double exponential formulas for numerical integration.
Publications of the Research Institute for Mathematical Sciences, Vol. 9, No. 3, pp. 721–741, 1974.
[29] 伊理正夫,藤野和建. 数値計算の常識. 共立出版,第35版, 1985.
[30] Anne Randi Syversveen. Noninformative bayesian priors. interpretation and problems with construction and applications. Preprint Statistics, Vol. 3, pp. 1–11, 1998.
[31] Scott Glover and Peter Dixon. Likelihood ratios: A simple and flexible statistic for empirical psychologists. Psychonomic Bulletin&Review, Vol. 11, No. 5, pp. 791–806, 2004.
[32] 中西健太郎,田中利幸,上田修功. 尤度比に基づく順位づけ関数による受信者操作特性曲 線下面積の漸近的性質. 電子情報通信学会技術研究報告,第114巻, pp. 101–110, 2015.
[33] Alfonso Montella. Identifying crash contributory factors at urban roundabouts and using as-sociation rules to explore their relationships to different crash types. Accident Analysis &
Prevention, Vol. 43, No. 4, pp. 1451–1463, 2011.
[34] Michael Parzen, Stuart Lipsitz, Joseph Ibrahim, and Neil Klar. An estimate of the odds ratio that always exists. Journal of Computational and Graphical Statistics, Vol. 11, No. 2, pp.
420–436, 2002.
[35] Kobkun Raweesawat, Yupaporn Areepong, Katechan Jampachaisri, and Saowanit Suk-parungsee. Odds ratios estimation of rare event in binomial distribution.Journal of Probability and Statistics, pp. 1–8, 2016.
[36] Mark Johnson. Confidence intervals on likelihood estimates for estimating association strengths. Unpublished technical report, 1999.
[37] Patrick Pantel and Deepak Ravichandran. Automatically labeling semantic classes. In Pro-ceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics, pp. 321–328, 2004.