Random Forest 用い
対 破綻検知器 作成
公立 こ 未来大学 金井貴浩 松原仁
開発し 破綻検知器 概要
• 入力
• 当 ム発 ,直前 ユ 発 使用し
• 出力
• , 出力し
• 途中 破綻 判定 分布 考慮し い い
• Paragraph Vector Random Forest 実装 行
対 破綻検知器
• 入力: ム発 ,直前 ユ 発
• 出力:1, 0(破綻し ,し い い )
入力
Paragraph Vector
文章 分散表
現
Random Forest
木構造 分類器 ユ
う
ム こ
出力
Paragraph Vector
• 今回 対 破綻検知器 使用し 分散表現
• 実装 python イブ gensim1 使用
• Word2vec 文章 拡大
• 単語 分散表現 連結, しく 均 す こ 文章 表現
• 文章 語順 保 こ
• BoW
[Quoc Le, 2014]
特徴量
• ユ 発 ム発 ベク 化
• ユ 発 ベク ム発 ベク 内積,コ イ
ン尺度
• コ イン尺度 ,文章 類似度 使わ こ 多い
• 対 破綻 原因 ユ 発 ム発 意味
差?
Random Forest
• 木構造 利用し アン ンブ 学習 一種
• 木構造 複数作成し,多数決 最終的 分類 決定
• 学習 速度 速く,軽量
• Python イブ scikit-learn2 使用
[Breiman, Leo. 2001]
実験
• Random Forest 学習 傾向 知 い
• いく コ パ セッ 調べ
• Paragraph Vector 学習 昨 配布さ rest1046 使用し
• 学習す コ パ 量 25個,100個,963個 設定 し
• 学習す コ パ rest1046, DCM, IRS ン ム 使用し
結果 ( ベ 一致尺度 )
学習量 Accuracy Precision(X) Recall(X) F(X) Precision(T+X) Recall(T+X) F(T+X)
963個run1 0.335 0.187 0.683 0.294 0.385 0.633 0.479
100個run1 0.551 0.141 0.197 0.164 0.383 0.214 0.274
25個run1 0.611 0.216 0.053 0.086 0.472 0.053 0.095
結果 ( 分布距離系統 )
学習量 Accuracy
Js divergence (O,T,X)
Js divergence (O,T+X)
Js divergence (O+T,X)
963個run1 0.335 0.493 0.405 0.353
100個run1 0.551 0.633 0.445 0.585
25個run1 0.611 0.695 0.468 0.685
実験
• 25個 学習し Accuracy 高い
• X 検出率 低い
• 963個学習し Accuracy 低い
• 分布距離系統 い , 性能 いい
• 今回 100個学習し ン 提出し
• 中間的 性能
今後
• Paragraph Vector 使わ 単語 学習量 少 い
• Twitterコ パ 使用し
Paragraph Vector 学習量 増やす
• 100個 コ パ 学習し 963個学習し
学習量 差 あ
• 細 く学習量 調整し いく必要性 あ
参考文献
[Quoc Le, 2014] Le, Q. V., & Mikolov, T. (2014, June). Distributed Representations of Sentences and
Documents. In ICML (Vol. 14, pp. 1188-1196).
[Breiman, Leo. 2001] Breiman, L. (2001). Random forests. Machine learning, 45(1), 5-32.