モデル訓練

第４章信頼値モデルの提案

4.2 モデル訓練

データと特徴量が決まれば，次はデータ訓練の決定であり，データの訓練方法は実験データにある程度基づいて行われる．投稿の真偽についての決定的な証拠がほとんどなく，すなわち，投稿データにラベルを付ける明白な特徴がないため，やらせ投稿を特定するために用いられる方法は様々である．主に機械学習に関連するアルゴリズムや言語モデルに関連する方法が用いられている．やらせ投稿の特徴によって識別する可能がある．そのため，これらの特徴は教師あり学習法に使用機会を与え，それゆえ，やらせ投稿を特定するために教師あり機械学習アルゴリズムを使用する多くの学者がいる．Jindal Nらは，投稿，店舗，投稿者で構成される特徴セットに対してロジスティック回帰を使用し，やらせ投稿を特定した．ロジスティック回帰の他に，サポートベクターマシンやベイズ分類も用いたが，どちらもロジスティック回帰ほどの効果はなかった[6]．そして，

本論文では，やらせ投稿を検出する方法として，回帰分析を用いて信頼値という尺度を適合させる．

統計学で，回帰分析とは，複数の要素や変数の関係性を分析するために用いられる手法である．この論文では，データがサンプルx=(x1;x2;…;xd)を記述するd 個の特徴を持っていることを考えると，重回帰を使用する．ここでxiはi番目の特徴量のxのメジャーである．重回帰モデル（linear model）の目的は，複数の変数間の関係を特徴づけるために使用される関数，すなわち

ベクトル形式では，次のように書くことができます．

ここで，w=(w1;w2;…;wd)．wとbが学習後に，モデルが決定できる．

回帰分析は，現実の状況をうまく描写するためだけでなく，視覚的な顕在化を容易にし，受け入れやすく理解しやすいようにするために，現実に広く使われている．本論文では，手動でラベル付けされたデータに対して重回帰モデルを学習するために最小二乗法を用いている．最小二乗の考え方は，ラベル付けされた学習データを未知の関数でフィットさせ，その誤差の二乗和を最小化することでフィットの効果を高めることで，関数内の位置変数を求め，フィットの関数式を決定するというものである．関数が決定された後，未知の変数に対応する関数の値を予測することができ，異なる状況を組み合わせることで所望の結果を得ることができる．信頼値公式を取得した後，未知のレビューの信頼値を予測するために使用することができる．4.1節で説明していた明示的特徴が非常に明らかな 300件の投稿を選択し，信頼値公式を計算する．信頼値Pが以下のようになる．

𝑃(𝑟) = 1.002 × 𝐷(𝑟) + 0.337 × 𝐿(𝑟) + 1.172 × 𝐾(𝑟) + 0.716 × 𝑈(𝑟) − 10.402

この公式を用い，すべての投稿の信頼値を予測し，最終的に信頼値をランキングする．信頼値フィットの実験結果を図1５に示す．ここで，横軸は特徴値，縦軸は信頼値であり，赤線は4.1節で言った30人が採点した信頼値の線，青線が公式を用いて算出した信頼値の線を表す．信頼値フィットのコードは図1６に示す．

図 15 信頼性フィットの実験結果

図 16 回帰分析による信頼性フィットのコード

ドキュメント内 JAIST Repository: 信頼値モデルによるオンラインショッピングサイトでの投稿判断支援に関する研究 (ページ 32-35)

第４章 信頼値モデルの提案

4.2 モデル訓練

第４章信頼値モデルの提案