商品レビューに含まれるストア言及の抽出
2
0
0
全文
(2) 情報処理学会第 78 回全国大会. のうち、3 人の回答が一致し、かつ、回答が選択 肢 1,2,3 のいずれかの 25,226 件を対象とした。 選択肢 1 2 3 4 5. 件数. 割合 (%) 15,364 91,401 31,618 7,213 4,404 150,000. 10.24 60.93 21.08 4.81 2.94 100. 表 1:クラウドソーシングによる回答の分布. これらをストアのみのクラス(store:選択肢 1 ) と 商 品 の み + 両 方 の ク ラ ス ( item: 選 択 肢 2,3)に分け 2 値分類を行った。極大部分文字列 [4]を素性に SVM(liblinear[3])で 10-fold クロ スバリデーションを行った結果を表 2 に示す。 全 体 の 精 度 (Classification Accuracy) は 0.9730 であった。. item store sys item store Ave. item 23,271 384 23,655 Precision 0.9838 0.8109 0.8974. Store. ans. 297 1,274 1,571 Recall 0.9874 0.7684 0.8779. 23,568 1,658 25,226 F値 0.9856 0.7891 0.8873. 表 2:クラウドソーシングによる方法の結果. ストアレビューを用いる方法 クラウドソーシングによる方法である程度の 精度を得たが、新規レビューに追随するために はその都度クラウドソーシングを用いる必要が ありコスト面で問題がある。そこで別途ストア レビューを用いる方法を試みた。 Yahoo!ショッピングのレビューデータには商 品レビューだけでなく、ユーザが商品を購入し たストアに対するレビュー、ストアレビューも ある(約 250 万件)。これらは商品レビューと は異なり、ほぼ純粋にストアについてのみ言及 されているデータである。 このストアレビューと商品レビューを用い、 機械学習により商品レビューからストアのみに 言及したレビューを分類する実験を行った。 ストアレビューから 20 万件、商品レビューか ら 20 万件をランダムに選び学習データとした (それぞれのクラス名を store, item とする)。 これに対し、クラウドソーシングで分類した 5 万件の商品レビューデータを前節の実験と同様. 2-8. に、ストアのみのクラス(store)と商品のみ+ 両方のクラス(item)に分け評価データとした。 学習データに対して、極大部分文字列を素性 に SVM(liblinear)でモデルを作成し、それを用 い評価データを分類し評価した。結果を表 3 に 示す。全体の精度は 0.9386 であった。. item store sys item store Ave. Item 22,485 466 22,951 Precision 0.9797 0.5240 0.7518. Store 1,083 1,192 2,275 Recall 0.9540 0.7189 0.8365. ans 23,568 1,658 25,226 F値 0.9667 0.6062 0.7864. 表 3:ストアレビューを用いた方法の結果. おわりに クラウドソーシングによる方法では、実用的 なレベルの高い精度を得ることができた。正解 データの追加によるさらなる精度向上でサービ スへの適用も視野に入る。一方、コスト面でそ れを補うために行った、ストアレビューを用い る方法では、ストアの判別に関して特に Precision が低く期待を下回る結果であった。し かし、誤って store と判定したレビューの中に は「両方」に言及しているものが多く、使い方 次第で利用価値はあり、今後さらなる分析を続 けていく。また、このような問題に適した半教 師つき学習等の手法を試み、より効率的に最新 データに対する精度の向上を目指したい。. 参考文献 [1] Yahoo! シ ョ ッ ピ ン グ , http://shopping. yahoo.co.jp/ [2] Yahoo!クラウドソーシング, http:// crowdsourcing.yahoo.co.jp/ [3] Rong-En Fan, Kai-Wei Chang, Cho-Jui Hsieh, Xiang-Rui Wang, and Chih-Jen Lin : "LIBLINEAR: A Library for Large Linear Classification", Journal of Machine Learning Research 9, pp.1871-1874, June 2008. [4] 岡野原大輔, 辻井潤一 : "全ての部分文字列 を考慮した文書分類", 情報処理学会研究会報告 NL(187), September 2008.. Copyright 2016 Information Processing Society of Japan. All Rights Reserved..
(3)
関連したドキュメント
以上を踏まえ,日本人女性の海外就職を対象とし
今回の授業ではグループワークを個々人が内面化
当社は、お客様が本サイトを通じて取得された個人情報(個人情報とは、個人に関する情報
(1)自衛官に係る基本的考え方
ことで商店の経営は何とか維持されていた。つ まり、飯塚地区の中心商店街に本格的な冬の時 代が訪れるのは、石炭六法が失効し、大店法が
自分は超能力を持っていて他人の行動を左右で きると信じている。そして、例えば、たまたま
当社は「世界を変える、新しい流れを。」というミッションの下、インターネットを通じて、法人・個人の垣根 を 壊 し 、 誰 もが 多様 な 専門性 を 生 かすことで 今 まで
看板,商品などのはみだしも歩行速度に影響をあたえて