ープラーニングによる ベン 情報分類器に向けた
Word2Vec 活用検討
A Consideration of Utilization Possibility of Word2Vec for Event Notice Classifier by
Deep Learning
小 良太
1,2
川村秀憲
2
Ryota Ono
1,2and Hidenori Kawamura
21
株式会社調和技研
1
CHOWA GIKEN Coporation
2
海道大学 大学院情報科学研究科
2
Graduate School of Information Science and Technology Hokkaido University
Abstract: A purpose of this paper is considering usage of Word2Vec and Doc2Vec, which are text vectorization tools by machine learning, to classify event notice. Firstly, we calculate feature vector of several characteristic words relate to event notice by Word2Vec, and enumerate five highest similarity words. Secondly, in a similar way, we calculate feature vector of event notice’s text by Doc2Vec, and consider five highest similarity event notices.
じめに
日 都 部 中心 祭 や催 , ン 大小様々 ン 日々開催 い . 一方 多 ,特 小規模 ン
ビCMや新聞広告 出稿 予 算 持 ,一般 民 向け 十分 告知手 段 持 い 言い い.
一方 ン 参加 側 個人 多 ン 開催場所や日 ,内容 告知 ン 開催情報 以後 ン 情報 知 後,参加
いう あ . ン 参
加 う ,個人 趣味嗜好 ン 内 容 適合 い こ , ン 開催場所
個人 や い いうこ 等
断 .
こうい 要素 考慮 個人 ン 情報 マッチン 機会 最大 図 知 こ
ン 参加 機会損失 減 , 主催者側,参加者側双方 意義 あ .
著 者 従 来 研 究[1] い ン 情 報 推 薦 際 生 問題 考慮 推薦 提案 過去
静的 タ 用い 評価実験 行い,提案手法 個人 興味 適合 推薦 行え こ
明 .
, 研究成果活用 ッ
マ ン やWeb 地域 ン 情報 配信 ビ あ び 開 運用 行 . 運営 業
大学 ンチ 企業 あ 株式会社調和技研
2009年 設立 ,び 維持 必要
管理や入力作業 外部 注 始 業務 行 い ,存続及び 業拡大 営業活動 行
.
7年 歳 経 び 2016年1 現在,
幌 東京 横浜 古屋 神戸 福岡 6
ン 情報 合計約10,000件 毎 配信 い
国内最大規模 ン 情報 ッ
い .こ ン 情報 大半 ンタ
ッ や ン
ン 自動的 得
得 い .
文や タ ,箇条書 記法 置 異 ,機械的 び 掲載可能 整形 い場合 多々あ .
,現在 必 一度作業者 チ ッ 行い 必要 応 修正作業 行 い . 際, 祭
音楽 ン 種類 表 16種類 ン 中 一 付 作業 行 い . び
け ン 分類 表1 示 . こ ン び 一般閲覧者 あ
ン 検索や,内容 推薦 計
図1 び ン 情報配信 編集 流
表1 び ン 分類
算 使わ . , ン 情報
関連性 高い ン 付 い ン 情報 見可能性, わ び ビ 大 関わ .
著者 従来研究[2] い 現在画像 識や音
声 識 領域 注目 集 い Deep Neural
Network 一種 あ Deep Auto-Encoder(DAE) 利
用 ン 情報 タ , 文
情報 元 特徴 抽出 ,SVM ン 自動分類 程度 精度 可能 あ 検証 行 . 結果,過去 ン 情報 8 割 適合率 分類 行え こ 明 .
従来研究 い DAE 入力
出 現 回 数 1,000 単 語 構 成 Bag of
Words(BoW) 用い い ,BoW 単純 単語
出現回数 あ , 意味や共起関 含
い い.Google 表 Word2Vec[3] 単語
間 共起関 元 行う技術 あ ,
Word2Vec や 拡張 あ Doc2Vec 用い こ
更 高い適合率 分類 可能 い 考え,
研究 適用 向け 検討 行う.
実 験 プ ラッ フォ ー ム及 びユ ーザ
属性
研究 実証実験 行うWeb ビ
ン 情報配信 ビ あ び 用い .
び ン ッ 図2 掲載 .
び 2015年11 現在, 幌 東京 横浜 古屋 神戸 福岡 6 ン 情報合計
約10,000件 毎 配信 い 国内最大規模
ン 情報 ッ あ . 間PV 約85 万, 間UU 約25万 い .
び け ン 情報 一覧及
び詳細 Web マ ン
得 こ ,一覧 け ン 情報 表 示順 推薦結果 基 い 表示 [図 3 左].推
薦 過去 ッ タや ン 情報
人気 基 い 計算 い .
提示 一覧 中 興味 あ 見出
見 場合, ッ ン
ン 情報 詳細 得 こ [図3 右].
,び 定期的 読者
ン 行 , 送付 必要
所 始 ,性 ,年齢 入力 こ 属性 タ 獲得 分析 役立 い
.図4 び 性 や年齢 録 い
比率 表 い (2016 年 2
11日現在).
男女比 拮抗 ,年齢 10 代,20代 多い う 見え ,こ 大 EXPO いう男子大学生 ンタ ッ 飲食 ン
び 開催 い 影響 10~20 代男
性 非 多数い あ .
過去 500 ッ 以 行 い ビ
見 女性 66%,30~40代 64% ,実際
び ン こ 層 あ .
傾向 金曜 夜~土日 朝 掛 け 増加 いう特徴 観察 ,主婦
休日 出 け 調 利用 い 利用例 予想 .
図2 ン 情報 び PC版
図3 ン 情報表示例、左 一覧画 面 右 ッ 後 詳細画面
図4 び 録 性 比及び年齢分
Word2Vec
Word2Vec Google 研究者 あ Mikolov
表 単語群 手法 あ ,単 語間 共起関 や意味 含 可能 あ こ 自然言語処理 分 い 広 用い
う い . 学 習 CBOW,
Skip-gram 呼 ニ ッ ワ 用
い い こ , ニン 技術 一 こ あ . ,機械学習 実装 容易
ワ 注目 集 い
Prefferd Networks Chainer[4]や Google TensorFlow[5],Microsoft DMTK[6] 採用
,活用 幅 こ 更 広 予
想 .
,Word2Vec 拡張 単語間 け 文
書 間 や 文 書-単 語 間 共 起
Doc2Vec 公開 い .Doc2Vec 用い こ
あ 文書 他 文書 類似度 算出 こ
可能 あ , 回 Doc2Vec 用い
ン 情報 ン 分類 程度可能 調査
.
実験:Word2Vec による出力例
,実際 び Word2Vec
入力 う 出力 得
ン 特徴 良 表 考え い ワ 用い 試験的 計算 行 .用
い タ ,2010 年4 2015年12 31 日
配信 行わ 11,0631 件 ン 情報
あ .
幌 祭 類似度
10件 単語 表 2 示 . 幌 い
所 併記 い 多い中央区 中
央 や厚 区 厚 挙 い .
祭 び 多数 ン 入力
い 神社 例祭 関 高い 計算 い
こ 伺え . や出演者
類似度 高い単語 い .
,Word2Vec 単語 士 加算や減算 可能
,減算 行うこ 例え 例 幌 類似度 高い 地 関 単語 所 単語 引 こ 影響 減
こ .表3 結果 例 示 .
幌 所 引 こ 地 関
い ン や ンチ い
ン 内容 表 単語 得
う . 祭 神社 引 こ 祭 内
表2 Word2Vec ワ 類似度 10件 単語
開催 い 音楽 や 買い得 買い得
来 う . 音
楽 引 単語 除外 う
予想 笑い や 爆笑 漫才 関 単語 残 い .
以 結果 ,び あ ン 情報
内容 考慮 関連性
Word2Vec あ 程度出力 い
考え .
実験:Doc2Vec による出力例
用い タ ,予備実験 期間 あ
. Doc2Vec 用い ン 情報間 類似度
計算 結果 表4 示 . ン 類似度 高い 5件 掲載 い .
ン い 比較 ン
情報 ン あ .
一 ッ ン 情報
ン 催 あ 関わ , 映画
い . 幕 高校生 至 5
件 中 ン あ 映画 ン 情報
表3 Word2Vec 単語 士 減算
一 現 い いう結果 い .
神社祭 最 ン 祭 ン
情報 来 い ,タ 神社 異 い , 文 内容 文章 い 当然 結果 言え .い 例 過 い
,こ 結果 見 限 あ 性能 良い 分類 期待 こ い 予想 .
こ ,び ン 情報 群
Doc2Vec 単語
少 こ 原 因 一 考 え .
Word2Vec 提案者 あ Mikolov [7],特徴
次元 倍 び学習用 単語 倍 述 い . ,単語 ,特徴 次元 増え 意味演算 精度
い .Mikolov 検証 ,2400万
単語 7億8300万単語 Word2Vec 結果 比較
意味演算 正解率 倍近 開 あ こ わ い .
回 用 い び ン 情 報 単 語 数
1,964,296単語 Mikolov 検証 け 単語数 最
小 更 10分 1以 あ ,学習 び 分類 あ 十分 単語数 あ 言え い
う.
ワ 類似 の高い 語 類似
中央 0.498188
旭 丘 0.497526
士別 0.475279
広島 0.474535
朝日 0.466877
厚別 0.461243
条西 0.460652
界 0.455887
永 台 0.452148
西 0.451239
対雁通 0.715401
弁華別 0.7101
浅間 0.706764
日枝 0.700488
明 0.699916
豊畑 0.690483
杉山 0.684473
太尾 0.681087
諏訪 0.675495
白山 0.673312
0.678831 0.597143 LEVELvol 0.561979 Unplugged 0.56044 0.54205
美 0.541608
0.541521 0.529631
HANG 0.528258
爆笑 0.526049
幌
祭
ワ 類似 の高い 語 類似
幌 0.295208
部 0.285122
攻防 0.284579
NOVEMBER 0.281469 0.276638
帯広 0.275841
次 0.273846
亜矢 0.269475
チ 0.267297
坪 0.265748
0.390985
音楽 0.336091
0.321098
楽 0.317142
買い得 0.313871
0.299326 0.295557
け 0.288709
熱い 0.288194
規模 0.285966
LEVELvol 0.403885 0.383778
笑い 0.378744
LEVEL 0.370677
Lonely 0.359055
BEACH 0.351757
Show 0.349339
Spin 0.348302
爆笑 0.347816
曾我 0.336313
幌 住所
祭 社
音楽
,Word2Vec 及び Doc2Vec い 設定
可能 タ あ ,代表的 タ
次 元 数(size)や ニ ッ ワ 学習 際 入力 近隣何単語
用い いう ン (window) あ .
表5 こ タ 変更 得
結果 差 表 い .1 ン 情報 結果 あ 一般的 述 こ い
, 値 あ size=300,window=8 比 ,
size 小 ,window 大 う 結果
良い傾向 い う 見え .
単語数 少 い 値
タ 調整 必要 あ いう 当然
あ 考え ,Word2Vec 元々英語 文章解
析 象 作 あ ,日 語 分
書 必要 あ 文章 単語 得精 度 得 いこ , 場合,辞書 無 い 録語 複数 録語 連続 断 単語 細 分割 や いこ 考え ,日 語
け Word2Vec及びDoc2Vec 利用 ン
広 こ 精度向 繋 こ
期待 い う .
謝辞
研究 , ッ 財団 ン創出研
究支援 業 タ ッ 研究補助金
ニン 海道 ン 情報 特徴 抽出 応用 助成 け .ここ 感謝 意
表 .
参考文献
[ ] 小 良太,山 弘,川村 秀憲,鈴木 恵 :
ン 開催情報推薦 ン 検討,観
情報学会 観 情報 , Vol. 11, No. 1, pp. 23-34 (2015)
[ ] 瀬川晋作、川村秀憲、鈴木恵 :Deep Auto-Encoder
ン 記 分析,第9回SIG-DOCMAS研究
会 留 都(2015).
[ ] Goldberg, Yoav, and Omer Levy: word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method. arXiv preprint arXiv:1402.3722 (2014).
[ ] https://github.com/pfnet/chainer/tree/master/examples/wo rd2vec
[ ] https://www.tensorflow.org/versions/master/tutorials/wor d2vec/index.html
[ ] http://www.dmtk.io/word2vec.html
[ ] Mikolov, Tomas, et al.: Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781 (2013).
表4 Doc2Vec ン 記 士 類似度比較
タ 類似
対象記 作 世界遺産展 催
公開 英国 団 0.825574映
劇団 タ i 大祭 喋 い人 0.80369映
募 中中央 0.788471催
飛び入 参加 へそ踊 第 回 海へそ祭 富良野 0.786354祭
円高還元海外旅行の チ 最大 万円割引 0.785347催
対象記 石原 幕 へタ 幕 高校生 横浜 映
輿 わ い砂 民 広場 0.720012祭
の桜 見 う 沼公園 東 0.710224祭
素敵 音色 聴 う空飛 笛i 時計台 時計台 0.706304音楽
九 民大学第 期講 日 の魅力再瘠見 0.7031音楽
itaraあ itara 0.702619音楽
対象記 並 露店 見 わ う 津 社祭典室蘭 祭
並 露店 見 わ う御崎 社祭典室蘭 0.903266祭
海道 活躍中の 企 来 ZZ西 0.668771音楽
爆笑 タ 決定版 謝罪の王様 0.645223映
年初売 福袋人気 最大 0.643819催
へ う そ 物語 0.639209映
上位 件
上位 件
上位 件
表5 Doc2Vec タ 結果 違い
タ 類似
対象記 わ び 無料体験会 広島 講
Z 幌 タ 〜 0.693323催
乙武洋匡自伝的小説の映 い う 組 0.691054映
あい ワ 博 〜 0.679088催
粘 のあ 新食感 昆 試食販売会丸井今井 〜 0.677037催
警察崩壊 出版記念原 宏 会紀伊國 幌 店 0.66953催
小学生対象少年少女 体験教室千歳 0.679784講
力強い 惹 け 0.673422音楽
月の人気 0.66398飲食
泣け の作品 椿姫 〜 0.645724映
白鳥の湖全 幕 見 0.63909公園
系業界の求人 道新適職 中央 0.695775学び
試写会 君 行く! 組道新 〆 0.63685映
農試公園 初心者講習会西 0.620528講
大池 魚の観察会 行う 探検隊大池 遊び い音更 0.615704講
日 救急 学会学術 会 救急隊員学術研究会 横浜 0.61411講
優 茶席野 i 海道開拓の村厚別 0.610337講
池 体験教室音更 0.575657講
格的 手打 う の実習手打 う 教室横浜 0.560313講
の 瘡場 横浜 〜 0.551666祭
X 新 加入 周年記念上映会 0.524734映
size=300, window=8
size=50, window=8
size=300, window=15
size=50, window=15