• 検索結果がありません。

wssit2016 sig sai 6 Recent site activity jsaisigsai wssit2016 sig sai 6

N/A
N/A
Protected

Academic year: 2018

シェア "wssit2016 sig sai 6 Recent site activity jsaisigsai wssit2016 sig sai 6"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

ープラーニングによる ベン 情報分類器に向けた

Word2Vec 活用検討

A Consideration of Utilization Possibility of Word2Vec for Event Notice Classifier by

Deep Learning

小 良太

1,2

川村秀憲

2

Ryota Ono

1,2

and Hidenori Kawamura

2

1

株式会社調和技研

1

CHOWA GIKEN Coporation

2

海道大学 大学院情報科学研究科

2

Graduate School of Information Science and Technology Hokkaido University

Abstract: A purpose of this paper is considering usage of Word2Vec and Doc2Vec, which are text vectorization tools by machine learning, to classify event notice. Firstly, we calculate feature vector of several characteristic words relate to event notice by Word2Vec, and enumerate five highest similarity words. Secondly, in a similar way, we calculate feature vector of event notice’s text by Doc2Vec, and consider five highest similarity event notices.

じめに

日 都 部 中心 祭 や催 , ン 大小様々 ン 日々開催 い . 一方 多 ,特 小規模 ン

CMや新聞広告 出稿 予 算 持 ,一般 民 向け 十分 告知手 段 持 い 言い い.

一方 ン 参加 側 個人 多 ン 開催場所や日 ,内容 告知 ン 開催情報 以後 ン 情報 知 後,参加

いう あ . ン 参

加 う ,個人 趣味嗜好 ン 内 容 適合 い こ , ン 開催場所

個人 や い いうこ 等

断 .

こうい 要素 考慮 個人 ン 情報 マッチン 機会 最大 図 知 こ

ン 参加 機会損失 減 , 主催者側,参加者側双方 意義 あ .

著 者 従 来 研 究[1] い ン 情 報 推 薦 際 生 問題 考慮 推薦 提案 過去

静的 タ 用い 評価実験 行い,提案手法 個人 興味 適合 推薦 行え こ

明 .

, 研究成果活用 ッ

マ ン やWeb 地域 ン 情報 配信 ビ あ び 開 運用 行 . 運営 業

大学 ンチ 企業 あ 株式会社調和技研

2009 設立 維持 必要

管理や入力作業 外部 注 始 業務 行 い ,存続及び 業拡大 営業活動 行

7 20161 現在,

幌 東京 横浜 古屋 神戸 福岡 6

ン 情報 合計約10,000件 毎 配信 い

国内最大規模 ン 情報 ッ

い .こ ン 情報 大半 ンタ

ッ や ン

ン 自動的 得

得 い .

文や タ ,箇条書 記法 置 異 ,機械的 び 掲載可能 整形 い場合 多々あ .

,現在 必 一度作業者 チ ッ 行い 必要 応 修正作業 行 い . 際, 祭

音楽 ン 種類 表 16種類 ン 中 一 付 作業 行 い . び

け ン 分類 表1 示 . こ ン び 一般閲覧者 あ

ン 検索や,内容 推薦 計

(2)

1 び ン 情報配信 編集 流

1 び ン 分類

算 使わ . , ン 情報

関連性 高い ン 付 い ン 情報 見可能性, わ び ビ 大 関わ .

著者 従来研究[2] い 現在画像 識や音

声 識 領域 注目 集 い Deep Neural

Network 一種 Deep Auto-Encoder(DAE)

用 ン 情報 タ , 文

情報 元 特徴 抽出 ,SVM ン 自動分類 程度 精度 可能 あ 検証 行 . 結果,過去 ン 情報 8 割 適合率 分類 行え こ 明 .

従来研究 い DAE 入力

出 現 回 数 1,000 単 語 構 成 Bag of

Words(BoW) 用い BoW 単純 単語

出現回数 あ , 意味や共起関 含

い い.Google 表 Word2Vec[3] 単語

間 共起関 元 行う技術 あ ,

Word2Vec 拡張 Doc2Vec 用い

更 高い適合率 分類 可能 い 考え,

研究 適用 向け 検討 行う.

実 験 プ ラッ フォ ー ム及 びユ ーザ

属性

研究 実証実験 行うWeb

ン 情報配信 ビ あ び 用い .

び ン ッ 図2 掲載 .

201511 現在, 幌 東京 横浜 古屋 神戸 福岡 6 ン 情報合計

10,000件 毎 配信 い 国内最大規模

ン 情報 ッ あ . 間PV85 万, 間UU25万 い .

び け ン 情報 一覧及

び詳細 Web マ ン

得 こ ,一覧 け ン 情報 表 示順 推薦結果 基 い 表示 [3].推

薦 過去 ッ タや ン 情報

人気 基 い 計算 い .

提示 一覧 中 興味 あ 見出

見 場合, ッ ン

ン 情報 詳細 得 こ [3]

,び 定期的 読者

ン 行 , 送付 必要

所 始 ,性 ,年齢 入力 こ 属性 タ 獲得 分析 役立 い

.図4 び 性 や年齢 録 い

比率 表 い (20162

11日現在)

男女比 拮抗 ,年齢 10 代,20代 多い う 見え ,こ 大 EXPO いう男子大学生 ンタ ッ 飲食 ン

び 開催 い 影響 1020 代男

性 非 多数い あ .

過去 500 ッ 以 行 い ビ

見 女性 66%,304064% ,実際

び ン こ 層 あ .

傾向 金曜 夜~土日 朝 掛 け 増加 いう特徴 観察 ,主婦

休日 出 け 調 利用 い 利用例 予想 .

(3)

2 ン 情報 び PC

3 ン 情報表示例、左 一覧画 面 右 ッ 後 詳細画面

4 び 録 性 比及び年齢分

Word2Vec

Word2Vec Google 研究者 Mikolov

表 単語群 手法 あ ,単 語間 共起関 や意味 含 可能 あ こ 自然言語処理 分 い 広 用い

う い . 学 習 CBOW,

Skip-gram

い い こ , ニン 技術 一 こ あ . ,機械学習 実装 容易

ワ 注目 集 い

Prefferd Networks Chainer[4] Google TensorFlow[5]Microsoft DMTK[6] 採用

,活用 幅 こ 更 広 予

想 .

Word2Vec 拡張 単語間 け 文

書 間 や 文 書-単 語 間 共 起

Doc2Vec 公開 Doc2Vec 用い

あ 文書 他 文書 類似度 算出 こ

可能 あ , 回 Doc2Vec 用い

ン 情報 ン 分類 程度可能 調査

実験:Word2Vec による出力例

,実際 び Word2Vec

入力 う 出力 得

ン 特徴 良 表 考え い ワ 用い 試験的 計算 行 .用

い タ ,2010 4 201512 31

配信 行わ 11,0631 件 ン 情報

あ .

幌 祭 類似度

10 単語 2

所 併記 い 多い中央区 中

央 や厚 区 厚 挙 い .

祭 び 多数 ン 入力

い 神社 例祭 関 高い 計算 い

こ 伺え . や出演者

類似度 高い単語 い .

Word2Vec 単語 士 加算や減算 可能

,減算 行うこ 例え 例 幌 類似度 高い 地 関 単語 所 単語 引 こ 影響 減

こ .表3 結果 例 示 .

幌 所 引 こ 地 関

い ン や ンチ い

ン 内容 表 単語 得

う . 祭 神社 引 こ 祭 内

(4)

2 Word2Vec ワ 類似度 10件 単語

開催 い 音楽 や 買い得 買い得

来 う . 音

楽 引 単語 除外 う

予想 笑い や 爆笑 漫才 関 単語 残 い .

以 結果 ,び あ ン 情報

内容 考慮 関連性

Word2Vec 程度出力

考え .

実験:Doc2Vec による出力例

用い タ ,予備実験 期間 あ

Doc2Vec 用い ン 情報間 類似度

計算 結果 表4 示 . ン 類似度 高い 5件 掲載 い .

ン い 比較 ン

情報 ン あ .

一 ッ ン 情報

ン 催 あ 関わ , 映画

い . 幕 高校生 至 5

件 中 ン あ 映画 ン 情報

3 Word2Vec 単語 士 減算

一 現 い いう結果 い .

神社祭 最 ン 祭 ン

情報 来 い ,タ 神社 異 い , 文 内容 文章 い 当然 結果 言え .い 例 過 い

,こ 結果 見 限 あ 性能 良い 分類 期待 こ い 予想 .

こ ,び ン 情報 群

Doc2Vec 単語

少 こ 原 因 一 考 え .

Word2Vec 提案者 Mikolov [7]特徴

次元 倍 び学習用 単語 倍 述 い . ,単語 ,特徴 次元 増え 意味演算 精度

い .Mikolov 検証 ,2400

単語 78300万単語 Word2Vec 結果 比較

意味演算 正解率 倍近 開 あ こ わ い .

回 用 い び ン 情 報 単 語 数

1,964,296単語 Mikolov 検証 単語数

小 更 101以 あ ,学習 び 分類 あ 十分 単語数 あ 言え い

う.

類似 の高い 類似

中央 0.498188

0.497526

士別 0.475279

広島 0.474535

朝日 0.466877

厚別 0.461243

条西 0.460652

0.455887

0.452148

西 0.451239

対雁通 0.715401

弁華別 0.7101

浅間 0.706764

日枝 0.700488

0.699916

豊畑 0.690483

杉山 0.684473

太尾 0.681087

諏訪 0.675495

白山 0.673312

0.678831 0.597143 LEVELvol 0.561979 Unplugged 0.56044 0.54205

0.541608

0.541521 0.529631

HANG 0.528258

爆笑 0.526049

類似 の高い 類似

0.295208

0.285122

攻防 0.284579

NOVEMBER 0.281469 0.276638

帯広 0.275841

0.273846

亜矢 0.269475

0.267297

0.265748

0.390985

音楽 0.336091

0.321098

0.317142

買い得 0.313871

0.299326 0.295557

0.288709

熱い 0.288194

規模 0.285966

LEVELvol 0.403885 0.383778

笑い 0.378744

LEVEL 0.370677

Lonely 0.359055

BEACH 0.351757

Show 0.349339

Spin 0.348302

爆笑 0.347816

曾我 0.336313

住所

音楽

(5)

Word2Vec 及び Doc2Vec い 設定

可能 タ あ ,代表的 タ

次 元 数(size)や ニ ッ ワ 学習 際 入力 近隣何単語

用い いう ン (window) あ .

5 こ タ 変更 得

結果 差 表 い .1 ン 情報 結果 あ 一般的 述 こ い

, 値 あ size=300,window=8

size window 結果

良い傾向 い う 見え .

単語数 少 い 値

タ 調整 必要 あ いう 当然

あ 考え ,Word2Vec 元々英語 文章解

析 象 作 あ ,日 語 分

書 必要 あ 文章 単語 得精 度 得 いこ , 場合,辞書 無 い 録語 複数 録語 連続 断 単語 細 分割 や いこ 考え ,日 語

Word2Vec及びDoc2Vec 利用 ン

広 こ 精度向 繋 こ

期待 い う .

謝辞

研究 , ッ 財団 ン創出研

究支援 業 タ ッ 研究補助金

ニン 海道 ン 情報 特徴 抽出 応用 助成 け .ここ 感謝 意

表 .

参考文献

[ ] 良太,山 弘,川村 秀憲,鈴木 :

ン 開催情報推薦 ン 検討,

情報学会 観 情報 , Vol. 11, No. 1, pp. 23-34 (2015)

[ ] 瀬川晋作、川村秀憲、鈴木恵 :Deep Auto-Encoder

ン 記 分析,9SIG-DOCMAS研究

会 留 都(2015).

[ ] Goldberg, Yoav, and Omer Levy: word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method. arXiv preprint arXiv:1402.3722 (2014).

[ ] https://github.com/pfnet/chainer/tree/master/examples/wo rd2vec

[ ] https://www.tensorflow.org/versions/master/tutorials/wor d2vec/index.html

[ ] http://www.dmtk.io/word2vec.html

[ ] Mikolov, Tomas, et al.: Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781 (2013).

4 Doc2Vec ン 記 士 類似度比較

タ 類似

対象記 作 世界遺産展 催

公開 英国 団 0.825574映

劇団 タ i 大祭 喋 い人 0.80369

募 中中央 0.788471催

飛び入 参加 へそ踊 第 回 海へそ祭 富良野 0.786354祭

円高還元海外旅行の チ 最大 万円割引 0.785347催

対象記 石原 幕 へタ 幕 高校生 横浜 映

輿 わ い砂 民 広場 0.720012祭

の桜 見 う 沼公園 東 0.710224祭

素敵 音色 聴 う空飛 笛i 時計台 時計台 0.706304音楽

九 民大学第 期講 日 の魅力再瘠見 0.7031音楽

itaraあ itara 0.702619音楽

対象記 並 露店 見 わ う 津 社祭典室蘭 祭

並 露店 見 わ う御崎 社祭典室蘭 0.903266

海道 活躍中の 企 来 ZZ西 0.668771音楽

爆笑 タ 決定版 謝罪の王様 0.645223映

年初売 福袋人気 最大 0.643819催

へ う そ 物語 0.639209

上位 件

上位 件

上位 件

(6)

5 Doc2Vec タ 結果 違い

タ 類似

対象記 わ び 無料体験会 広島 講

Z 幌 タ 〜 0.693323催

乙武洋匡自伝的小説の映 い う 組 0.691054映

あい ワ 博 〜 0.679088催

粘 のあ 新食感 昆 試食販売会丸井今井 〜 0.677037催

警察崩壊 出版記念原 宏 会紀伊國 幌 店 0.66953

小学生対象少年少女 体験教室千歳 0.679784講

力強い 惹 け 0.673422音楽

月の人気 0.66398飲食

泣け の作品 椿姫 〜 0.645724映

白鳥の湖全 幕 見 0.63909公園

系業界の求人 道新適職 中央 0.695775学び

試写会 君 行く! 組道新 〆 0.63685映

農試公園 初心者講習会西 0.620528講

大池 魚の観察会 行う 探検隊大池 遊び い音更 0.615704講

日 救急 学会学術 会 救急隊員学術研究会 横浜 0.61411

優 茶席野 i 海道開拓の村厚別 0.610337講

池 体験教室音更 0.575657講

格的 手打 う の実習手打 う 教室横浜 0.560313講

の 瘡場 横浜 〜 0.551666祭

X 新 加入 周年記念上映会 0.524734

size=300, window=8

size=50, window=8

size=300, window=15

size=50, window=15

図 1  び ン 情報配信 編集 流 表 1  び ン 分類 算 使わ . , ン 情報 関連性 高い ン 付 い ン 情報 見可能性, わ び ビ 大 関わ . 著者 従来研究 [2] い 現在画像 識や音 声 識 領域 注目 集 い Deep Neural
図 2  ン 情報 び PC 版
表 2 Word2Vec ワ 類似度 10 件 単語 開催 い 音楽 や 買い得 買い得 来 う . 音 楽 引 単語 除外 う 予想 笑い や 爆笑 漫才 関 単語 残 い . 以 結果 ,び あ ン 情報 内容 考慮 関連性 Word2Vec あ 程度出力 い 考え . 実験:Doc2Vec による出力例  用い タ ,予備実験 期間 あ .   Doc2Vec 用い ン 情報間 類似度 計算 結果 表 4 示 . ン 類似度 高い 5 件 掲載 い . ン い 比較 ン 情報 ン あ . 一 ッ ン
表 5 Doc2Vec タ 結果 違い タ 類似 対象記 わ び 無料体験会 広島 講 Z 幌 タ 〜 0.693323 催 乙武洋匡自伝的小説の映 い う 組 0.691054 映 あい ワ 博 〜 0.679088 催 粘 のあ 新食感 昆 試食販売会丸井今井 〜 0.677037 催 警察崩壊 出版記念原 宏 会紀伊國 幌 店 0.66953 催 小学生対象少年少女 体験教室千歳 0.679784 講 力強い 惹 け 0.673422 音楽 月の人気 0.66398 飲食 泣け の作品 椿姫 〜 0.

参照

関連したドキュメント

Abstract This study is aimed to reveal the specific process through which the activity form and the athletic mind of the old-education-system high schools were formed by "following

Furuta, Log majorization via an order preserving operator inequality, Linear Algebra Appl.. Furuta, Operator functions on chaotic order involving order preserving operator

The main purpose of this paper is to extend the characterizations of the second eigenvalue to the case treated in [29] by an abstract approach, based on techniques of metric

It can be shown that cubic graphs with arbitrarily large girth exist (see Theorem 3.2) and so there is a well-defined integer µ 0 (g), the smallest number of vertices for which a

The purpose of this paper is to guarantee a complete structure theorem of bered Calabi- Yau threefolds of type II 0 to nish the classication of these two peculiar classes.. In

The purpose of this paper is to prove Alexander and Markov theorems for higher genus case where the role of groups is played by a new class of groups called virtual twin groups

Although such deter- mining equations are known (see for example [23]), boundary conditions involving all polynomial coefficients of the linear operator do not seem to have been

Beyond proving existence, we can show that the solution given in Theorem 2.2 is of Laplace transform type, modulo an appropriate error, as shown in the next theorem..