TM2018 講習会資料 MTMineR を用いたテキストマイニングの基礎同志社大学文化情報学研究科データサイエンス研究室目次 1. イントロダクションテキストマイニングのプロセス 2. R 言語基礎 R 言語環境 R データ型と構造グラフィックスの作成基礎統計解析外部データ読み込み

(1)

MTMineR

を用いた

テキストマイニングの基礎

同志社大学

文化情報学研究科

データサイエンス研究室

TM2018

講習会資料

2

1. イントロダクション

・テキストマイニングのプロセス

2. R

言語基礎

・R言語・環境・Rデータ型と構造・グラフィックスの作成・基礎統計解析・外部データ読み込み

3. テキストマイニングのための環境整備

・JavaとRのインストール・日本語形態素解析器（MeCab）の演習・日本語係り受け解析器（CaboCha）の演習

1. イントロダクション

2. R

言語基礎

・ R言語・環境・ Rデータ型と構造・グラフィックスの作成・基礎統計解析・外部データ読み込み

3. テキストマイニングのための環境整備

・ JavaとRのインストール・日本語形態素解析器（MeCab）の演習

テキストマイニングのプロセス

_1/4

■

テキストマイニングの全体像

・大量のテキストから有益の情報獲得データ抽出変数 … テキスト … … … … … テキスト

統計解析

結果解釈

(2)

テキストマイニングのプロセス

1/4

5 ■

テキストマイニングのプロセス

・テキストから抽出した特徴データに統計解析を行う STEP1: テキストファイルから特徴抽出・集計データセット変数 … テキスト … … … … … テキスト

テキストマイニングのプロセス

1/4

6 ■

テキストマイニングのプロセス

・テキストから抽出した特徴データに統計解析を行う STEP1: テキストファイルから特徴抽出・集計 STEP2: 特徴データに対して統計解析を行う特徴データ変数 … テキスト … … … … … ・記述統計（平均・分散など）・推測統計（推定・検定など）・多変量解析（主成分分析など）

テキストマイニングのプロセス

_1/4

■

テキストマイニングのプロセス

・テキストから抽出した特徴データに統計解析を行う STEP1: テキストファイルから特徴抽出・集計 STEP2: 特徴データに対して統計解析を行う STEP3: 結果の可視化、統計モデルの解釈特徴データ変数 … テキスト … … … … … ・記述統計（平均・分散など）・推測統計（推定・検定など）・多変量解析（主成分分析など）

テキストマイニングのプロセス

_2/4

■

特徴データ

・目的に沿ってテキストから抽出したデータセット ■

目的は多種多様

・歌詞・ブログ・音程、音高・人称代名詞の研究 (私、僕、彼など) ・男女の言葉の違い (男性と女性の会話文) ・文体変化や著者識別などの研究 (助詞などの文体特徴量)

(3)

テキストマイニングのプロセス

2/4

9 ■

特徴データ例

・川端康成と三島由紀夫の助詞使用状況を考察特徴データ作品名/変数名のはにて … K_たまゆら 340 226 213 161 … K_みづうみ 1940 1510 1317 1349 … K_再婚者 1051 800 806 680 … K_小春日 157 122 86 102 … … … … … M_孤閨悶々 363 260 264 301 … M_家庭裁判 396 287 279 265 … M_携帯用 334 295 272 241 … M_月 372 239 228 221 … … … … …

テキストマイニングのプロセス

3/4

10 ■

統計解析

・例: 主成分分析

テキストマイニングのプロセス

_3/4

■

統計解析

・例: 主成分分析川端康成三島由紀夫

テキストマイニングのプロセス

_3/4

■

統計解析

・例: 主成分分析

・三島由紀夫

「

を、に

」の多用

・川端康成

「

と、も

」の多用

川端康成三島由紀夫

(4)

テキストマイニングのプロセス

3/4

13 ■

統計解析

・例: 階層的クラスター分析川端康成三島由紀夫

テキストマイニングのプロセス

3/4

14 ■

テキストマイニングのツール

・市販のソフト

- Text Mining Studio

- IBM SPSS Text Analytics for Surveys ・研究用のソフト - KHCoder (樋口先生) - TinyTextMiner (松村先生)

テキストマイニングのプロセス

_3/4

■

テキストマイニングのツール

・市販のソフト

- Text Mining Studio

- IBM SPSS Text Analytics for Surveys ・研究用の無料ソフト

- KHCoder (樋口先生) - TinyTextMiner (松村先生)

M

ultilingual

T

ext

Mine

r with

R

= MTMineR

1. イントロダクション

2. テキストマイニングのための環境整備

3. R

言語基礎

1. イントロダクション

2. R

言語基礎

・ R言語・環境・ Rデータ型と構造・グラフィックスの作成・基礎統計解析・外部データ読み込み

3. テキストマイニングのための環境整備

・ JavaとRのインストール・日本語形態素解析器（MeCab）の演習・日本語係り受け解析器（CaboCha）の演習

R

言語・環境

1/3

18 ■

R言語

・統計解析向けのプログラミング言語である。 Rのコンソール

R

言語・環境

2/3

■

電卓としての

R

・四則演算

:

＋、－、

*

（掛け算）、

/

（割り算）

・余り

: 10%%3

R

言語・環境

3/3

■

変数代入

・変数: データを一定期間記憶する・変数の保存: <ｰまたは = ・変数の型の確認: class()

(6)

R

のデータ型と構造

1/4

21 ■

ベクトル

・複数の数値または文字列を一つにまとめたもの・関数c(カンマで区切った数字または文字列)

R

のデータ型と構造

2/4

22 ■

行列（マトリックス）

・複数の数値または文字列のまとまり・関数matrix(データ, 行数, 列数, 埋め込み方向)

R

のデータ型と構造

3/4

■

データフレーム

・異なるデータ型(数値、文字)のまとまり・関数: data.frame()

R

のデータ型と構造

4/4

■

グラフィックス作成

1/6

25

■ アイリスデータ説明

・３種類のアヤメ: setosa， versicolor，virginica ・ 4つの計測値:

- がく片長(Sepal Length)，がく片幅(Sepal Width) - 花びら長(Petal Length) ，花びら幅(Petal Width) - 種(Species) ・ fix (iris)

グラフィックス作成

1/6

26 ■ ボーグラフ・関数: barplot() ・ barplot(iris[1:5,1],col=c(1:5)) #shitosaがく片長さ1~5番

グラフィックス作成

_2/6

■

折れ線グラフ

・関数: matplot() ・

matplot(iris[1:5,1],type = “l”)

#shitosaがく片長さ1~5番

グラフィックス作成

_2/6

■

折れ線グラフ

matplot(iris[1:5,1],type = “l”)

・ 4番目のがく片がより短い

(8)

グラフィックス作成

2/6

29 ■

折れ線グラフ

matplot(iris[1:5,1],type = “l”)

グラフィックス作成

5/6

30 ■

ヒストグラム

・データの分布を視覚的に示す・関数: hist()

・hist(iris[1:50,1], col = "blue") ・hist(iris[101:150,1], col = "red")

グラフィックス作成

_6/6

■

散布図

・関数plot() ・ plot(iris[,1], iris[,3]) ・ text(iris[,1], iris[,3]) #萼片長と花びら長 Setosa 1~50

Virginica

101~150

Versicolor

51~100

グラフィックス作成

_6/6

■

散布図

・ iris.label <- rep(c(“S”, “C”, “V”),rep(50,3)) ・ plot(iris[,1], iris[,3], type =“n”)

・ text(iris[,1], iris[,3], iris.label)

Setosa

Virginica

Versicolor

(9)

グラフィックス作成

6/6

33

■

散布図

・ iris.label <- rep(c(“S”, “C”, “V”),rep(50,3)) ・ plot(iris[,1], iris[,3], type =“n”)

・ text(iris[,1], iris[,3], iris.label)

記述統計

1/2

34

■

平均、中位数、分散、四分位数

・関数: mean(), median(), var(), summary()など

記述統計

_2/2

■

箱ひげ図

・関数: boxplot() ・ boxplot(iris[1:50,1],main="setosaがく片の長さの箱ひげ図") 1st_Qu. Median 3rd_Qu.

推測統計

■

t

検定

・ 2つの母集団の間に平均の差があるか・母集団の等分散性仮定（student’s t/Welch’s t）・関数: t.test() ・ # 母集団の等分散性を判断するF検定 # 帰無仮説:SとVがく片の長さの分散には差がない var.test(iris[1:50,1],iris[101:150,1]) ・ # 母集団の等分散性を仮定できないWelch’s t t.test(iris[1:50,1],iris[101:150,1],var.equal = FALSE)

■

結論

(10)

主成分分析

37 ■ 主成分分析・情報損失を抑えて高次元データを低次元に圧縮・関数 prcomp(), biplot() ・ biplot(prcomp(iris[,1:4]))

階層的クラスター分析

38 ■ 階層的クラスター分析・距離で似ている個体からクラスタリング・関数 dist(), biplot() ・ iris.dist <- dist(iris[,1:4]) #ユーグリッド距離

iris.hclust <- hclust(iris.dist, method = "ward.D2") plot(iris.hclust)

外部データ読み込み

_1/2

■

外部データ読み込み

・ .csvファイル read.csv() ・ .txtファイル read.table() ・クリップボードからread.delim(“clipboard”) data <- read.csv(“d:¥KMjoshi.csv”, row.names = 1) ファイルのルートファイルの行名使用

外部データ読み込み

_2/2

■

外部データ読み込み

(11)

外部データによる解析

41 ■ 主成分分析・ベクトル、行列とデータフレームのまとまり・関数: prcomp() 、biplot() ・ biplot(procomp(data))

・川端康成

「

と、も

」の多用

・三島由紀夫

「

を、に

」の多用

川端康成三島由紀夫 42

1. イントロダクション

2. R

言語基礎

3. テキストマイニングのための環境整備

環境整備

_1/17

■

MTMineR

の起動

・

MTMineR

本体を解凍

・パソコン

bit

数の確認

・

JRE

のインストール

・

R

言語のインストール

・

MeCab

のインストール、パス

・

CaboCha

のインストール、パス

環境整備

_2/17

■

MTMineR

の起動

(12)

環境整備

3/17

45 ■

よくある不具合

・ MTMineRは一瞬で落ちる MTMineRのbit数は、Java、Rと同じではない・ Rのパネルは起動できない Rのパスを通していない・形態素/構文解析解析がうまくいかない MeCab/CaboChaはインストールされていないか、パス通していない

環境整備

4/17

46 ■

PC bit数確認

STEP1: 画面左下のstartボタンをクリック STEP2: 「W」欄のシステムツールをクリック STEP3: コントロールパネルをクリック STEP4: システムアイコンをクリック

環境整備

_5/10

■

PC bit

数確認

環境整備

_6/17

■

JRE

のインストール

・ https://www.java.com/ja/download/manual.jsp

(13)

環境整備

7/17

49

■

動作確認

STEP1: Windowキー+ R を同時に押す

STEP2: cmdを入力→Enter

STEP3: C:Users¥[User名]¥にJava_→Enter

STEP4: C:Users¥[User名]¥にJava -version→Enter

環境整備

8/17

50 ■

動作確認

・成功例

環境整備

_9/17

■

R

言語・環境のインストール

・統計解析のためのプログラミング言語・ https://cran.ism.ac.jp/bin/windows/base/ ・パスを通す

環境整備

_10/17

■

動作確認

STEP1: Windowキー+ R を同時に押す STEP2: cmdを入力→Enter

STEP3: C:Users¥[User名]¥にr _→Enter

(14)

環境整備

11/17

53

■

パスを通す

・ OSにソフトウエアを呼び出せるため

STEP1: C:¥C:¥Program Files¥R¥R-3.4.0¥bin

STEP2: コントロールパネルをクリック STEP3: システムアイコン→システム STEP4: システム詳細設定→環境変数 STEP5: 新規→STEP1のパスを貼りつけ STEP6: 確定→終了

環境整備

12/17

54 ■

MeCabのインストール

・日本語の形態素解析を行うツール・ http://taku910.github.io/mecab/#download ・パスを通す

環境整備

_13/17

■

MeCab

の演習

・形態素: 意味を表す最小の単位・品詞の情報も得られる STEP1: Windowキー+ R を同時に押す STEP2: cmdを入力→Enter

STEP3: C:Users¥[User名]¥にmecab_→Enter

STEP4: 「学会に参加する。」を入力→Enter

環境整備

_14/17

■

MeCab

の演習

・次に示すような画面が現れたら成功学会名詞,一般,*,*,*,*,学会,ガッカイ,ガッカイに助詞,格助詞,一般,*,*,*,に,ニ,ニ参加名詞,サ変接続,*,*,*,*,参加,サンカ,サンカする動詞,自立,*,*,サ変・スル,基本形,する,スル,スル。記号,句点,*,*,*,*,。,。,。形態素品詞

(15)

環境整備

15/17

57 ■

CaboChaのインストール

・日本語の係り受け解析を行うツール・ https://taku910.github.io/cabocha/ ・パスを通す

環境整備

16/17

58 ■

CaboChaの演習

・文節: 言語として不自然でない程度の最小単位 STEP1: Ctrl + Cを同時に押す

STEP2: cabocha -f1 を入力→Enter

STEP3: 「学会に参加する。」を入力→Enter

環境整備

_17/17

■

CaboCha

の演習

・次に示すような画面が現れたら成功 * 0 1D 0/1 0.000000 学会名詞,一般,*,*,*,*,学会,ガッカイ,ガッカイに助詞,格助詞,一般,*,*,*,に,ニ,ニ * 1 1D 1/1 0.000000 参加名詞,サ変接続,*,*,*,*,参加,サンカ,サンカする動詞,自立,*,*,サ変・スル,基本形,する,スル,スル。記号,句点,*,*,*,*,。,。,。第0文節第文節

■イントロダクション

■テキストデータのクリーニング

・正規表現を用いた青空文庫のデータ処理

■テキストマイニングのための環境整備

・JavaとRのインストール・日本語形態素解析器（MeCab）・日本語係り受け解析器（CaboCha）

■

R

言語基礎

・R環境、データ型とグラフィックス

まとめ

(16)

61

ご清聴どうもありがとうございました。

62

付録

正規表現を用いた前処理

_1/4

■

前処理

・テキストデータを分析に耐える形にする・青空文庫: https://www.aozora.gr.jp/ ・芥川龍之介『羅生門』

正規表現を用いた前処理

_1/4

■

前処理

・テキストデータを分析に耐える形にする・青空文庫: https://www.aozora.gr.jp/ ・芥川龍之介『羅生門』分析に必要なし

(17)

正規表現を用いた前処理

2/4

65 ■

テキストデータのクリーニング

・

正規表現文字列の集合を一つの文字列で表現する方法・例: 正規表現: 講 . 会「講」と「会」の間に任意一文字が入る講習会、講演会など正規表現記号意味 . 任意1文字 + 直前の文字の1回以上の繰り返し [ ～ ] [ ]の中のどれか1文字 ¥n 改行

正規表現を用いた前処理

3/4

66 ■

テキストデータのクリーニング

・対応エディタ: 秀丸、サクラエディタなど・青空文庫に現れるルビの共通特徴下人《げにん》、羅生門《らしょうもん》山括弧《》で括られている

正規表現を用いた前処理

_3/4

■

テキストデータのクリーニング

・対応エディタ: 秀丸、サクラエディタなど

・

正規表現を用いたルビ削除

《

[ ^

》

] +

》

》ではない任意文字繰り返し・《で始まり》で終わる・真ん中に》ではない任意文字

MTMineR

を用いた

テキストマイニングの基礎

同志社大学

文化情報学研究科

データサイエンス研究室

TM2018

講習会資料

1.

イントロダクション

2. R

言語基礎

3.

テキストマイニングのための環境整備

目次

1.

イントロダクション

2. R

言語基礎

3.

テキストマイニングのための環境整備

目次

テキストマイニングのプロセス

1/4

テキストマイニングの全体像

統計解析

結果解釈

テキストマイニングのプロセス

1/4

テキストマイニングのプロセス

テキストマイニングのプロセス

1/4

テキストマイニングのプロセス

テキストマイニングのプロセス

1/4

テキストマイニングのプロセス

テキストマイニングのプロセス

2/4

特徴データ

目的は多種多様

テキストマイニングのプロセス

2/4

特徴データ例

テキストマイニングのプロセス

3/4

統計解析

テキストマイニングのプロセス

3/4

統計解析

テキストマイニングのプロセス

3/4

統計解析

・ 三島由紀夫

「

を、に

」の多用

・ 川端康成

「

と、も

」の多用

テキストマイニングのプロセス

3/4

統計解析

テキストマイニングのプロセス

3/4

テキストマイニングのツール

テキストマイニングのプロセス

3/4

テキストマイニングのツール

M

ultilingual

T

ext

Mine

r with

R

= MTMineR

1.

イントロダクション

2.

_1/4

_1/4

_2/4

_3/4

_3/4

・三島由紀夫

・川端康成

_3/4

・四則演算

・余り

_2/6

_2/6