1
Excel VBA-L, LETRAS による
語彙データ分析
ver. 2014.2.16. こ の 文 書 は LETRAS.xlsm (以 下 で は LETRAS と し ま す ) を 簡 単 に 解 説 し た も の で す 。 LETRAS は 随 時 改 訂 し て い ま す の で 、 こ の 文 書 も 予 告 な し に 改 訂 し て い き ま す 。 常 に 最 終 バ ー ジ ョ ン を 次 の サ イ ト に ア ッ プ ロ ー ド し ま す 。 ご 使 用 に な ら れ た 方 は ぜ ひ ご 意 見 を お 寄 せ く だ さ い 。 私 の メ ー ル ア ド レ ス は LETRAS の 開 始 ペ ー ジ を ご 覧 く だ さ い 。 参 考 に さ せ て い た だ き 、 よ り よ い も の を 目 指 し た い と 思 い ま す 。 よ ろ し く お 願 い い た し ま す 。 http://lecture.ecc.u -tokyo.ac.jp/~cueda/gengo/ (東 京 大 学 ・ 上 田 博 人 )2
1. 開始
LETRAS の フ ァ イ ル を 開 き 、マ ク ロ を 有 効 に し た 後 、シ ョ ー ト カ ッ ト [Ctrl] + [Shift] + L(エ ル )を 押 す と LETRAS の マ ク ロ が 起 動 し ま す 。 次 は 「 説 明 」 の タ ブ を 開 い た と こ ろ で す 。 こ の フ ォ ー ム の タ イ ト ル バ ー に 、 プ ロ グ ラ ム 名 (LETRAS …)、 最 小 化 ボ タ ン ( ― ) 、 最 大 化 ボ タ ン ( □ ) 、 終 了 ボ タ ン ( ×) が あ り ま す 。 分 析 中 に こ の フ ォ ー ム が 邪 魔 に な っ た と き は 最 小 化 ボ タ ン を 押 し て く だ さ い 。 再 び 最 大 化 ボ タ ン を 押 す と 元 の 大 き さ に 戻 り ま す 。 「 終 了 」 ボ タ ン を 押 す と フ ォ ー ム が 消 え ま す 。 再 度 立 ち 上 げ る と き は シ ョ ー ト カ ッ ト [Ctrl]+[Shift]+L で 起 動 し て く だ さ い 。 【 表 紙 】の 下 に 作 成 者 の メ ー ル ア ド レ ス が 載 せ ら れ て い ま す 。プ ロ グ ラ ム の 不 具 合 や 改 善 点 な ど の ご 意 見 を お 寄 せ く だ さ い 。 な る べ く 多 く の 人 に 回 答 を 差 し 上 げ ら れ る よ う に い た し ま す 。LETRAS を 立 ち 上 げ て い れ ば 、 他 の Book も 分 析 で き ま す 。 Book 内 で LETRAS の ユ ー ザ ー フ ォ ー ム を 表 示 し て く だ さ い 。
3
シ ー ト [L] の 列 [A]の デ ー タ を 次 の よ う に [A6]=3, [A8]=PT, [A10]=CM に 変 更 し 、 [A12]に テ ー マ の 色 を 使 っ て 塗 り つ ぶ し て く だ さ い 。 [Ctl]+[Shift]+L で 日 本 語 バ ー ジ ョ ン の LETRAS を 起 動 し ま す 。 こ の フ ォ ー ム は 次 の よ う な 共 通 の ベ ー ス の 上 に 、 さ ま ざ ま な タ ブ の つ い た ペ ー ジ が 載 せ ら れ て い ま す 。 入 力 設 定 現 在 選 択 さ れ て い る シ ー ト と 列 を 入 力 デ ー タ に 設 定 し ま す 。 実 行 処 理 を 実 行 し ま す 。 削 除 選 択 さ れ て い る シ ー ト を 削 除 し ま す 。複 数 選 択 す る こ と も で き ま す 。 開 始 時 の シ ー ト を 削 除 し よ う と す る と 確 認 を 求 め ら れ ま す 。 入 力 行 数 入 力 デ ー タ の 全 行 数 が 示 さ れ ま す 。 入 力 行 番 実 行 中 に 入 力 デ ー タ の 行 番 が 順 次 表 示 さ れ ま す 。 出 力 行 番 実 行 中 に 出 力 デ ー タ の 行 番 が 順 次 表 示 さ れ ま す 。 実 行 時 間 実 行 時 間 が ミ リ セ カ ン ド 単 位 で 表 示 さ れ ま す 。
次 は LETRAS の Excel シ ー ト に 載 せ た サ ン プ ル デ ー タ Sample で す 。
English Español 日本語
LETRAS for textual data analysis LETRAS para análisis de datos textuales
LETRAS: テキス トデータ分析用プ
ログラム集
ver. 2013.10.5 « «
Select laguaguage in the cell [A6]: English=1; Spanish=2; Japanese=3, and restart LETRAS.
Seleccione el idioma en la celda [A6]: inglés = 1; español = 2; japonés = 3, y reinicie LETRAS.
言語を選択してください。英語=1; スペイン語=2; 日本語=3 をセル [A6]に書き込み再度LETRASを起 動してください。
3 « «
Select decimal separator in the cell [A8]: PT (point) or CM (comma), and restart LETRAS.
Seleccione el separador decimal en la celda [A8]: PT (punto) o CM
(coma), y reinicie LETRAS.
小数点を選択してください。(点) =PTまたはCM(コンマ)をセル[A8] に書き込み、再度LETRASを起動 してください。
PT « «
Select thousands separator in the cell [A10]: PT (point), CM
(comma) orBL (blank), and restart LETRAS.
Seleccione el separador de miles en la celda [A10]: PT (punto), CM (coma) o BL (blanco), y reinicie LETRAS. 千位点を選択してください。PT (点)、CM(コンマ)またはBL(ブラ ンク)をセル[A10]に書き込み、 LETRASを再起動してください。 CM « «
Select background color in the cell [A12].
Selecccione el color de fondo en la
celda [A12]. 背景色を[A12]に指定してください。 Background color
Color de fondo 背景色
4 サ ン プ ル は ス ペ イ ン 語 圏 各 地 の 会 話 例 で す 。 デ ー タ は 、 こ の よ う に 、 初 め の 1 行 を タ イ ト ル 行 と し ま す 。 A 列 が テ キ ス ト 、 B 列 以 降 は そ れ ぞ れ の 行 に つ い て の 付 加 情 報 で す 。 「 表 紙 」以 外 の タ ブ で 実 行 が 可 能 で す 。時 間 が か か る 処 理 を 中 止 す る と き は 、 [Esc]キ ー を 押 し て く だ さ い 。 テキスト 見出し:1 見出し:2 行
A la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial. El profesor hablará con el conserje, pidiéndole información sobre los servicios del hotel, así como sobre posibles visitas turísticas por la región.
[A] Hotel (a) Madrid 1
– ¡Buenos días! Desearía una habitación individual para
5
2. 周辺 語 分析
「 連 続 」で は 、焦 点 と 一 緒 に 現 れ る 語 を そ の 位 置 に そ っ て 集 計 し た り 、集 め た り 、 連 続 し て 扱 っ た り し て 、 そ の 関 係 を 探 り ま す 。 こ こ で は 単 語 を 単 位 と し て 、 そ の 前 後 の 数 語 と の 連 続 関 係 を 分 析 し ま す 。 出 力 の 形 式 に は 「 語 形 」 「 集 計 」 「 合 同 」 「 結 合 」 が あ り ま す が 、 こ の 中 で 「 語 形 」 だ け が 文 の 横 の つ な が り を 保 持 し ま す 。 一 方 、 「 集 計 」 「 合 同 」 「 結 合 」 で は 、 横 の つ な が り を 切 っ て 分 析 し ま す 。 「 並 べ 替 え 」 は 「 文 字 順 」 と 「 出 現 順 」 が 選 択 で き ま す 。2.1.1. 語形
単 語 を 単 位 と し て い る こ と を 除 い て 、「 内 置 」と ほ ぼ 同 じ 機 能 を 持 ち ま す 。 た と え ば 、 上 の 設 定 で 実 行 す る と 次 の よ う に 出 力 さ れ ま す 。 por (単 語 目 録 )6
2.1.2. 集計
上 の 「 語 形 」 の 前 語 (W-1, W-2, …)、 鍵 語 、 後 語 (W+1, W+2, …)の そ れ ぞ れ の 列 の 単 語 を ま と め て 集 計 し ま す 。 ま と め て い る の で 、 横 の 関 係 は 切 れ て い ま す 。 焦 点 の そ ば に あ る 語 の 頻 度 を 縦 の 列 だ け を 区 別 し て 調 べ た い と き に 役 に 立 ち ま す 。出 力 は「 文 字 順 」「 出 現 順 」「 頻 度 順 」が 選 択 で き ま す 。2.1.3. 集合
前 語 の 列 (W-1, W-2, …)、後 語 の 列 (W+1, W+2, …)、両 者 (W-1, W-2, …, W+1, W+2, …)を ま と め て そ れ ぞ れ を 合 計 列 に 出 力 し 、そ の 中 の 単 語 を 合 同 し て 、 そ の 頻 度 を 集 計 し ま す 。 焦 点 の そ ば で 連 続 す る 語 の 集 合 を 見 る と き に 使 い ま す 。 語-3 語-2 語-1 焦 点 語+1 語+2 語+3 hacen al va por , y enblanco al va por . ¿ Está
un taxi y por 1000 pelas te
¿ Qué haces por acá ?
7 連 続 : 合 同 の イ メ ー ジ por (単 語 目 録 ) 並 べ 替 え : 頻 度 順 計 -3 語 計 焦 点 計 +3 語 計 計: 6 語 103 , 348 por 79 , 182 , 34 . 70 que 93 que 28 de 53 . 87 . 23 que 49 la 71 la 22 la 25 favor 42 de 21 no 24 42 20 – 23 y 42 y 19 y 22 el 34 no
8
2.1.4. 語結合
前 の 数 語 、 ま た は 後 の 数 語 の 連 続 を 切 ら ず に 、 そ の 連 続 の 頻 度 を 集 計 し ま す 。 焦 点 に 隣 接 す る ま と ま っ た 語 数 の 特 徴 を 調 べ る こ と が で き ま す 。 por (単 語 目 録 ) 並 べ 替 え : 頻 度 順 後 期 ラ テ ン 語 か ら 初 期 ス ペ イ ン 語 を 想 像 す る 大 学 で 習 う ラ テ ン 語 は カ エ サ ル や キ ケ ロ な ど の 紀 元 前 後 に 書 か れ た 文 章 を 対 象 と す る 古 典 ラ テ ン 語 で す 。 一 方 、 こ こ で テ キ ス ト 例 と し て 見 て い る『 創 世 記 』の ラ テ ン 語 は 紀 元 5 世 紀 の「 後 期 ラ テ ン 語 」Late Latin と よ ば れ る も の で す 。 ラ テ ン 語 は 名 詞 が 格 変 化 し 、 そ れ に よ っ て 主 語 や 目 的 語 の 関 係 が わ か る の で 、 と く に 動 詞 の 目 的 語 の 位 置 が 定 ま っ て い る わ け で は あ り ま せ ん が 、 ふ つ う は 動 詞 の 前 に お き ま す 。 そ し て 動 詞 は ふ つ う 文 末 に 置 か れ ま す 。 一 方 、 現 代 ス ペ イ ン 語 な ど ラ テ ン 語 か ら 派 生 し た 言 語 で は 目 的 語 は 動 詞 の 後 に 置 く の が ふ つ う で す 。さ て 、 次 は 名 詞 の 対 格 の 例 と し て aquam, arcam, terram を 選 び 、 そ の 直 前 の 語 を 頻 度 順 に 並 べ た と き の 出 力 で す 。
Sum -3 語 Sum 焦 点 Sum +3 語
6 __– 348 por 4 favor_,_dónde 4 si_no_fuera 4 la_cuestión_y 3 tenido_que_venir 4 favor_._ 3 para_divertirse_. 3 casualidad_dos_amigos 3 precios_del_trans 3 ejemplo_,_hay 3 de_crédito_, 3 teléfono_a_su
9 こ こ で 興 味 深 い の は 、『 創 世 記 』ラ テ ン 語 の 対 格( 目 的 語 )の 位 置 が 、 ま る で 現 代 ス ペ イ ン 語 の よ う に 、 ほ と ん ど 例 外 な く 動 詞 の 直 後 に な っ て い る こ と で す 。 こ の よ う に 当 時 の 話 し 言 葉 が 反 映 し て い る と 思 わ れ る 後 期 ラ テ ン 語 の 様 子 か ら 文 献 に よ っ て 記 録 さ れ て い な い 原 始 ス ペ イ ン 語 Proto-Spanish の シ ン タ ッ ク ス を 想 像 す る こ と が で き ま す 。
10
2.2.
【補説】正規表現
2.2.1. 一般の正規表現
正 規 表 現 は 複 雑 な 文 字 列 処 理 に 適 し て い ま す 。 正 規 表 現 の 規 則 は 非 常 に 単 純 で す が 、 使 い 方 に つ い て は 練 習 が 必 要 で す 。 何 度 で も 実 験 し て 確 認 し て く だ さ い 。 特 殊 文 字 ¥t 水 平 タ ブ に 一 致 し ま す 。 ¥b 任 意 の英 単 語 の境 界 に一 致 します。 ¥B 任 意 の英 単 語 境 界 以 外 の位 置 に一 致 します。 ¥n 改 行 に一 致 します。 入 力 文 :The Universal Declaration of Human Rights Article 1. All human beings are born free and equal in dignity and rights. They are endowed with reason and conscience and should act towards one another in a spirit of brotherhood.
正 規 表 現 :¥bin¥b:単 語 境 界 に挟 まれた in
The Universal Declaration of Human Rights Article 1. All human beings are born free and equal {*in*} dignity and rights. They are endowed with reason and conscience and should act towards one another {*in*} a spirit of brotherhood. beings の 中 の in は 、 単 語 境 界 に 挟 ま れ て い な い の で 一 致 し ま せ ん 。 文 字 ク ラ ス [xyz] 文 字 セ ッ ト に 含 ま れ て い る 任 意 の 1 文 字 に 一 致 し ま す 。[...] の 中 で は ., ? , *な ど を エ ス ケ ー プ す る 必 要 は あ り ま せ ん 。 [^xyz] 文 字 セットに含 まれていない任 意 の 1 文 字 に一 致 します。 .( ピ リ オ ド ) 改 行 (¥n)以 外 の任 意 の文 字 に一 致 します。 ¥w 英 単 語 に使 用 され る任 意 の文 字 (アルファベッ ト、数 字 、アンダー スコア)[a-zA-Z0-9_]に一 致 します。 ¥W 英 単 語 に使 用 される文 字 以 外 の任 意 の文 字 に一 致 します。 [^a -zA-Z0-9[a-zA-Z_0 -9]と同 じです。 ¥d 任 意 の数 字 に一 致 します。[0-9]と同 じです。 ¥D 任 意 の数 字 以 外 の文 字 に一 致 します。[^0-9]と同 じです。 ¥s 任 意 のスペース文 字 に一 致 します。[ ¥t¥r¥n¥f]と同 じです。
11
¥S 任 意 の非 スペース文 字 に一 致 します。[^ ¥t¥r¥n¥f]と同 じです。
入 力 文 :
All human beings are born free and equal in dignity and rights. 正 規 表 現 検 索 :[e-h] (e, f, g, h, i に一 致 )
All {*h*}uman b{*e*}in{*g*}s ar{*e*} born {*f*}r{*e*}{*e*} and {*e*}qual in di{*g*}nity and ri{*g*}{*h*}ts.
正 規 表 現 検 索 :[^a-v] (a-v 以 外 に一 致 )
All{* *}human{* *}beings{* *}are{* *}born{* *}free{* *}and{* *}equal{* *}in{* *}dignit{*y*}{* *}and{* *}rights{*. *}
正 規 表 現 検 索 :[c-i] (c, d, e, f, g, h, i に一 致 )
All human beings are born free and equal in dignity and rights. 結 果 正 規 表 現 検 索 :[^c-i](c, d, e, f, g, h, i 以 外 に一 致 ) All human beings are born free and equal in dignity and rights.
選 択 、 グ ル ー プ 化 、 繰 り 返 し | 複 数 の 句 を 1 つ の 正 規 表 現 に ま と め 、こ れ ら の う ち の 任 意 の 句 に 一 致 し ま す 。 た と え ば 、 d(os|a) は dos ま た は da に 一 致 し ま す 。 ¥ba¥b|¥bthe¥b の よ う に (…)で も 使 う こ と が で き ま す 。 (…) 複 数 の 句 を グ ル ー プ 化 し て 1 つ の 句 を 作 成 し ま す 。(ab)*c は abc ま た は c に 一 致 し ま す 。
+ 1 個 以 上 の 直 前 の 文 字 に 一 致 し ま す 。{1,}と 同 じ で す 。e+で e, ee, eee, …に 一 致 し ま す 。
* ゼ ロ 個 以 上 の 直 前 の 文 字 ま た は ぐ る に 一 致 し ま す 。{0,}と 同 じ で す 。
ah*で a, ah, ahh, …に 一 致 し ま す 。
? ゼ ロ 個 ま た は 1 個 の 直 前 の 文 字 に 一 致 し ま す 。 {0,1}と 同 じ で す 。
books?で book と books に 一 致 し ま す 。
{a} 先 行 す る 正 規 表 現 a 個 に 一 致 し ま す 。 [aeoiu]{2}で 2 母 音 の連 続 (ei,
ee, ua など)に一 致 します。
{a,} 先 行 す る 正 規 表 現 a 個 以 上 の 直 前 の 文 字 に 一 致 し ま す 。 [aeoiu]{3,}
12
{a,b} 先 行 す る 正 規 表 現 a 個 以 上 、b 個 以 下 に 一 致 し ま す 。[aeoiu]{2, 4}で
2-4 母 音 の連 続 (ei, aei, uai, auuu など)に一 致 します。 正 規 表 現 検 索 (free|equal) (free と equal に一 致 )
All human beings are born {*free*} and {*equal*} in dignity and rights . 正 規 表 現 検 索 [e-h]+ ([e-h]の連 続 に一 致 )
All {*h*}uman b{*e*}in{*g*}s ar{*e*} born {*f*}r{*ee*} and {*e*}qual in di{*g*}nity and ri{*gh*}ts.
正 規 表 現 検 索 [aeoiu]{2} (2 母 音 の連 続 )
All human b{*ei*}ngs are born fr{*ee*} and eq{*ua*}l in dignity and rights . 結 果 3 正 規 表 現 検 索 [^aeoiu]{2,} ( 母 音 以 外 の文 字 2 個 以 上 の 連 続 に一 致 )
A{*ll h*}uma{*n b*}ei{*ngs *}are{* b*}o{*rn fr*}ee a{*nd *}equa{*l *}i{*n d*}i{*gn*}i{*ty *}a{*nd r*}i{*ghts.*}
エ ス ケ ー プ 文 字
特 殊 文 字 の 検 索 (, ), [, ], {, }, ?, !, .(ピ リ オ ド ), +, *, |, ¥を 探 す と き は ,そ の 前 に ¥を つ け て エ ス ケ ー プ し ま す 。た と え ば ¥?で ク エ ス チ ョ ン マ ー ク を 検 索 し ま す 。
入 力 文 :
¿Cómo está usted?
正 規 表 現 ¥?( ク エ ス チ ョ ン マ ー ク ) ¿Cómo está usted?
置 換 文 字
正 規 表 現 の 後 方 参 照 を 使 うと、 検 索 式 の 一 部 を 参 照 する ことがで き ます。句 を 括 弧 で囲 み、$の後 に 1 つの数 字 を続 けることによってその句 を指 定 します。
$n 検 索 パタンの n 番 目 の(…)に一 致 した文 字 列 $$ $という文 字
13 入 力 文 :
Rumi: Hola, profesor.Prof. Rubio: Buenos di/as.Rumi: Buenos di/as. Nos encontramos ahora en la Universidad [[Complutense]] de Madrid. ¿Dónde nos vamos ahora?
Prof.: Bueno, vamos a iniciar hoy el [[Camino]] del [[Cid]], la primera parte.
正 規 表 現 : HTML コ ー ド を 作 成 し ま す 。 a/=>á e/=>é i/=>í ó=>ó ú=>ú 正 規 表 現 :([aeiou])/=>&$1acute;:上 の連 立 式 を折 りたたみます。
Rumi: Hola, profesor.Prof. Rubio: Buenos días.Rumi: Buenos días. Nos encontramos ahora en la Universidad Complutense de Madrid. ¿Dónde nos vamos ahora? Prof.: Bueno, vamos a iniciar hoy el Camino del Cid, la primera parte.
正 規 表 現 : #(c%)=>[[$1]](c で始 まる語 を[[...]]でマークします。)
Rumi: Hola, profesor.Prof. Rubio: Buenos días.Rumi: Buenos días. Nos encontramos ahora en la Universidad [[Complutense]] de Madrid. ¿Dónde nos vamos ahora?
Prof.: Bueno, vamos a iniciar hoy el [[Camino]] del [[Cid]], la primera parte. 次 は 中 世 ス ペ イ ン 語 の 資 料 を 文 字 化 し た 資 料 で す 。
Otro(22)ssí mando que los mene strales non echen suerte en el judgado por seer juezes, ca el juez deve tener la seña, e tengo que si <a> afruenta viniesse o a logar de periglo e omne vil o rafez toviesse la seña que podrié (23) caer el concejo en grant onta e en grant vergüença.
(22)は 語 の 途 中 で 改 行 さ れ ssí 以 下 が 22 行 目 に な る こ と を 示 し て い ま す 。 文 法 研 究 の た め に は 、こ れ を Otrossí (22)に す る 必 要 が あ り ま す 。こ れ は 次 の 置 換 式 に よ っ て 実 現 で き ま す 。
14 正 規 表 現 : (¥(¥d+¥))(&)=>$2 $1
Otrossí (22) mando que los menestrales non echen suerte en el judgado por seer juezes, ca el juez deve tener la seña, e tengo que si <a> afrue nta viniesse o a logar de periglo e omne vil o rafez toviesse la seña que podrié (23) caer el concejo en grant onta e en grant vergüença.
後 方 参 照 後 方 参 照 を 使 う こ と で 式 の 内 容 を 記 憶 さ せ 、 そ れ を 後 か ら 参 照 さ せ る こ と が で き ま す 。 (...)¥n 検 索 文 字 列 の (...)の 式 に 一 致 し た 文 字 列 が 記 憶 さ れ 、そ れ を n 回 繰 り 返 し て 参 照 し ま す 。 (...)...(...)=>$ n 検 索 文 字 列 の (...)の 式 に 一 致 し た 文 字 列 が 記 憶 さ れ 、置 換 文 字 列 で そ れ を 参 照 し て 再 生 し ま す 。 n は (...)の 順 番 に 対 応 す る 番 号 で す 。 入 力 文 : ど ん ど ん テ ー マ が 広 が っ て 、 ま す ま す 興 味 が わ い て き た 。 正 規 表 現 : (..)¥1:2 文 字 が 2 回 繰 り返 す文 字 列 ど ん ど ん テ ー マ が 広 が っ て 、 ま す ま す 興 味 が わ い て き た 。 参 照 す る 文 字( 列 )が わ か っ て い る と き は 、検 索 式 を た と え ば「 (ど ん ){2}」 の よ う に す る こ と が で き ま す が 、こ こ で は 他 に も「 ま す ま す 」「 ぐ ん ぐ ん 」 の よ う に 、 さ ま ざ ま に 変 化 す る 場 合 を 想 定 し て い ま す 。 ¥1 が 先 行 す る (..) を 後 方 か ら 参 照 し て い ま す 。
2.2.2. 拡張正規表現
特 殊 文 字 を 再 定 義 LETRAS.xls m で は 一 般 の 正 規 表 現 を 拡 張 し て 次 の 検 索 字 を 再 定 義 し ま す 。 # 単 語 の 境 界 : #b%は b で 始 ま る 単 語 を 検 索 し ま す 。 & 単 語 文 字 1 個 以 上 ¥l+ % 単 語 文 字 0 個 以 上 ¥l* ¥l 西 欧 語 単 語 文 字 [A-Za-zÀ-ǿ]15 ¥L 西 欧 語 単 語 文 字 以 外 [^A-Za-zÀ-ǿ] ¥i キ リ ル 文 字 ¥I キ リ ル 文 字 以 外 ¥g ギ リ シ ャ 文 字 ¥G ギ リ シ ャ 文 字 以 外 ¥e ハ ン グ ル ¥E ハ ン グ ル 以 外 ¥y CJK 互 換 漢 字 、 統 合 漢 字 、 漢 字 拡 張 文 字 ¥Y CJK 互 換 漢 字 、 統 合 漢 字 、 漢 字 拡 張 文 字 以 外 ¥v 母 音 文 字 [aeiouÀ-Æà-æÈ-Ëè-ëÌ-Ïì-ïÒ-Öò-öÙ-Üù-ü] ¥V 母 音 文 字 以 外 [^aeiouÀ-Æà-æÈ-Ëè-ëÌ-Ïì-ïÒ-Öò-öÙ-Üù-ü] ¥c 子 音 文 字 [bcdfghj-np-tv-zÇçÑñß] ¥C 子 音 文 字 以 外 [^bcdfghj-np-tv-zÇçÑñß] 単 語 の 境 界 拡 張 正 規 表 現 : #(m%)=>[$2]( 語 頭 の 単 語 境 界 #を 使 っ た 置 換 式 の 置 換 文 字 列 の ト ー ク ン の 数 字 は +1 と し て く だ さ い 。 )
Otro(22)ssí [mando] que los [menestrales] non echen suerte en el judgado por seer juezes, ca el juez deve tener la seña, e tengo que si <a> afruenta viniesse o a logar de periglo e omne vil o rafez toviesse la seña que pod rié (23) caer el concejo en grant onta e en grant vergüença .
拡 張 正 規 表 現 : (%[rs])#=>[$1]( 語 尾 の 単 語 境 界 #を 使 っ た 置 換 式 の 置 換 文 字 列 の ト ー ク ン の 数 字 は そ の ま ま に し て く だ さ い 。 )
Otro(22)ssí mando que [los] [menestrales] non echen suerte en el judgado [por] [seer] [juezes], ca el juez deve [tener] la seña, e tengo que si <a> afruenta viniesse o a [logar] de periglo e omne vil o rafez toviesse la seña que podrié (23) [caer] el concejo en grant onta e en grant vergüença.
日 本 語 文 字 の 再 定 義 日 本 語 文 字 を 検 索 す る と き は 、¥h( ひ ら が な ), ¥k( カ タ カ ナ ), ¥z( 漢 字 ), ¥j( 日 本 語 文 字 ) を 使 用 し ま す 。 ¥h ひ ら が な [ぁ -ん ー ] ¥H ひ ら が な 以 外 [^ぁ -ん ー ] ¥k カ タ カ ナ [ァ -ン ー ]
16 ¥K カ タ カ ナ 以 外 [^ァ -ン ー ] ¥z 漢 字 [一 -龥 々 〆 ] ¥Z 漢 字 以 外 [^ 一 -龥 々 〆 ] ¥j 日 本 語 文 字 [ぁ -ん ァ -ン ー 一 -龥 々 〆 ] ¥J 日 本 語 文 字 以 外 [^ぁ -ん ァ -ン ー 一 -龥 々 〆 ] 入 力 文 : 親 譲 り の 無 鉄 砲 で 小 供 の 時 か ら 損 ば か り し て い る 。 拡 張 正 規 表 現 ¥z{2}( 漢 字 2 文 字 の 連 続 ) {*親 譲 *}り の {*無 鉄 *}砲 で {*小 供 *}の 時 か ら 損 ば か り し て い る 。 拡 張 正 規 表 現 :¥z+( 1 個 以 上 の 漢 字 ) {*親 譲 *}り の {*無 鉄 砲 *}で {*小 供 *}の {*時 *}か ら {*損 *}ば か り し て い る 。 入 力 文 : 『 坊 っ ち ゃ ん 』 夏 目 漱 石 親 譲 り の 無 鉄 砲 で 小 供 の 時 か ら 損 ば か り し て い る 。小 学 校 に 居 る 時 分 学 校 の 二 階 か ら 飛 び 降 り て 一 週 間 ほ ど 腰 を 抜 か し た 事 が あ る 。な ぜ そ ん な 無 闇 を し た と 聞 く 人 が あ る か も 知 れ ぬ 。別 段 深 い 理 由 で も な い 。新 築 の 二 階 か ら 首 を 出 し て い た ら 、同 級 生 の 一 人 が 冗 談 に 、い く ら 威 張 っ て も 、そ こ か ら 飛 び 降 り る 事 は 出 来 ま い 。弱 虫 や ー い 。と 囃 し た か ら で あ る 。小 使 に 負 ぶ さ っ て 帰 っ て 来 た 時 、お や じ が 大 き な 眼 を し て 二 階 ぐ ら い か ら 飛 び 降 り て 腰 を 抜 か す 奴 が あ る か と 云 っ た か ら 、 こ の 次 は 抜 か さ ず に 飛 ん で 見 せ ま す と 答 え た 。 拡 張 正 規 表 現 ¥z*¥h+( 漢 字 と ひ ら が な : ±漢 字 + ひ ら が な ) 『 {*坊 っ ち ゃ ん *}』 夏 目 漱 石 {*親 譲 り の *}{*無 鉄 砲 で *}{*小 供 の *}{*時 か ら *}{*損 ば か り し て い る *}。 {* 小 学 校 に *}{* 居 る *}{* 時 分 学 校 の *}{* 二 階 か ら *}{* 飛 び *}{* 降 り て *}{* 一 週 間 ほ ど *}{*腰 を *}{*抜 か し た *}{*事 が あ る *}。{*な ぜ そ ん な *}{*無 闇 を し た と *}{*聞 く *}{*人 が あ る か も *}{*知 れ ぬ *}。{*別 段 深 い *}{*理 由 で も な い *}。{*新 築 の *}{*二 階 か ら *}{*首 を *}{*出 し て い た ら *}、{*同 級 生 の *}{* 一 人 が *}{*冗 談 に *}、{*い く ら *}{*威 張 っ て も *}、{*そ こ か ら *}{*飛 び *}{* 降 り る *}{*事 は *}{*出 来 ま い *}。{*弱 虫 や *}ー {*い *}。{*と *}{*囃 し た か ら で あ る *}。 {* 小 使 に *}{* 負 ぶ さ っ て *}{* 帰 っ て *}{* 来 た *}時 、 {* お や じ が *}{* 大 き な *}{* 眼 を し て *}{* 二 階 ぐ ら い か ら *}{* 飛 び *}{* 降 り て *}{* 腰 を
17 *}{*抜 か す *}{*奴 が あ る か と *}{*云 っ た か ら *}、{*こ の *}{*次 は *}{*抜 か さ ず に *}{*飛 ん で *}{*見 せ ま す と *}{*答 え た *}。 単 語 境 界 の あ る 検 索 式 を 使 用 す る と き は 次 の よ う な 検 索 置 換 式 に 変 換 し ま す 。 #a% (^|$|¥L)a%=>$1{*a%*} %r# %r(^|$|¥L)=>%r¥1 外 国 語 文 字 の 再 定 義 「 再 定 義 」と い う シ ー ト に は 次 の よ う な 設 定 を し て い ま す 。こ れ は 自 由 に 変 え る こ と が で き ま す 。 変 更 し た と き は 「 更 新 」 ボ タ ン を 押 し て く だ さ い 。 こ こ で 使 用 し て い る「 /, ", ~, `, ^」と い う 特 殊 記 号 を 検 索 す る と き は 前 に ¥を つ け て エ ス ケ ー プ し て く だ さ い 。
¥/
x128$
a/
á
e/
é
i/
í
ó
ó
ú
ú
A/
Á
E/
É
I/
Í
Ó
Ó
Ú
Ú
¥"
x128$
a"
ä
e"
ë
i"
ï
o"
ö
u"
ü
A"
Ä
E"
Ë
I"
Ï
O"
Ö
U"
Ü
18
x128$
"
¥~
x128$
a~
ã
e~
e
i~
i
o~
õ
u~
u
A~
Ã
E~
E
I~
I
O~
Õ
U~
U
x128$
~
¥`
x128$
a`
à
e`
è
i`
ì
o`
ò
u`
ù
A`
À
E`
È
I`
Ì
O`
Ò
U`
Ù
x128$
`
¥^
x128$
a^
â
e^
ê
i^
î
o^
ô
u^
û
A^
Â
E^
Ê
I^
Î
O^
Ô
19
U^
Û
x128$
^
前 後 の 条 件-{{正規表現}}
検 索 文 字 列 の 前 後 に 付 加 し て 検 索 の 条 件 と し ま す 。 た と え ば 、 {{te }}va%は te と 空 白 に 続 く デ ー タ を 検 索 し ま す 。2.3. 大小文字区別
「 大 小 文 字 区 別 」を チ ェ ッ ク し て 次 の 置 換 式 を 使 う と 小 文 字 で は じ ま る 語 だ け に マ ッ チ し ま す 。 (%e%)=><$1> (大 小 区 別 な し )A la <recepción> <de> un <hotel> <madrileño> <llega> un <profesor> <extranjero> para participar como <conferenciante> <en> un <seminario> <sobre> Nutrición organizado por una <universidad> <de> <verano> con <sede> <en> <El> <Escorial>.
(%e%)=><$1> (大 小 区 別 あ り )
A la <recepción> <de> un <hotel> <madrileño> <llega> un <profesor> <extranjero> para participar como <conferenciante> <en> un <seminario> <sobre> Nutrición organizado por una <universidad> <de> <verano> con <sede> <en> El Escorial. (%E%)=><$1> (大 小 区 別 あ り )
A la recepción de un hotel madrileño llega un profesor extr anjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en <El> <Escorial>.
2.4. 単語目録
「 単 語 目 録 」を 選 択 す る と 単 語 を 単 位 に し て 置 換 し ま す 。次 の 例 で は 、(1:1) の In は P に 置 換 さ れ ま す が 、 (1:2)の inanis の in は 置 換 さ れ ま せ ん 。 大 量 の 単 語 を 置 換 し た り 検 索 す る と き は 単 純 一 致 や 正 規 表 現 と 比 べ て 処 理 が 高 速 に な り ま す 。 a=>A de=>DE en=>EN20
A la recepción DE un hotel madrileño llega un profesor extranjero para participar como conferenciante EN un seminario sobre Nutrición organizado por una universidad DE verano con sede EN El Escorial.
こ の 検 索 式 は 正 規 表 現 で は な い の で 、 (a|de|en) の よ う に ま と め る こ と が で き ま せ ん 。 正 規 表 現 で は 、 #(a|de|en)#=>$1 <$2> $3 と し ま す 。
21
3. 二焦点 分析
正 規 表 現 で 指 定 す る 2 つ の 要 素 の 結 合 度 を 探 り ま す 。 語 形 変 化 が 多 い ラ テ ン 語 な ど で は 正 規 表 現 を 工 夫 す る こ と で 、 さ ま ざ ま な 語 の 組 み 合 わ せ を 実 現 で き ま す 。 語 形 変 化 が 比 較 的 少 な い 英 語 で も 、 た と え ば #ha(ve|s|d|ving)# に よ っ て 要 素 の 1 つ に have を 指 定 す る こ と が で き ま す 。結 合 度 を 示 す さ ま ざ ま な 係 数 を 同 時 に 出 力 し ま す 。3.1. 共起係数
「 共 起 係 数 」の オ プ シ ョ ン を 選 択 す つ と 、2 つ の 要 素 は 同 じ セ ル の 中 に あ る 、 と い う 条 件 を 満 た し て い る か ぎ り 、ど れ だ け 間 隔 が 空 い て も か ま い ま せ ん 。22
3.2. 間隔係数
「 間 隔 係 数 」は 2 つ の 要 素 の 間 に 指 定 し た 数 字 以 下 の 文 字 数 の デ ー タ が あ る と き の 回 数 を 計 算 し 、 そ れ を 共 起 回 数 と し ま す 。 3 つ の 係 数 を 比 較 す る と 、 接 係 数 よ り も 共 起 係 数 の ほ う が 「 共 起 回 数 」 が 多 く 、 間 隔 係 数 は 、 両 者 の 間 に な る こ と が わ か り ま す 。 間 隔 語 数 を 増 や す と 、 共 起 回 数 が 増 加 す る 可 能 性 が 高 く な り ま す 。 隣 接 係 数 <= 間 隔 係 数 <= 共 起 係 数3.3. 順番を区別
ラ テ ン 語 は 語 順 が 比 較 的 自 由 な 言 語 で す 。 「 順 番 区 別 」 の チ ェ ッ ク の 有 無 に よ る 出 力 を 比 較 し ま し ょ う 。 次 は 「 文 」 の 中 で 順 番 を 区 別 し た と き と 、 二焦点分析:共起係数 全体 頻度 X: #(por|para)# 521 頻度 Y: &[aei]r# 882 a (X:+ / Y:+): #(por|para)#.*?&[aei]r# 395 b (X:+ / Y:-): #(por|para)# 126 c (X:- / Y:+): &[aei]r# 487 Total (N) 26,581 相互情報量 4.5140 Dice 2a/(2a+b+c) 0.5631 Jaccard a/(a+b+c) 0.3919 Ochiai a/√[(a+b)(a+c)] 0.5827 Ueda (2a-b-c)/(2a+b+c) 0.1262 二焦点分析:間隔係数・文字数100 全体 頻度 X: #(por|para)# 521 頻度 Y: &[aei]r# 882 a (X:+ / Y:+): #(por|para)#.{0,100}?&[aei]r# 387 b (X:+ / Y:-): #(por|para)# 134 c (X:- / Y:+): &[aei]r# 495 Total (N) 26,581 相互情報量 4.4845 Dice 2a/(2a+b+c) 0.5517 Jaccard a/(a+b+c) 0.3809 Ochiai a/√[(a+b)(a+c)] 0.5709 Ueda (2a-b-c)/(2a+b+c) 0.103323 区 別 し な い と き の 出 力 を 比 べ た も の で す 。 二要素共起分析:共起係数 順番区別 区別なし X: #domin(us|i|um)# の度数 164 164 Y: #de(us|i|um)# の度数 200 200 a (++) 共起回数(XY): #domin(us|i|um)#+#de(us|i|um)# 29 33 b (+-) 排他回数(X): #domin(us|i|um)# 135 131 c (-+) 排他回数(Y): #de(us|i|um)# 171 167 全度数 (N) 25,569 25,569 相互情報量(MI) 4.4987 4.6851 Dice 係数 2a/(2a+b+c) 0.1593 0.1813 Jaccard 係数 a/(a+b+c) 0.0866 0.0997 Cosine 係数 a/√[(a+b)(a+c)] 0.1601 0.1822 相対優先係数 [a/(a+b) + a/(a+c)])/2 0.1609 0.1831