• 検索結果がありません。

1. 開始 LETRAS のファイルを開き マクロを有効にした後 ショートカット [Ctrl] + [Shift] + L( エル ) を押すと LETRAS のマクロが起動します 次は 説明 のタブを開いたところです このフォームのタイトルバーに プログラム名 (LETRAS ) 最小化ボタン (

N/A
N/A
Protected

Academic year: 2021

シェア "1. 開始 LETRAS のファイルを開き マクロを有効にした後 ショートカット [Ctrl] + [Shift] + L( エル ) を押すと LETRAS のマクロが起動します 次は 説明 のタブを開いたところです このフォームのタイトルバーに プログラム名 (LETRAS ) 最小化ボタン ("

Copied!
23
0
0

読み込み中.... (全文を見る)

全文

(1)

1

Excel VBA-L, LETRAS による

語彙データ分析

ver. 2014.2.16. こ の 文 書 は LETRAS.xlsm (以 下 で は LETRAS と し ま す ) を 簡 単 に 解 説 し た も の で す 。 LETRAS は 随 時 改 訂 し て い ま す の で 、 こ の 文 書 も 予 告 な し に 改 訂 し て い き ま す 。 常 に 最 終 バ ー ジ ョ ン を 次 の サ イ ト に ア ッ プ ロ ー ド し ま す 。 ご 使 用 に な ら れ た 方 は ぜ ひ ご 意 見 を お 寄 せ く だ さ い 。 私 の メ ー ル ア ド レ ス は LETRAS の 開 始 ペ ー ジ を ご 覧 く だ さ い 。 参 考 に さ せ て い た だ き 、 よ り よ い も の を 目 指 し た い と 思 い ま す 。 よ ろ し く お 願 い い た し ま す 。 http://lecture.ecc.u -tokyo.ac.jp/~cueda/gengo/ (東 京 大 学 ・ 上 田 博 人 )

(2)

2

1. 開始

LETRAS の フ ァ イ ル を 開 き 、マ ク ロ を 有 効 に し た 後 、シ ョ ー ト カ ッ ト [Ctrl] + [Shift] + L(エ ル )を 押 す と LETRAS の マ ク ロ が 起 動 し ま す 。 次 は 「 説 明 」 の タ ブ を 開 い た と こ ろ で す 。 こ の フ ォ ー ム の タ イ ト ル バ ー に 、 プ ロ グ ラ ム 名 (LETRAS …)、 最 小 化 ボ タ ン ( ― ) 、 最 大 化 ボ タ ン ( □ ) 、 終 了 ボ タ ン ( ×) が あ り ま す 。 分 析 中 に こ の フ ォ ー ム が 邪 魔 に な っ た と き は 最 小 化 ボ タ ン を 押 し て く だ さ い 。 再 び 最 大 化 ボ タ ン を 押 す と 元 の 大 き さ に 戻 り ま す 。 「 終 了 」 ボ タ ン を 押 す と フ ォ ー ム が 消 え ま す 。 再 度 立 ち 上 げ る と き は シ ョ ー ト カ ッ ト [Ctrl]+[Shift]+L で 起 動 し て く だ さ い 。 【 表 紙 】の 下 に 作 成 者 の メ ー ル ア ド レ ス が 載 せ ら れ て い ま す 。プ ロ グ ラ ム の 不 具 合 や 改 善 点 な ど の ご 意 見 を お 寄 せ く だ さ い 。 な る べ く 多 く の 人 に 回 答 を 差 し 上 げ ら れ る よ う に い た し ま す 。

LETRAS を 立 ち 上 げ て い れ ば 、 他 の Book も 分 析 で き ま す 。 Book 内 で LETRAS の ユ ー ザ ー フ ォ ー ム を 表 示 し て く だ さ い 。

(3)

3

シ ー ト [L] の 列 [A]の デ ー タ を 次 の よ う に [A6]=3, [A8]=PT, [A10]=CM に 変 更 し 、 [A12]に テ ー マ の 色 を 使 っ て 塗 り つ ぶ し て く だ さ い 。 [Ctl]+[Shift]+L で 日 本 語 バ ー ジ ョ ン の LETRAS を 起 動 し ま す 。 こ の フ ォ ー ム は 次 の よ う な 共 通 の ベ ー ス の 上 に 、 さ ま ざ ま な タ ブ の つ い た ペ ー ジ が 載 せ ら れ て い ま す 。 入 力 設 定 現 在 選 択 さ れ て い る シ ー ト と 列 を 入 力 デ ー タ に 設 定 し ま す 。 実 行 処 理 を 実 行 し ま す 。 削 除 選 択 さ れ て い る シ ー ト を 削 除 し ま す 。複 数 選 択 す る こ と も で き ま す 。 開 始 時 の シ ー ト を 削 除 し よ う と す る と 確 認 を 求 め ら れ ま す 。 入 力 行 数 入 力 デ ー タ の 全 行 数 が 示 さ れ ま す 。 入 力 行 番 実 行 中 に 入 力 デ ー タ の 行 番 が 順 次 表 示 さ れ ま す 。 出 力 行 番 実 行 中 に 出 力 デ ー タ の 行 番 が 順 次 表 示 さ れ ま す 。 実 行 時 間 実 行 時 間 が ミ リ セ カ ン ド 単 位 で 表 示 さ れ ま す 。

次 は LETRAS の Excel シ ー ト に 載 せ た サ ン プ ル デ ー タ Sample で す 。

English Español 日本語

LETRAS for textual data analysis LETRAS para análisis de datos textuales

LETRAS: テキス トデータ分析用プ

ログラム集

ver. 2013.10.5 « «

Select laguaguage in the cell [A6]: English=1; Spanish=2; Japanese=3, and restart LETRAS.

Seleccione el idioma en la celda [A6]: inglés = 1; español = 2; japonés = 3, y reinicie LETRAS.

言語を選択してください。英語=1; スペイン語=2; 日本語=3 をセル [A6]に書き込み再度LETRASを起 動してください。

3 « «

Select decimal separator in the cell [A8]: PT (point) or CM (comma), and restart LETRAS.

Seleccione el separador decimal en la celda [A8]: PT (punto) o CM

(coma), y reinicie LETRAS.

小数点を選択してください。(点) =PTまたはCM(コンマ)をセル[A8] に書き込み、再度LETRASを起動 してください。

PT « «

Select thousands separator in the cell [A10]: PT (point), CM

(comma) orBL (blank), and restart LETRAS.

Seleccione el separador de miles en la celda [A10]: PT (punto), CM (coma) o BL (blanco), y reinicie LETRAS. 千位点を選択してください。PT (点)、CM(コンマ)またはBL(ブラ ンク)をセル[A10]に書き込み、 LETRASを再起動してください。 CM « «

Select background color in the cell [A12].

Selecccione el color de fondo en la

celda [A12]. 背景色を[A12]に指定してください。 Background color

Color de fondo 背景色

(4)

4 サ ン プ ル は ス ペ イ ン 語 圏 各 地 の 会 話 例 で す 。 デ ー タ は 、 こ の よ う に 、 初 め の 1 行 を タ イ ト ル 行 と し ま す 。 A 列 が テ キ ス ト 、 B 列 以 降 は そ れ ぞ れ の 行 に つ い て の 付 加 情 報 で す 。 「 表 紙 」以 外 の タ ブ で 実 行 が 可 能 で す 。時 間 が か か る 処 理 を 中 止 す る と き は 、 [Esc]キ ー を 押 し て く だ さ い 。 テキスト 見出し:1 見出し:2 行

A la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial. El profesor hablará con el conserje, pidiéndole información sobre los servicios del hotel, así como sobre posibles visitas turísticas por la región.

[A] Hotel (a) Madrid 1

– ¡Buenos días! Desearía una habitación individual para

(5)

5

2. 周辺 語 分析

「 連 続 」で は 、焦 点 と 一 緒 に 現 れ る 語 を そ の 位 置 に そ っ て 集 計 し た り 、集 め た り 、 連 続 し て 扱 っ た り し て 、 そ の 関 係 を 探 り ま す 。 こ こ で は 単 語 を 単 位 と し て 、 そ の 前 後 の 数 語 と の 連 続 関 係 を 分 析 し ま す 。 出 力 の 形 式 に は 「 語 形 」 「 集 計 」 「 合 同 」 「 結 合 」 が あ り ま す が 、 こ の 中 で 「 語 形 」 だ け が 文 の 横 の つ な が り を 保 持 し ま す 。 一 方 、 「 集 計 」 「 合 同 」 「 結 合 」 で は 、 横 の つ な が り を 切 っ て 分 析 し ま す 。 「 並 べ 替 え 」 は 「 文 字 順 」 と 「 出 現 順 」 が 選 択 で き ま す 。

2.1.1. 語形

単 語 を 単 位 と し て い る こ と を 除 い て 、「 内 置 」と ほ ぼ 同 じ 機 能 を 持 ち ま す 。 た と え ば 、 上 の 設 定 で 実 行 す る と 次 の よ う に 出 力 さ れ ま す 。 por (単 語 目 録 )

(6)

6

2.1.2. 集計

上 の 「 語 形 」 の 前 語 (W-1, W-2, …)、 鍵 語 、 後 語 (W+1, W+2, …)の そ れ ぞ れ の 列 の 単 語 を ま と め て 集 計 し ま す 。 ま と め て い る の で 、 横 の 関 係 は 切 れ て い ま す 。 焦 点 の そ ば に あ る 語 の 頻 度 を 縦 の 列 だ け を 区 別 し て 調 べ た い と き に 役 に 立 ち ま す 。出 力 は「 文 字 順 」「 出 現 順 」「 頻 度 順 」が 選 択 で き ま す 。

2.1.3. 集合

前 語 の 列 (W-1, W-2, …)、後 語 の 列 (W+1, W+2, …)、両 者 (W-1, W-2, …, W+1, W+2, …)を ま と め て そ れ ぞ れ を 合 計 列 に 出 力 し 、そ の 中 の 単 語 を 合 同 し て 、 そ の 頻 度 を 集 計 し ま す 。 焦 点 の そ ば で 連 続 す る 語 の 集 合 を 見 る と き に 使 い ま す 。 語-3 語-2 語-1 焦 点 語+1 語+2 語+3 hacen al va por , y en

blanco al va por . ¿ Está

un taxi y por 1000 pelas te

¿ Qué haces por acá ?

(7)

7 連 続 : 合 同 の イ メ ー ジ por (単 語 目 録 ) 並 べ 替 え : 頻 度 順 計 -3 語 計 焦 点 計 +3 語 計 計: 6 語 103 , 348 por 79 , 182 , 34 . 70 que 93 que 28 de 53 . 87 . 23 que 49 la 71 la 22 la 25 favor 42 de 21 no 24 42 20 – 23 y 42 y 19 y 22 el 34 no

(8)

8

2.1.4. 語結合

前 の 数 語 、 ま た は 後 の 数 語 の 連 続 を 切 ら ず に 、 そ の 連 続 の 頻 度 を 集 計 し ま す 。 焦 点 に 隣 接 す る ま と ま っ た 語 数 の 特 徴 を 調 べ る こ と が で き ま す 。 por (単 語 目 録 ) 並 べ 替 え : 頻 度 順 後 期 ラ テ ン 語 か ら 初 期 ス ペ イ ン 語 を 想 像 す る 大 学 で 習 う ラ テ ン 語 は カ エ サ ル や キ ケ ロ な ど の 紀 元 前 後 に 書 か れ た 文 章 を 対 象 と す る 古 典 ラ テ ン 語 で す 。 一 方 、 こ こ で テ キ ス ト 例 と し て 見 て い る『 創 世 記 』の ラ テ ン 語 は 紀 元 5 世 紀 の「 後 期 ラ テ ン 語 」Late Latin と よ ば れ る も の で す 。 ラ テ ン 語 は 名 詞 が 格 変 化 し 、 そ れ に よ っ て 主 語 や 目 的 語 の 関 係 が わ か る の で 、 と く に 動 詞 の 目 的 語 の 位 置 が 定 ま っ て い る わ け で は あ り ま せ ん が 、 ふ つ う は 動 詞 の 前 に お き ま す 。 そ し て 動 詞 は ふ つ う 文 末 に 置 か れ ま す 。 一 方 、 現 代 ス ペ イ ン 語 な ど ラ テ ン 語 か ら 派 生 し た 言 語 で は 目 的 語 は 動 詞 の 後 に 置 く の が ふ つ う で す 。

さ て 、 次 は 名 詞 の 対 格 の 例 と し て aquam, arcam, terram を 選 び 、 そ の 直 前 の 語 を 頻 度 順 に 並 べ た と き の 出 力 で す 。

Sum -3 語 Sum 焦 点 Sum +3 語

6 __– 348 por 4 favor_,_dónde 4 si_no_fuera 4 la_cuestión_y 3 tenido_que_venir 4 favor_._ 3 para_divertirse_. 3 casualidad_dos_amigos 3 precios_del_trans 3 ejemplo_,_hay 3 de_crédito_, 3 teléfono_a_su

(9)

9 こ こ で 興 味 深 い の は 、『 創 世 記 』ラ テ ン 語 の 対 格( 目 的 語 )の 位 置 が 、 ま る で 現 代 ス ペ イ ン 語 の よ う に 、 ほ と ん ど 例 外 な く 動 詞 の 直 後 に な っ て い る こ と で す 。 こ の よ う に 当 時 の 話 し 言 葉 が 反 映 し て い る と 思 わ れ る 後 期 ラ テ ン 語 の 様 子 か ら 文 献 に よ っ て 記 録 さ れ て い な い 原 始 ス ペ イ ン 語 Proto-Spanish の シ ン タ ッ ク ス を 想 像 す る こ と が で き ま す 。

(10)

10

2.2.

【補説】正規表現

2.2.1. 一般の正規表現

正 規 表 現 は 複 雑 な 文 字 列 処 理 に 適 し て い ま す 。 正 規 表 現 の 規 則 は 非 常 に 単 純 で す が 、 使 い 方 に つ い て は 練 習 が 必 要 で す 。 何 度 で も 実 験 し て 確 認 し て く だ さ い 。 特 殊 文 字 ¥t 水 平 タ ブ に 一 致 し ま す 。 ¥b 任 意 の英 単 語 の境 界 に一 致 します。 ¥B 任 意 の英 単 語 境 界 以 外 の位 置 に一 致 します。 ¥n 改 行 に一 致 します。 入 力 文 :

The Universal Declaration of Human Rights Article 1. All human beings are born free and equal in dignity and rights. They are endowed with reason and conscience and should act towards one another in a spirit of brotherhood.

正 規 表 現 :¥bin¥b:単 語 境 界 に挟 まれた in

The Universal Declaration of Human Rights Article 1. All human beings are born free and equal {*in*} dignity and rights. They are endowed with reason and conscience and should act towards one another {*in*} a spirit of brotherhood. beings の 中 の in は 、 単 語 境 界 に 挟 ま れ て い な い の で 一 致 し ま せ ん 。 文 字 ク ラ ス [xyz] 文 字 セ ッ ト に 含 ま れ て い る 任 意 の 1 文 字 に 一 致 し ま す 。[...] の 中 で は ., ? , *な ど を エ ス ケ ー プ す る 必 要 は あ り ま せ ん 。 [^xyz] 文 字 セットに含 まれていない任 意 の 1 文 字 に一 致 します。 .( ピ リ オ ド ) 改 行 (¥n)以 外 の任 意 の文 字 に一 致 します。 ¥w 英 単 語 に使 用 され る任 意 の文 字 (アルファベッ ト、数 字 、アンダー スコア)[a-zA-Z0-9_]に一 致 します。 ¥W 英 単 語 に使 用 される文 字 以 外 の任 意 の文 字 に一 致 します。 [^a -zA-Z0-9[a-zA-Z_0 -9]と同 じです。 ¥d 任 意 の数 字 に一 致 します。[0-9]と同 じです。 ¥D 任 意 の数 字 以 外 の文 字 に一 致 します。[^0-9]と同 じです。 ¥s 任 意 のスペース文 字 に一 致 します。[ ¥t¥r¥n¥f]と同 じです。

(11)

11

¥S 任 意 の非 スペース文 字 に一 致 します。[^ ¥t¥r¥n¥f]と同 じです。

入 力 文 :

All human beings are born free and equal in dignity and rights. 正 規 表 現 検 索 :[e-h] (e, f, g, h, i に一 致 )

All {*h*}uman b{*e*}in{*g*}s ar{*e*} born {*f*}r{*e*}{*e*} and {*e*}qual in di{*g*}nity and ri{*g*}{*h*}ts.

正 規 表 現 検 索 :[^a-v] (a-v 以 外 に一 致 )

All{* *}human{* *}beings{* *}are{* *}born{* *}free{* *}and{* *}equal{* *}in{* *}dignit{*y*}{* *}and{* *}rights{*. *}

正 規 表 現 検 索 :[c-i] (c, d, e, f, g, h, i に一 致 )

All human beings are born free and equal in dignity and rights. 結 果 正 規 表 現 検 索 :[^c-i](c, d, e, f, g, h, i 以 外 に一 致 ) All human beings are born free and equal in dignity and rights.

選 択 、 グ ル ー プ 化 、 繰 り 返 し | 複 数 の 句 を 1 つ の 正 規 表 現 に ま と め 、こ れ ら の う ち の 任 意 の 句 に 一 致 し ま す 。 た と え ば 、 d(os|a) は dos ま た は da に 一 致 し ま す 。 ¥ba¥b|¥bthe¥b の よ う に (…)で も 使 う こ と が で き ま す 。 (…) 複 数 の 句 を グ ル ー プ 化 し て 1 つ の 句 を 作 成 し ま す 。(ab)*c は abc ま た は c に 一 致 し ま す 。

+ 1 個 以 上 の 直 前 の 文 字 に 一 致 し ま す 。{1,}と 同 じ で す 。e+で e, ee, eee, …に 一 致 し ま す 。

* ゼ ロ 個 以 上 の 直 前 の 文 字 ま た は ぐ る に 一 致 し ま す 。{0,}と 同 じ で す 。

ah*で a, ah, ahh, …に 一 致 し ま す 。

? ゼ ロ 個 ま た は 1 個 の 直 前 の 文 字 に 一 致 し ま す 。 {0,1}と 同 じ で す 。

books?で book と books に 一 致 し ま す 。

{a} 先 行 す る 正 規 表 現 a 個 に 一 致 し ま す 。 [aeoiu]{2}で 2 母 音 の連 続 (ei,

ee, ua など)に一 致 します。

{a,} 先 行 す る 正 規 表 現 a 個 以 上 の 直 前 の 文 字 に 一 致 し ま す 。 [aeoiu]{3,}

(12)

12

{a,b} 先 行 す る 正 規 表 現 a 個 以 上 、b 個 以 下 に 一 致 し ま す 。[aeoiu]{2, 4}で

2-4 母 音 の連 続 (ei, aei, uai, auuu など)に一 致 します。 正 規 表 現 検 索 (free|equal) (free と equal に一 致 )

All human beings are born {*free*} and {*equal*} in dignity and rights . 正 規 表 現 検 索 [e-h]+ ([e-h]の連 続 に一 致 )

All {*h*}uman b{*e*}in{*g*}s ar{*e*} born {*f*}r{*ee*} and {*e*}qual in di{*g*}nity and ri{*gh*}ts.

正 規 表 現 検 索 [aeoiu]{2} (2 母 音 の連 続 )

All human b{*ei*}ngs are born fr{*ee*} and eq{*ua*}l in dignity and rights . 結 果 3 正 規 表 現 検 索 [^aeoiu]{2,} ( 母 音 以 外 の文 字 2 個 以 上 の 連 続 に一 致 )

A{*ll h*}uma{*n b*}ei{*ngs *}are{* b*}o{*rn fr*}ee a{*nd *}equa{*l *}i{*n d*}i{*gn*}i{*ty *}a{*nd r*}i{*ghts.*}

エ ス ケ ー プ 文 字

特 殊 文 字 の 検 索 (, ), [, ], {, }, ?, !, .(ピ リ オ ド ), +, *, |, ¥を 探 す と き は ,そ の 前 に ¥を つ け て エ ス ケ ー プ し ま す 。た と え ば ¥?で ク エ ス チ ョ ン マ ー ク を 検 索 し ま す 。

入 力 文 :

¿Cómo está usted?

正 規 表 現 ¥?( ク エ ス チ ョ ン マ ー ク ) ¿Cómo está usted?

置 換 文 字

正 規 表 現 の 後 方 参 照 を 使 うと、 検 索 式 の 一 部 を 参 照 する ことがで き ます。句 を 括 弧 で囲 み、$の後 に 1 つの数 字 を続 けることによってその句 を指 定 します。

$n 検 索 パタンの n 番 目 の(…)に一 致 した文 字 列 $$ $という文 字

(13)

13 入 力 文 :

Rumi: Hola, profesor.Prof. Rubio: Buenos di/as.Rumi: Buenos di/as. Nos encontramos ahora en la Universidad [[Complutense]] de Madrid. ¿Dónde nos vamos ahora?

Prof.: Bueno, vamos a iniciar hoy el [[Camino]] del [[Cid]], la primera parte.

正 規 表 現 : HTML コ ー ド を 作 成 し ま す 。 a/=>á e/=>é i/=>í ó=>ó ú=>ú 正 規 表 現 :([aeiou])/=>&$1acute;:上 の連 立 式 を折 りたたみます。

Rumi: Hola, profesor.Prof. Rubio: Buenos días.Rumi: Buenos días. Nos encontramos ahora en la Universidad Complutense de Madrid. ¿Dónde nos vamos ahora? Prof.: Bueno, vamos a iniciar hoy el Camino del Cid, la primera parte.

正 規 表 現 : #(c%)=>[[$1]](c で始 まる語 を[[...]]でマークします。)

Rumi: Hola, profesor.Prof. Rubio: Buenos días.Rumi: Buenos días. Nos encontramos ahora en la Universidad [[Complutense]] de Madrid. ¿Dónde nos vamos ahora?

Prof.: Bueno, vamos a iniciar hoy el [[Camino]] del [[Cid]], la primera parte. 次 は 中 世 ス ペ イ ン 語 の 資 料 を 文 字 化 し た 資 料 で す 。

Otro(22)ssí mando que los mene strales non echen suerte en el judgado por seer juezes, ca el juez deve tener la seña, e tengo que si <a> afruenta viniesse o a logar de periglo e omne vil o rafez toviesse la seña que podrié (23) caer el concejo en grant onta e en grant vergüença.

(22)は 語 の 途 中 で 改 行 さ れ ssí 以 下 が 22 行 目 に な る こ と を 示 し て い ま す 。 文 法 研 究 の た め に は 、こ れ を Otrossí (22)に す る 必 要 が あ り ま す 。こ れ は 次 の 置 換 式 に よ っ て 実 現 で き ま す 。

(14)

14 正 規 表 現 : (¥(¥d+¥))(&)=>$2 $1

Otrossí (22) mando que los menestrales non echen suerte en el judgado por seer juezes, ca el juez deve tener la seña, e tengo que si <a> afrue nta viniesse o a logar de periglo e omne vil o rafez toviesse la seña que podrié (23) caer el concejo en grant onta e en grant vergüença.

後 方 参 照 後 方 参 照 を 使 う こ と で 式 の 内 容 を 記 憶 さ せ 、 そ れ を 後 か ら 参 照 さ せ る こ と が で き ま す 。 (...)¥n 検 索 文 字 列 の (...)の 式 に 一 致 し た 文 字 列 が 記 憶 さ れ 、そ れ を n 回 繰 り 返 し て 参 照 し ま す 。 (...)...(...)=>$ n 検 索 文 字 列 の (...)の 式 に 一 致 し た 文 字 列 が 記 憶 さ れ 、置 換 文 字 列 で そ れ を 参 照 し て 再 生 し ま す 。 n は (...)の 順 番 に 対 応 す る 番 号 で す 。 入 力 文 : ど ん ど ん テ ー マ が 広 が っ て 、 ま す ま す 興 味 が わ い て き た 。 正 規 表 現 : (..)¥1:2 文 字 が 2 回 繰 り返 す文 字 列 ど ん ど ん テ ー マ が 広 が っ て 、 ま す ま す 興 味 が わ い て き た 。 参 照 す る 文 字( 列 )が わ か っ て い る と き は 、検 索 式 を た と え ば「 (ど ん ){2}」 の よ う に す る こ と が で き ま す が 、こ こ で は 他 に も「 ま す ま す 」「 ぐ ん ぐ ん 」 の よ う に 、 さ ま ざ ま に 変 化 す る 場 合 を 想 定 し て い ま す 。 ¥1 が 先 行 す る (..) を 後 方 か ら 参 照 し て い ま す 。

2.2.2. 拡張正規表現

特 殊 文 字 を 再 定 義 LETRAS.xls m で は 一 般 の 正 規 表 現 を 拡 張 し て 次 の 検 索 字 を 再 定 義 し ま す 。 # 単 語 の 境 界 : #b%は b で 始 ま る 単 語 を 検 索 し ま す 。 & 単 語 文 字 1 個 以 上 ¥l+ % 単 語 文 字 0 個 以 上 ¥l* ¥l 西 欧 語 単 語 文 字 [A-Za-zÀ-ǿ]

(15)

15 ¥L 西 欧 語 単 語 文 字 以 外 [^A-Za-zÀ-ǿ] ¥i キ リ ル 文 字 ¥I キ リ ル 文 字 以 外 ¥g ギ リ シ ャ 文 字 ¥G ギ リ シ ャ 文 字 以 外 ¥e ハ ン グ ル ¥E ハ ン グ ル 以 外 ¥y CJK 互 換 漢 字 、 統 合 漢 字 、 漢 字 拡 張 文 字 ¥Y CJK 互 換 漢 字 、 統 合 漢 字 、 漢 字 拡 張 文 字 以 外 ¥v 母 音 文 字 [aeiouÀ-Æà-æÈ-Ëè-ëÌ-Ïì-ïÒ-Öò-öÙ-Üù-ü] ¥V 母 音 文 字 以 外 [^aeiouÀ-Æà-æÈ-Ëè-ëÌ-Ïì-ïÒ-Öò-öÙ-Üù-ü] ¥c 子 音 文 字 [bcdfghj-np-tv-zÇçÑñß] ¥C 子 音 文 字 以 外 [^bcdfghj-np-tv-zÇçÑñß] 単 語 の 境 界 拡 張 正 規 表 現 : #(m%)=>[$2]( 語 頭 の 単 語 境 界 #を 使 っ た 置 換 式 の 置 換 文 字 列 の ト ー ク ン の 数 字 は +1 と し て く だ さ い 。 )

Otro(22)ssí [mando] que los [menestrales] non echen suerte en el judgado por seer juezes, ca el juez deve tener la seña, e tengo que si <a> afruenta viniesse o a logar de periglo e omne vil o rafez toviesse la seña que pod rié (23) caer el concejo en grant onta e en grant vergüença .

拡 張 正 規 表 現 : (%[rs])#=>[$1]( 語 尾 の 単 語 境 界 #を 使 っ た 置 換 式 の 置 換 文 字 列 の ト ー ク ン の 数 字 は そ の ま ま に し て く だ さ い 。 )

Otro(22)ssí mando que [los] [menestrales] non echen suerte en el judgado [por] [seer] [juezes], ca el juez deve [tener] la seña, e tengo que si <a> afruenta viniesse o a [logar] de periglo e omne vil o rafez toviesse la seña que podrié (23) [caer] el concejo en grant onta e en grant vergüença.

日 本 語 文 字 の 再 定 義 日 本 語 文 字 を 検 索 す る と き は 、¥h( ひ ら が な ), ¥k( カ タ カ ナ ), ¥z( 漢 字 ), ¥j( 日 本 語 文 字 ) を 使 用 し ま す 。 ¥h ひ ら が な [ぁ -ん ー ] ¥H ひ ら が な 以 外 [^ぁ -ん ー ] ¥k カ タ カ ナ [ァ -ン ー ]

(16)

16 ¥K カ タ カ ナ 以 外 [^ァ -ン ー ] ¥z 漢 字 [一 -龥 々 〆 ] ¥Z 漢 字 以 外 [^ 一 -龥 々 〆 ] ¥j 日 本 語 文 字 [ぁ -ん ァ -ン ー 一 -龥 々 〆 ] ¥J 日 本 語 文 字 以 外 [^ぁ -ん ァ -ン ー 一 -龥 々 〆 ] 入 力 文 : 親 譲 り の 無 鉄 砲 で 小 供 の 時 か ら 損 ば か り し て い る 。 拡 張 正 規 表 現 ¥z{2}( 漢 字 2 文 字 の 連 続 ) {*親 譲 *}り の {*無 鉄 *}砲 で {*小 供 *}の 時 か ら 損 ば か り し て い る 。 拡 張 正 規 表 現 :¥z+( 1 個 以 上 の 漢 字 ) {*親 譲 *}り の {*無 鉄 砲 *}で {*小 供 *}の {*時 *}か ら {*損 *}ば か り し て い る 。 入 力 文 : 『 坊 っ ち ゃ ん 』 夏 目 漱 石 親 譲 り の 無 鉄 砲 で 小 供 の 時 か ら 損 ば か り し て い る 。小 学 校 に 居 る 時 分 学 校 の 二 階 か ら 飛 び 降 り て 一 週 間 ほ ど 腰 を 抜 か し た 事 が あ る 。な ぜ そ ん な 無 闇 を し た と 聞 く 人 が あ る か も 知 れ ぬ 。別 段 深 い 理 由 で も な い 。新 築 の 二 階 か ら 首 を 出 し て い た ら 、同 級 生 の 一 人 が 冗 談 に 、い く ら 威 張 っ て も 、そ こ か ら 飛 び 降 り る 事 は 出 来 ま い 。弱 虫 や ー い 。と 囃 し た か ら で あ る 。小 使 に 負 ぶ さ っ て 帰 っ て 来 た 時 、お や じ が 大 き な 眼 を し て 二 階 ぐ ら い か ら 飛 び 降 り て 腰 を 抜 か す 奴 が あ る か と 云 っ た か ら 、 こ の 次 は 抜 か さ ず に 飛 ん で 見 せ ま す と 答 え た 。 拡 張 正 規 表 現 ¥z*¥h+( 漢 字 と ひ ら が な : ±漢 字 + ひ ら が な ) 『 {*坊 っ ち ゃ ん *}』 夏 目 漱 石 {*親 譲 り の *}{*無 鉄 砲 で *}{*小 供 の *}{*時 か ら *}{*損 ば か り し て い る *}。 {* 小 学 校 に *}{* 居 る *}{* 時 分 学 校 の *}{* 二 階 か ら *}{* 飛 び *}{* 降 り て *}{* 一 週 間 ほ ど *}{*腰 を *}{*抜 か し た *}{*事 が あ る *}。{*な ぜ そ ん な *}{*無 闇 を し た と *}{*聞 く *}{*人 が あ る か も *}{*知 れ ぬ *}。{*別 段 深 い *}{*理 由 で も な い *}。{*新 築 の *}{*二 階 か ら *}{*首 を *}{*出 し て い た ら *}、{*同 級 生 の *}{* 一 人 が *}{*冗 談 に *}、{*い く ら *}{*威 張 っ て も *}、{*そ こ か ら *}{*飛 び *}{* 降 り る *}{*事 は *}{*出 来 ま い *}。{*弱 虫 や *}ー {*い *}。{*と *}{*囃 し た か ら で あ る *}。 {* 小 使 に *}{* 負 ぶ さ っ て *}{* 帰 っ て *}{* 来 た *}時 、 {* お や じ が *}{* 大 き な *}{* 眼 を し て *}{* 二 階 ぐ ら い か ら *}{* 飛 び *}{* 降 り て *}{* 腰 を

(17)

17 *}{*抜 か す *}{*奴 が あ る か と *}{*云 っ た か ら *}、{*こ の *}{*次 は *}{*抜 か さ ず に *}{*飛 ん で *}{*見 せ ま す と *}{*答 え た *}。 単 語 境 界 の あ る 検 索 式 を 使 用 す る と き は 次 の よ う な 検 索 置 換 式 に 変 換 し ま す 。 #a%  (^|$|¥L)a%=>$1{*a%*} %r#  %r(^|$|¥L)=>%r¥1 外 国 語 文 字 の 再 定 義 「 再 定 義 」と い う シ ー ト に は 次 の よ う な 設 定 を し て い ま す 。こ れ は 自 由 に 変 え る こ と が で き ま す 。 変 更 し た と き は 「 更 新 」 ボ タ ン を 押 し て く だ さ い 。 こ こ で 使 用 し て い る「 /, ", ~, `, ^」と い う 特 殊 記 号 を 検 索 す る と き は 前 に ¥を つ け て エ ス ケ ー プ し て く だ さ い 。

¥/

x128$

a/

á

e/

é

i/

í

ó

ó

ú

ú

A/

Á

E/

É

I/

Í

Ó

Ó

Ú

Ú

¥"

x128$

a"

ä

e"

ë

i"

ï

o"

ö

u"

ü

A"

Ä

E"

Ë

I"

Ï

O"

Ö

U"

Ü

(18)

18

x128$

"

¥~

x128$

a~

ã

e~

e

i~

i

o~

õ

u~

u

A~

Ã

E~

E

I~

I

O~

Õ

U~

U

x128$

~

¥`

x128$

a`

à

e`

è

i`

ì

o`

ò

u`

ù

A`

À

E`

È

I`

Ì

O`

Ò

U`

Ù

x128$

`

¥^

x128$

a^

â

e^

ê

i^

î

o^

ô

u^

û

A^

Â

E^

Ê

I^

Î

O^

Ô

(19)

19

U^

Û

x128$

^

前 後 の 条 件

-{{正規表現}}

検 索 文 字 列 の 前 後 に 付 加 し て 検 索 の 条 件 と し ま す 。 た と え ば 、 {{te }}va%は te と 空 白 に 続 く デ ー タ を 検 索 し ま す 。

2.3. 大小文字区別

「 大 小 文 字 区 別 」を チ ェ ッ ク し て 次 の 置 換 式 を 使 う と 小 文 字 で は じ ま る 語 だ け に マ ッ チ し ま す 。 (%e%)=><$1> (大 小 区 別 な し )

A la <recepción> <de> un <hotel> <madrileño> <llega> un <profesor> <extranjero> para participar como <conferenciante> <en> un <seminario> <sobre> Nutrición organizado por una <universidad> <de> <verano> con <sede> <en> <El> <Escorial>.

(%e%)=><$1> (大 小 区 別 あ り )

A la <recepción> <de> un <hotel> <madrileño> <llega> un <profesor> <extranjero> para participar como <conferenciante> <en> un <seminario> <sobre> Nutrición organizado por una <universidad> <de> <verano> con <sede> <en> El Escorial. (%E%)=><$1> (大 小 区 別 あ り )

A la recepción de un hotel madrileño llega un profesor extr anjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en <El> <Escorial>.

2.4. 単語目録

「 単 語 目 録 」を 選 択 す る と 単 語 を 単 位 に し て 置 換 し ま す 。次 の 例 で は 、(1:1) の In は P に 置 換 さ れ ま す が 、 (1:2)の inanis の in は 置 換 さ れ ま せ ん 。 大 量 の 単 語 を 置 換 し た り 検 索 す る と き は 単 純 一 致 や 正 規 表 現 と 比 べ て 処 理 が 高 速 に な り ま す 。 a=>A de=>DE en=>EN

(20)

20

A la recepción DE un hotel madrileño llega un profesor extranjero para participar como conferenciante EN un seminario sobre Nutrición organizado por una universidad DE verano con sede EN El Escorial.

こ の 検 索 式 は 正 規 表 現 で は な い の で 、 (a|de|en) の よ う に ま と め る こ と が で き ま せ ん 。 正 規 表 現 で は 、 #(a|de|en)#=>$1 <$2> $3 と し ま す 。

(21)

21

3. 二焦点 分析

正 規 表 現 で 指 定 す る 2 つ の 要 素 の 結 合 度 を 探 り ま す 。 語 形 変 化 が 多 い ラ テ ン 語 な ど で は 正 規 表 現 を 工 夫 す る こ と で 、 さ ま ざ ま な 語 の 組 み 合 わ せ を 実 現 で き ま す 。 語 形 変 化 が 比 較 的 少 な い 英 語 で も 、 た と え ば #ha(ve|s|d|ving)# に よ っ て 要 素 の 1 つ に have を 指 定 す る こ と が で き ま す 。結 合 度 を 示 す さ ま ざ ま な 係 数 を 同 時 に 出 力 し ま す 。

3.1. 共起係数

「 共 起 係 数 」の オ プ シ ョ ン を 選 択 す つ と 、2 つ の 要 素 は 同 じ セ ル の 中 に あ る 、 と い う 条 件 を 満 た し て い る か ぎ り 、ど れ だ け 間 隔 が 空 い て も か ま い ま せ ん 。

(22)

22

3.2. 間隔係数

「 間 隔 係 数 」は 2 つ の 要 素 の 間 に 指 定 し た 数 字 以 下 の 文 字 数 の デ ー タ が あ る と き の 回 数 を 計 算 し 、 そ れ を 共 起 回 数 と し ま す 。 3 つ の 係 数 を 比 較 す る と 、 接 係 数 よ り も 共 起 係 数 の ほ う が 「 共 起 回 数 」 が 多 く 、 間 隔 係 数 は 、 両 者 の 間 に な る こ と が わ か り ま す 。 間 隔 語 数 を 増 や す と 、 共 起 回 数 が 増 加 す る 可 能 性 が 高 く な り ま す 。 隣 接 係 数 <= 間 隔 係 数 <= 共 起 係 数

3.3. 順番を区別

ラ テ ン 語 は 語 順 が 比 較 的 自 由 な 言 語 で す 。 「 順 番 区 別 」 の チ ェ ッ ク の 有 無 に よ る 出 力 を 比 較 し ま し ょ う 。 次 は 「 文 」 の 中 で 順 番 を 区 別 し た と き と 、 二焦点分析:共起係数 全体 頻度 X: #(por|para)# 521 頻度 Y: &[aei]r# 882 a (X:+ / Y:+): #(por|para)#.*?&[aei]r# 395 b (X:+ / Y:-): #(por|para)# 126 c (X:- / Y:+): &[aei]r# 487 Total (N) 26,581 相互情報量 4.5140 Dice 2a/(2a+b+c) 0.5631 Jaccard a/(a+b+c) 0.3919 Ochiai a/√[(a+b)(a+c)] 0.5827 Ueda (2a-b-c)/(2a+b+c) 0.1262 二焦点分析:間隔係数・文字数100 全体 頻度 X: #(por|para)# 521 頻度 Y: &[aei]r# 882 a (X:+ / Y:+): #(por|para)#.{0,100}?&[aei]r# 387 b (X:+ / Y:-): #(por|para)# 134 c (X:- / Y:+): &[aei]r# 495 Total (N) 26,581 相互情報量 4.4845 Dice 2a/(2a+b+c) 0.5517 Jaccard a/(a+b+c) 0.3809 Ochiai a/√[(a+b)(a+c)] 0.5709 Ueda (2a-b-c)/(2a+b+c) 0.1033

(23)

23 区 別 し な い と き の 出 力 を 比 べ た も の で す 。 二要素共起分析:共起係数 順番区別 区別なし X: #domin(us|i|um)# の度数 164 164 Y: #de(us|i|um)# の度数 200 200 a (++) 共起回数(XY): #domin(us|i|um)#+#de(us|i|um)# 29 33 b (+-) 排他回数(X): #domin(us|i|um)# 135 131 c (-+) 排他回数(Y): #de(us|i|um)# 171 167 全度数 (N) 25,569 25,569 相互情報量(MI) 4.4987 4.6851 Dice 係数 2a/(2a+b+c) 0.1593 0.1813 Jaccard 係数 a/(a+b+c) 0.0866 0.0997 Cosine 係数 a/√[(a+b)(a+c)] 0.1601 0.1822 相対優先係数 [a/(a+b) + a/(a+c)])/2 0.1609 0.1831

参照

関連したドキュメント

が前スライドの (i)-(iii) を満たすとする.このとき,以下の3つの公理を 満たす整数を に対する degree ( 次数 ) といい, と書く..

このたび、第4回令和の年金広報コンテストを開催させていただきま

次に、第 2 部は、スキーマ療法による認知の修正を目指したプログラムとな

えて リア 会を設 したのです そして、 リア で 会を開 して、そこに 者を 込 ような仕 けをしました そして 会を必 開 して、オブザーバーにも必 の けをし ます

イヌワシは晩秋に繁殖行動を開始します。オスとメスが一緒に飛んだり、オス が波状飛行を繰り返します。その後、12月から

手動のレバーを押して津波がどのようにして起きるかを観察 することができます。シミュレーターの前には、 「地図で見る日本

*2 施術の開始日から 60 日の間に 1

欄は、具体的な書類の名称を記載する。この場合、自己が開発したプログラ