Excel VBA による
言語テキスト分析
ver. 2013.8.18 こ の 文 書 は 言 語 テ キ ス ト 分 析 プ ロ グ ラ ム 集 LETRAS.xlsm( 以 下 で は LETRAS と し ま す ) の 解 説 書 で す 。 LETRAS は 随 時 改 訂 し て い ま す の で 、 こ の 文 書 の 内 容 も 変 更 さ れ ま す 。 改 訂 内 容 に つ い て は 、 LETRAS の シ ー ト L を ご 覧 く だ さ い 。 ま た 、 使 用 し て お 気 づ き の 点 や 改 善 す べ き 点 な ど が あ り ま し た ら 、 ぜ ひ Top タ ブ の メ ー ル ア ド レ ス に お 知 ら せ く だ さ い 。 よ ろ し く お 願 い い た し ま す 。 上 田 博 人 (東 京 大 学 ) 20131
1. 開 始
1.1. 入力シート
LETRAS の フ ァ イ ル を 開 い て 、 マ ク ロ を 有 効 に し て か ら 、 シ ョ ー ト カ ッ ト [Ctrl] + [Shift] + L(エ ル )を 押 す と LETRAS の マ ク ロ が 起 動 し ま す 。次 は「 説 明 」 の タ ブ を 開 い た と こ ろ で す 。 LETRAS を 立 ち 上 げ る と 他 の Book を 開 い て か ら 、 シ ョ ー ト カ ッ ト で マ ク ロ を 起 動 す る と 、 そ の Book 内 の デ ー タ を 分 析 す る こ と が で き ま す 。 こ の フ ォ ー ム の タ イ ト ル バ ー ( 最 上 部 の 青 く な っ て い る 部 分 ) に 、 プ ロ グ ラ ム 名 (LETRAS …)、 最 小 化 ボ タ ン ( ― ) 、 最 大 化 ボ タ ン ( □ ) 、 終 了 ボ タ ン ( ×) が あ り ま す 。 分 析 中 に こ の フ ォ ー ム が 邪 魔 に な っ た と き は 最 小 化 ボ タ ン を 押 し て く だ さ い 。 そ し て 最 大 化 ボ タ ン を 押 す と 元 の 大 き さ に 戻 り ま す 。 終 了 ボ タ ン を 押 す と 、 フ ォ ー ム が 消 え ま す 。 再 度 立 ち 上 げ る と き は シ ョ ー ト カ ッ ト [Ctrl]+[Shift]+L で 起 動 し て く だ さ い 。 【 説 明 】の 下 に 作 成 者 の メ ー ル ア ド レ ス が 載 せ ら れ て い ま す 。プ ロ グ ラ ム の 不 具 合 や 改 善 点 な ど の ご 意 見 を お 寄 せ く だ さ い 。 な る べ く 多 く の 人 に 回 答2 を 差 し 上 げ ら れ る よ う に い た し ま す 。
LETRAS を 立 ち 上 げ て い れ ば 、 他 の Book も 分 析 で き ま す 。 Book 内 で LETRAS の ユ ー ザ ー フ ォ ー ム を 表 示 し て く だ さ い 。 こ の フ ォ ー ム は 次 の よ う な 共 通 の ベ ー ス の 上 に 、 さ ま ざ ま な タ ブ の つ い た ペ ー ジ が 載 せ ら れ て い ま す 。 RENEW 「 入 力 シ ー ト 」の リ ス ト ボ ッ ク ス を 現 在 の シ ー ト の 状 態 に 更 新 し ま す 。 Ip sheet: フ ォ ー ム の 左 下 に Ip sheet「 入 力 シ ー ト 」 の リ ス ト ボ ッ ク ス が あ り ま す 。 こ こ で 選 択 し た シ ー ト が さ ま ざ ま な 処 理 の 対 象 に な り ま す 。 1 つ の シ ー ト だ け で な く 、 複 数 の シ ー ト を 選 択 す る こ と も で き ま す 。 DELETE 表 示 さ れ て い る シ ー ト を 確 認 せ ず に 削 除 し ま す 。 Excel シ ー ト タ ブ を 複 数 選 択 す る と 、そ れ ら が 削 除 さ れ ま す 。
Output sheet name シ ー ト 名 を 最 終 列 に 出 力 し ま す 。
IpR wCnt: 現 在 の シ ー ト の 行 数 が 示 し す 。 こ れ が 入 力 ( 処 理 の 対 象 ) に な り ま す 。 IpR wNum 処 理 中 の 行 番 号 を 示 し ま す 。 随 時 変 わ り ま す 。 OpRwCnt 出 力 行 数 : 実 行 後 に 出 力 行 数 が 表 示 さ れ ま す 。 Exec Time 処 理 時 間 ( ミ リ セ カ ン ド ) が 表 示 さ れ ま す 。 EXEC 実 行 を 開 始 し ま す 。 WINDOW ウ ィ ン ド ウ を 開 き ま す 。入 力 シ ー ト は 左 ウ ィ ン ド ウ 、 出 力 シ ー ト は 右 ウ ィ ン ド ウ に 表 示 さ れ ま す 。 ウ ィ ン ド ウ を 開 か な け れ ば 、出 力 シ ー ト だ け を 表 示 し ま す 。 END 終 了 し ま す 。
次 は LETRAS の Excel シ ー ト に 載 せ た サ ン プ ル デ ー タ Sample で す 。
Row Text Title-1 Title-2 Par.
1 ●1 En el hotel 01 Hotel - 1
2 ■1 Madrid 01 Hotel 1 Madrid 1
3
A la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial. El profesor hablará con el conserje, pidiéndole información sobre los servicios del hotel, así como sobre posibles visitas turísticas por la región.
01 Hotel 1 Madrid 2
4– ¡Buenos días! Desearía una habitación individual para estar tres noches. ¿Qu
3 Sample は ス ペ イ ン 語 圏 各 地 の 会 話 例 で す 。 デ ー タ は 、 こ の Sample の よ う に 、 初 め の 1 行 を タ イ ト ル 行 と し ま す 。 A 列 は 行 番 号 で 、 2 を 開 始 番 号 と し ま す 。 B 列 が テ キ ス ト 、 C 列 以 降 は そ れ ぞ れ の 行 に つ い て の 付 加 情 報 で す 。
1.2. ウィンドウ
「 WINDOW」 ボ タ ン を 押 す と 「 左 右 二 面 」 と 「 一 面 」 の オ プ シ ョ ン が 順 次 変 わ り ま す 。 「 左 右 二 面 」 は 入 力 シ ー ト と 出 力 シ ー ト を 同 時 に 見 た る と き に 使 い ま す 。 図 : ウ ィ ン ド ウ1.3. 実行
「 説 明 」以 外 の タ ブ で 実 行 が 可 能 で す 。時 間 が か か る 処 理 を 中 止 す る と き は 、 [Esc]キ ー を 押 し て く だ さ い 。1000 行 以 上 の 大 量 の デ ー タ を 出 力 す る と き は 「 出 力 行 数 」 が 1000 行 ご と に 更 新 さ れ ま す 。1.4. 消去
出 力 し た シ ー ト が 不 要 で あ る と き は 「 DEL 消 去 」 ボ タ ン で 削 除 し ま す 。 複 数 の シ ー ト の タ ブ を 選 択 す る と 、 そ れ ら が 削 除 さ れ ま す 。1.5. 更新
現 在 の シ ー ト を 入 力 シ ー ト に す る と き 、 シ ー ト が 増 え た と き 、 正 規 表 現 の 「 再 定 義 」の シ ー ト を 変 更 し た と き に「 RENEW 更 新 」ボ タ ン を 押 し て く だ4 さ い 。
1.6. 終了
5
2. 準備・ 調整
「 準 備・調 整 」の タ ブ に 移 動 し て く だ さ い 。こ こ で 言 語 資 料 整 理 の 準 備 を し ま す 。2.1. インポート
こ れ か ら 行 う 言 語 テ キ ス ト 分 析 を 行 う た め に 、 は じ め に 言 語 資 料 ( コ ー パ ス ) を 用 意 し な け れ ば な り ま せ ん 。 自 分 が 持 っ て い る 言 語 デ ー タ や 自 分 が 作 成 し た 言 語 デ ー タ を Excel の シ ー ト 上 に コ ピ ー し て 言 語 資 料 を 作 成 し ま し ょ う 。 た と え ば 次 の よ う な 形 式 の フ ァ イ ル を Excel に 読 み 込 む こ と が で き ま す 。6
2.1.1. 段 落で改 行
は じ め に 次 の よ う な テ キ ス ト を シ ョ ー ト カ ッ ト キ ー [Ctrl]+C で 「 コ ピ ー 」 し て く だ さ い 。
1.1 Madrid
A la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial. El profesor hablará con el conserje, pidiéndole información sobre los servicios del hotel, así como sobre posibles visitas turísticas por la región.
コ ピ ー ・ ア ン ド ・ ペ ー ス ト と い う 作 業 を す る と き は 、 は じ め に コ ピ ー す る 対 象 を 選 択 し1、リ ボ ン の「 ホ ー ム 」→「 コ ピ ー 」を ク リ ッ ク し ま す 。こ の 瞬 間 に 選 択 さ れ た 内 容 が「 ク リ ッ プ ボ ー ド 」に 入 り ま す2。次 に「 実 行 ボ タ ン 」 を 押 す と 次 の よ う な 結 果 に な り ま す 。
Row Text Par.
1 1.1 Madrid 1
2
A la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial. El profesor hablará con el conserje, pidiéndole información sobre los servicios del hotel, así como sobre posibles visitas turísticas por la región.
2
2.1.2. 文 末で改 行
「 Carriage return (改 行 す る 位 置 )」 で 「 C.R. in Sen. (文 末 で 改 行 )」 を 選 択 す る と 、 和 文 や 欧 文 の 文 末 で 改 行 し ま す 。 次 の よ う に 改 行 し て 区 切 ら れ た デ 1 対 象 の フ ァ イ ル 名 を マ ウ ス で ド ラ ッ グ し た り 、 [Shift] キ ー を 押 し な が ら → や ↓ な ど の カ ー ソ ル 移 動 キ ー を 押 す と 選択状態になります。全 部 選 択 す る と き は [Ctrl]+A を 押 し ま す 。 2 ふ つ う ク リ ッ プ ボ ー ド は 見 え ま せ ん が 、そ れ を「 貼 り 付 け 」( ペ ー ス ト ) す る こ と に よ っ て 内 容 が わ か り ま す 。 「 コ ピ ー 」 の シ ョ ー ト カ ッ ト キ ー は [Ctrl]+C, 「 ペ ー ス ト 」は [Ctrl]+V で す 。こ の よ う に 頻 繁 に 行 う 動 作 は な る べ く シ ョ ー ト カ ッ ト キ ー を 使 う こ と を 勧 め ま す 。
7 ー タ が 別 々 の セ ル に 配 置 さ れ ま す 。
2.1.3. 段 落と文 末で改 行
「 C.R. in Par. & Sen.(段 落 と 文 末 )」 を 選 択 す る と 、 和 文 や 欧 文 の 文 末 で 改 行 し ま す 。 段 落 番 号 と 文 番 号 を 出 力 し ま す 。
2.1.4. カ ラムを 指定
次 の よ う な 形 式 ( #…( 見 出 し 番 号 )...:( コ ロ ン )…( 見 出 し )) の フ ァ イ ル を Excel に 読 み 込 む こ と が で き ま す 。 #ID:0001 #Año:1251 #Lugar:SevillaCoñocida cosa sea a todos los que esta carta vieren cómo yo don Ferrando, por la gracia de Dios rey de Castiella, de Toledo, de León, de Gallizia, de Sevilla, de Córdova, de Murcia e de Jaén, embié mis cartas a vós el concejo de Guadalfajara que embiássedes vuestros omnes buenos de vuestro concejo a mí, por cosas que avía de veer e de fablar convusco por buen paramiento de vuestra villa. (…)
#ID:0002 #Año:1260 #Año:Córdova
Row Text Sen.
1 1.1 Madrid 1
2
A la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial.
1
3 El profesor hablará con el conserje, pidiéndole información sobre los servicios del hotel, así como sobre posibles visitas turísticas por la región. 2
Row Text Par. Sen.
1 1.1 Madrid 1 1
2
A la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial.
2 1
3 El profesor hablará con el conserje, pidiéndole información sobre los servicios del
8
Sepan todos los ombres que esta carta vieren e oyeren cómo nós don Alfonso, por la gracia de Dios rey de Castiella, de Toledo, de León, de Gallicia, de Sevilla, de Córdova, de Murcia, de Jaén e del Algarve, en uno con la reína doña Yolant mi mugier, e con nuestro fijo el infante don Fernando primero heredero, e (…) (1)「 #数 字 :」 は テ キ ス ト の 属 性 を 示 し ま す 。 #1 は 第 1 カ ラ ム に コ ロ ン (:) 以 下 に あ る デ ー タ が 入 る こ と を 示 し ま す 。 #2 以 下 も 同 様 で す 。 「 #数 字 :」 が な い 行 を テ キ ス ト と し ま す 。 次 が 実 行 結 果 で す 。 (2) 階 層 化 さ れ た テ キ ス ト を イ ン ポ ー ト す る と き は 、 次 の よ う に 階 層 の 内 容 が 変 わ る 場 所 だ け を 指 定 し ま す 。 #CAPÍTULO:1 Hotel #CIUDAD:1 Madrid
A la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial. (...)
#CIUDAD:2 Sevilla
En la recepción de un hotel llega un viajero que viene atraído por el turismo para conocer la ciudad de Sevilla, debido a que tuvo la oportunidad de conocer la promoción de la misma en su país por medio de la televisión y la prensa. (...) 次 が 実 行 結 果 ( 段 落 と 文 末 で 改 行 ) で す 。
TX ID Año Lugar
Coñocida cosa sea a todos los que esta carta vieren cómo yo don Ferrando, por la gracia de Dios rey de Castiella, de Toledo, de León, de Gallizia, de Sevilla, de Córdova, de Murcia e de Jaén, embié mis cartas a vós el concejo de Guadalfajara que embiássedes vuestros omnes buenos de vuestro concejo a mí, por cosas que avía de veer e de fablar convusco por buen paramiento de vuestra villa. (…)
1 1251 Sevilla
Sepan todos los ombres que esta carta vieren e oyeren cómo nós don Alfonso, por la gracia de Dios rey de Castiella, de Toledo, de León, de Gallicia, de Sevilla, de Córdova, de Murcia, de Jaén e del Algarve, en uno con la reína doña Yolant mi mugier, e con nuestro fijo el infante don Fernando primero heredero, e (…)
9
2.2. 配置
2.2.1. 並 列配置
[Parallel position]を 選 択 し て 、 縦 に 並 ん だ デ ー タ を そ の A 列 と B 列 の 内 容 に し た が っ て 横 に 並 べ か え ま す 。 ち ょ う ど 2 次 元 の 座 標 の よ う に 、 A 列 で 行 を 決 め 、 B 列 で 列 を 決 め ま す 。 こ れ は 日 本 語 と 英 語 な ど を 比 較 し な が ら 分 析 す る た め に 有 用 で す 。 入 力 : TX CAPÍTULOCIUDADA la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial. (...)
1 Hotel 1 Madrid En la recepción de un hotel llega un viajero que viene atraído por el
turismo para conocer la ciudad de Sevilla, debido a que tuvo la
oportunidad de conocer la promoción de la misma en su país por medio de la televisión y la prensa. (...)
1 Hotel 2 Sevilla
1 ●1 En el hotel 01 Hotel - 1
2 ■1 Madrid 01 Hotel 1 Madrid 1
3
A la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial. El profesor hablará con el conserje, pidiéndole informaci ón sobre los servicios del hotel, así como sobre posibles visitas turísticas por la región.
01 Hotel 1 Madrid 2
4– ¡Buenos días! Desearía una habitación individual para estar tres noches. ¿Qué precio
10 出 力 :
2.2.2. 直 列配置
逆 に 、 横 に 並 ん だ 資 料 を 縦 に 並 び 替 え る プ ロ グ ラ ム [Serial position]も 有 用 で す 。 入 力 : 並 列 配 置 の 出 力 出 力 : 並 列 配 置 の 入 力2.2.3. 列 幅自動 調整
[Active sheet automatic colum n adjustment ]を 選 択 す る と 、 す べ て の 列 幅 を 自 動 で 調 整 し ま す 。 最 大 列 幅 は [Size]で 指 定 し て く だ さ い 。
2.2.4. フ ォント の指定
[Active sheet font]を 選 択 す る と 、 デ ー タ を そ れ ぞ れ の コ ン ボ ボ ッ ク ス で 選 択 し た フ ォ ン ト と サ イ ズ [Size]に 変 更 し ま す 。
Row Column Text 1 1 Row 1 2 Text 1 3 Title-1 1 4 Title-2 1 5 Par. 2 1 1 2 2 ●1 En el hotel 2 3 01 Hotel 2 4 -2 5 1 3 1 2 3 2 ■1 Madrid 3 3 01 Hotel 3 4 1 Madrid 3 5 1 4 1 3 4 2
A la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial. El profesor hablará con el conserje, pidiéndole información sobre los servicios del hotel, así como sobre posibles visitas turísticas por la región.
11
3. 結 合と 分離
3.1. 複数のシートを結合
「 Unite selected sheets (選 択 し た シ ー ト を 結 合 )」で 複 数 の シ ー ト を 連 続 さ せ て 1 つ の シ ー ト に 結 合 さ せ ま す 。 リ ス ト ボ ッ ク ス 「 入 力 シ ー ト 」 で 複 数 の シ ー ト を 選 択 し て く だ さ い 。 こ こ で は Sample と Sample-2 を 選 択 し ま す 。
12 Sample-2
出 力 :
3.2. 選択列によってシートを分離
「 Separate sheet by selected column (選 択 列 に よ っ て シ ー ト を 分 離 )」 に よ っ て 選 択 さ れ た 列 に あ る デ ー タ を 基 準 に し て 異 な る シ ー ト に 分 離 し ま す 。 選 択 さ れ た デ ー タ の 種 類 が 多 い と 、 そ の 数 だ け シ ー ト が 作 成 さ れ て し ま う の で 、 最 大 シ ー ト 数 の 初 期 値 を 10 と し て あ り ま す 。 入 力 : 3.1.の 出 力 シ ー ト ( D 列 を 選 択 し ま す 。 ) 出 力 : 3.2 の 入 力 シ ー ト
3.3. 列の結合
隣 接 し た 複 数 の 列 を 選 択 し 、 そ れ ら を マ ー ク ( [Mark]で 指 定 ) を つ け て 結 合 し ま す 。 入 力 : CD 列 を 選 択Row Text Title-1 Title-2 Par.
981 ●10 Reunión de amigos. Despedida 10 Despedida - 1
982 ■1 Madrid 10 Despedida 1 Madrid 1
983
En casa de la familia García Gutiérrez tiene lugar una reunión entre amigos para darle la bienvenida a Selene, una amiga venida de Salta, Argentina, que ha obtenido una beca para la Universidad de Salamanca. Aprovechando su estancia en España, Selene ha viajado hasta Madrid para visitar a su amigo a quien había conocido el año anterior en un congreso en México y para conocer a su familia. Al día siguiente, los García Gutiérrez organizan una reunión de amigos para presentarles a su invitada, y aquélla se desarrolla en un ambiente muy cordial.
10 Despedida 1 Madrid 2
984 – ¡Hola, Gonzalo! ¡Gracias por venir! Te presento a Selene, nuestra amiga que ha llegado de Argentina. 10 Despedida 1 Madrid 3
Row Text Title-1 Title-2 Par.
1 ●1 En el hotel 01 Hotel - 1
2 ■1 Madrid 01 Hotel 1 Madrid 1
3
A la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial. El profesor hablará con el conserje, pidiéndole informaci ón sobre los servicios del hotel, así como sobre posibles visitas turísticas por la región.
13 出 力 :
3.4. 列を横に分離
1 列 の 中 に あ る デ ー タ を マ ー ク に よ っ て 要 素 の 数 だ け 複 数 の 列 に 分 離 し ま す 。 入 力 : 3.3.の 出 力 シ ー ト 出 力 : 3.3.の 入 力 シ ー ト3.5. 列を縦に分離
マ ー ク に よ っ て 1 列 を 複 数 の 列 に 分 離 し 、 要 素 の 数 だ け 縦 に 並 べ て 出 力 し ま す 。 次 は 分 離 す る マ ー ク と し て コ ン マ (,)を 指 定 し ま し た 。 位 置 は 「 Last position (最 終 位 置 )」 で す 。Row Text Title-1/Title-2 Par.
981 ●10 Reunión de amigos. Despedida 10 Despedida/- 1
982 ■1 Madrid 10 Despedida/1 Madrid 1
983
En casa de la familia García Gutiérrez tiene lugar una reunión entre amigos para darle la bienvenida a Selene, una amiga venida de Salta, Argentina, que ha obtenido una beca para la Universidad de Salamanca. Aprovechando su estancia en España, Selene ha viajado hasta Madrid para visitar a su amigo a quien había conocido el año anterior en un congreso en México y para conocer a su familia. Al día siguiente, los García Gutiérrez organizan una reunión de
10 Despedida/1 Madrid 2
Row Text Title-1 Title-2 Par.
981 ●10 Reunión de amigos. Despedida 10 Despedida - 1
982 ■1 Madrid 10 Despedida 1 Madrid 1
983 En casa de la familia García Gutiérrez tiene lugar una reunión entre amigos para
darle la bienvenida a Selene, 10 Despedida 1 Madrid 2 983 una amiga venida de Salta, 10 Despedida 1 Madrid 2
14
4. 並 べ替 え
デ ー タ の 並 べ 替 え は Excel で 頻 繁 に 行 う 作 業 で す が 、 言 語 研 究 で よ く 使 う 「 逆 引 き 」配 列 は Excel に よ る 並 べ 替 え で は で き ま せ ん 。LETRAS の「 並 べ 替 え 」 の タ ブ で 、 そ れ を 可 能 に し ま し た 。 ま た 、 Excel で は 途 中 に 空 白 が あ る 列 の 全 体 は 並 べ 替 え が で き ま せ ん が 、 こ れ も 可 能 に し ま し た 。 「 並 べ 替 え 」の テ キ ス ト ボ ッ ク ス に 列 A, …., Z(大 文 字 )を 指 定 し て く だ さ い 。 複 数 あ る と き は 改 行 し て く だ さ い 。4.1. 一般的な並べ替え(g)
は じ め に 一 般 的 な 並 べ 替 え に よ る 整 列 を し て み ま し ょ う 。 昇 順 の 場 合 は 、15 た と え ば A の よ う に「 第 1 キ ー 」だ け を 選 択 し ま す 。逆 引 き で な い 一 般 的 な 並 べ 替 え は g を 指 定 し ま す が (Ag)、 こ れ は デ フ ォ ル ト な の で 指 定 し な く て も か ま い ま せ ん (A)。数 字 は 文 字 の 順 番 で は な く 、数 の 大 小 を 基 準 に し ま す 。た と え ば 、 2, 1, 11 の 昇 順 は 1, 2, 11 で あ り 、1, 11, 2 と い う( 文 字 の ) 順 番 に な り ま せ ん 。 出 力 :
4.2. 逆引き配列による並べ替え(r)
対 象 の 文 字 列 の 逆 引 き 配 列 に よ る 整 列 を し ま す 。 語 尾 に よ る 語 形 変 化 な ど の 分 析 に 役 立 ち ま す 。 B 列 を 逆 引 き に す る と き は Br の よ う に 指 定 し ま す 。 出 力 :4.3. その他の指定(n, d, s)
数 値 の 並 べ 替 え は n を 指 定 し て く だ さ い 。 降 順 は d を 指 定 し 、 大 小 文 字 を 区 別 す る と き は s を 指 定 し ま す 。 た と え ば A 列 を 数 値 (n)と し て 、 降 順 (d) で 並 べ 替 え る と き は 、 テ キ ス ト ボ ッ ク ス に And と 指 定 し ま す 。 n, d, s の 順 は 自 由 で す 。 「 並 べ 替 え 」は 新 シ ー ト に 出 力 す る か 、現 シ ー ト に 上 書 き 出 力 す る か を 選 択 で き ま す 。 現 シ ー ト に 上 書 き す る と き は 、 「 新 シ ー ト に 出 力 」 の チ ェ ッ ク を 外 し て く だ さ い 。Row Text Title-1 Title-2 Par.
987 – ¡Ah!, ya, ¡qué bien! ¿y cuánto tiempo vas a estar? 10 Despedida 1 Madrid 6 1020 – ¡Ah, caramba, qué interesante! ¿Y vas a estar mucho tiempo? 10 Despedida 2 Sevilla 6
1038
– ¡Ah, la tortilla de papas! ¡Eso es la mar de fácil también! ¡Y además se hace en muy poco tiempo! Primero fríes las papas con las cebollas en una sartén con mucho aceite y cuando las saques de la sartén te esperas un poco para que se enfríen. Bates un par de huevos, lo vuelves a echar todo a la sartén con un poquito más de aceite, al poco le das la vuelta,... y ya está.
10 Despedida 2 Sevilla 24
Row Text Title-1 Title-2 Par.
1077 – ¡Claro que sí! ¡Un día de estos te caemos por allá! 10 Despedida 3 México 30
1005
– ¡Ah, la tortilla de patatas! ¡Es facilísima! ¡Y muy rápida de hacer! Pues mira, s ólo tienes que freír en abundante aceite, las patatas a las que puedes añadir la cebolla picada. Una vez que esto ya está hecho, lo sacas de la sartén y lo retiras. Bates unos huevos y los añades a lo anterior, vuelves a echarlo todo en la sartén, ahora con un poquito aceite, nada más y... ¡a darle la vuelta a la tortilla!
10 Despedida 1 Madrid 24
16
5. キ ーワ ード 分 析
「 KeyWord(キ ー ワ ー ド )」の タ ブ に は 、「 Repl.(置 換 )」「 Sch.(検 索 )」「 Extr.(抽 出 )」「 Excl.(除 外 )」「 Index(索 引 )」「 KWOC(外 置 )」「 KWIC(内 置 )」「 Seq.(連 続 )」 「 Cross(ク ロ ス 集 計 )」 の 機 能 が あ り ま す 。 そ れ ぞ れ 、 「 Regular Expression(正 規 表 現 )」と「 Word List( 単 語 目 録 )」に よ っ て 、Search formula( 検 索 式 )の 解 釈 が 異 な り ま す 。 上 下 に 並 ん だ テ キ ス ト ボ ッ ク ス の 、 上 テ キ ス ト ボ ッ ク ス で 指 定 し た 検 索 式 が 、 LETRAS 拡 張 正 規 表 現 に 「 再 解 釈 」 さ れ 、 下 テ キ ス ト ボ ッ ク ス に 表 示 さ れ ま す 。 再 解 釈 に つ い て は 後 述 し ま す 。 「 Clear(検 索 式 ク リ ア )」 の ボ タ ン を 押 す と テ キ ス ト ボ ッ ク ス が 空 白 に な り ま す 。 左 に あ る ス ピ ン ボ タ ン に よ っ て 、 2 つ の テ キ ス ト ボ ッ ク ス の 領 域 を 変 え る こ と が で き ま す 。
17 A 列 に 行 番 号 、 最 終 列 に シ ー ト 名 ( ま た は A 列 の 行 番 号 の み ) が あ る 行 を 選 択 し 、入 力 面 ボ タ ン を 押 す と 、そ の 入 力 シ ー ト の 該 当 行 を 表 示 し ま す 。2 つ の ウ ィ ン ド ウ 間 で も 作 動 し ま す 。 ふ つ う は「 C.sensitive(大 小 文 字 区 別 )」を し ま せ ん が 、大 小 文 字 を 区 別 す る と き は こ れ を チ ェ ッ ク し て く だ さ い 。「 Repl.(置 換 )」と「 Sch.(検 索 )」で「 Bg. color(背 景 色 )」 を チ ェ ッ ク す る と 該 当 す る セ ル に 色 が 塗 ら れ ま す 。 「 Full op.(全 出 力 )」 を チ ェ ッ ク す る と す べ て の 置 換 、 検 索 の 結 果 が 出 力 さ れ 、 チ ェ ッ ク を 外 す と 、 置 換 、 検 索 さ れ た 行 だ け が 出 力 さ れ ま す 。
5.1. 置換
Excel の 置 換 の 機 能 は 限 ら れ て い ま す 。 LATR AS で は 正 規 表 現 を 含 め た さ ま ざ ま な 検 索 式 を 使 っ て 、 言 語 テ ク ス ト を 分 析 に 適 し た 形 に 置 換 す る こ と が で き ま す 。置 換 を す る と き の 検 索 式 は A=>B の よ う に「 =>」を 使 い ま す 。 こ れ の 左 辺 に マ ッ チ し た 文 字 列 が が 右 辺 の 形 式 に 置 換 さ れ ま す 。 以 下 で は 次 の デ ー タ を サ ン プ ル と し ま す 。A la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial.
5.1.1. 正 規表現
「 Search formula: (検 索 式 )」 で 「 Regular expression(正 規 表 現 )」 を 選 択 し ま す 。 た と え ば 次 の 正 規 表 現 の 検 索 式 を 使 う と r に 続 く 英 数 字 の 連 続 が <R> に 置 換 さ れ ま す 。こ こ で 、¥w は 英 単 語 の 使 用 文 字 な ど を 示 し 、ア ス テ リ ス ク (*)は「 直 前 の 正 規 表 現 の ゼ ロ 回 以 上 」に マ ッ チ す る 文 字 連 続 を 示 し ま す 。 r¥w*=><R>
A la <R>ón de un hotel mad<R>ño llega un p<R> ext<R> pa<R> pa<R> como confe<R> en un semina<R> sob<R> Nut<R>ón o<R> po<R> una unive<R> de ve<R> con sede en El Esco<R>.
一 般 正 規 表 現 は ス ペ イ ン 語 の ó な ど は 単 語 文 字 と し て 認 識 さ れ て い ま せ ん 。 そ こ で 、 英 語 以 外 の 言 語 で は 一 般 の 正 規 表 現 を 拡 張 し て 再 定 義 し た LETRAS 拡 張 正 規 表 現 を 使 用 し ま す 。た と え ば ¥l(エ ル )は 独・仏・西 語 な ど
18
の 西 欧 語 の 単 語 に 使 用 さ れ る 文 字 と し て 再 定 義 さ れ ま す 。 r¥l*=><R>
A la <R> de un hotel mad<R> llega un p<R> ext<R> pa<R> pa<R> como confe<R> en un semina<R> sob<R> Nut<R> o<R> po<R> una unive<R> de ve<R> con sede en El Esco<R>.
一 般 正 規 表 現 の ¥w は madrileño の ñ を 含 め な い の で r¥w*は madrileño の rile だけに一致しますが、LETRAS の ¥l は こ れ を 含 め 、 rileño に一致しま す 。 さ ら に LETRAS は %で ¥l*を 再 解 釈 し ま す 。し た が っ て 、r¥l*は r%と す る こ と が で き ま す 。 (…)に よ る 後 方 照 応 を 使 う と 、 正 規 表 現 に 一 致 し た 文 字 列 を 再 生 す る こ と が で き ま す 。 (r%)=><$1>
A la <recepción> de un hotel mad<rileño> llega un p<rofesor> ext<ranjero> pa<ra> pa<rticipar> como confe<renciante> en un semina<rio> sob<re> Nut<rición> o<rganizado> po<r> una unive<rsidad> de ve<rano> con sede en El Esco<rial>. 上 で は r に 始 ま る 文 字 列 を <…>で 囲 み ま し た 。 r で 始 ま る 単 語 を マ ー ク す る に は 次 の よ う な 指 定 を し ま す 。 こ こ で #は 語 の 境 界 を 示 し ま す 。
(#r%)=><$1>
A la <recepción> de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial.
ñ や ó な ど の 特 殊 文 字 は n@, o/の よ う に 書 く と 、 そ れ ぞ れ ñ と ó に 再 解 釈 さ れ ま す 。
(%n@%)=><$1> (%o/%)=><$1>
A la <recepción> de un hotel <madrileño> llega un profesor extranjero para participar como conferenciante en un seminario sobre <Nutrición> organizado por una
19
Las dos fo/rmulas se puede agrupar con « (...|...)» en «(%(n@ |o/)%)= ><$1 >». Por agrupar las for/mulas, se aceleraagiliza el procesam iento.
5.1.2. 大 小文字 区別
[C.sensitive] ( 大 小 文 字 区 別 )を チ ェ ッ ク し て 次 の 置 換 式 を 使 う と 小 文 字 で は じ ま る 語 だ け に マ ッ チ し ま す 。
(%e%)=><$1> (大 小 区 別 な し )
A la <recepción> <de> un <hotel> <madrileño> <llega> un <profesor> <extranjero> para participar como <conferenciante> <en> un <seminario> <sobre> Nutrición organizado por una <universidad> <de> <verano> con <sede> <en> <El> <Escorial>.
(%e%)=><$1> (大 小 区 別 あ り )
A la <recepción> <de> un <hotel> <madrileño> <llega> un <profesor> <extranjero> para participar como <conferenciante> <en> un <seminario> <sobre> Nutrición organizado por una <universidad> <de> <verano> con <sede> <en> El Escorial. (%E%)=><$1> (大 小 区 別 あ り )
A la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en <El> <Escorial>.
5.1.3. 大 文字変 換・小 文字変 換
=>の 右 辺 に $U ま た は $u を 指 定 す る と 左 辺 の 検 索 字 に マ ッ チ し た 文 字 列 を 大 文 字 に し ま す 。 $L ま た は $l(エ ル )を 指 定 す る と 小 文 字 に し ま す 。
%n@%=>$U
A la recepción de un hotel MADRILEÑO llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial.
5.1.4. 単 語目録
「 単 語 目 録 」を 選 択 す る と 単 語 を 単 位 に し て 置 換 し ま す 。次 の 例 で は 、(1:1) の In は P に 置 換 さ れ ま す が 、 (1:2)の inanis の in は 置 換 さ れ ま せ ん 。 大 量 の 単 語 を 置 換 し た り 検 索 す る と き は 単 純 一 致 や 正 規 表 現 と 比 べ て 処 理 が 高
20 速 に な り ま す 。
a=>A de=>DE en=>EN
A la recepción DE un hotel madrileño llega un profesor extranjero para participar como conferenciante EN un seminario sobre Nutrición organizado por una universidad DE verano con sede EN El Escorial.
こ の 検 索 式 は 正 規 表 現 で は な い の で 、 (a|de|en)の よ う に ま と め る こ と が で き ま せ ん 。 正 規 表 現 で は #(a|de|en)#=><$1>と し ま す 。
5.2. 検索
言 語 資 料 を 分 析 す る と き 、 関 心 の あ る キ ー ワ ー ド ( 一 定 の 語 、 語 の 連 続 、 語 の 一 部 ) に 注 目 し て 、 テ キ ス ト の 中 で そ れ ら の 出 現 を 確 認 す る こ と が よ く あ り ま す 。LETRAS で は 正 規 表 現 ま た は 単 語 リ ス ト を 使 っ て 、Excel の 列 の 中 に 見 つ か る キ ー ワ ー ド を 記 号 で マ ー ク す る こ と が で き ま す 。以 下 で は 、 比 較 的 複 雑 な 正 規 表 現 を 練 習 す る た め に 、 と く に 指 定 し な い と き は 、 す べ て 正 規 表 現 を 使 っ て 検 索 し ま す 。 検 索 の イ メ ー ジ21 ¥c¥c (子 音 + 子 音 )
A la rece{*pc*}ión de un hotel ma{*dr*}ileño {*ll*}ega un {*pr*}ofesor
e{*xt*}ra{*nj*}ero para pa{*rt*}icipar como co{*nf*}ere{*nc*}ia{*nt*}e en un seminario so{*br*}e Nu{*tr*}ición o{*rg*}anizado por una unive{*rs*}idad de verano con sede en El E{*sc*}orial.
「 検 索 マ ー ク 」 を チ ェ ッ ク す る と 該 当 す る セ ル に Input シ ー ト の タ イ ト ル Text の 背 景 色 が 塗 ら れ ま す 。 #f% (f で 始 ま る 単 語 )「 検 索 マ ー ク 」 を チ ェ ッ ク
5.3. 抽出・除外
5.3.1. 抽 出
キ ー ワ ー ド に 一 致 し た デ ー タ が あ る 行 を 取 り 出 し て 、 新 し い シ ー ト に コ ピ ー し ま す 。 「 抽 出 」 の イ メ ー ジRow Text Title-1 Title-2 Par.
981 ●10 Reunión de amigos. Despedida 10 Despedida - 1
982 ■1 Madrid 10 Despedida 1 Madrid 1
983
En casa de la {*familia*} García Gutiérrez tiene lugar una reunión entre amigos para darle la bienvenida a Selene, una amiga venida de Salta, Argentina, que ha obtenido una beca para la Universidad de Salamanca. Aprovechando su estancia en España, Selene ha viajado hasta Madrid para visitar a su amigo a quien había conocido el año anterior en un congreso en México y para conocer a su {*familia*}. Al día siguiente, los García Gutiérrez organizan una reunión de amigos para presentarles a su invitada, y aquélla se desarrolla en un ambiente muy cordial.
10 Despedida 1 Madrid 2
984– ¡Hola, Gonzalo! ¡Gracias por venir! Te presento a Selene, nuestra amiga que ha
22
5.3.2. 除 外
キ ー ワ ー ド に 一 致 し た デ ー タ が な い 行 を 取 り 出 し て 、 新 し い シ ー ト に コ ピ ー し ま す 。 「 除 外 」 の イ メ ー ジ5.4. 索引
「 索 引 」 で は 、 キ ー ワ ー ド を 文 ID3の 集 合 と 共 に 表 示 し ま す 。 「 並 べ 替 え 」 は 「 文 字 順 」 と 「 出 現 順 」 が 選 択 で き ま す 。 次 は 正 規 表 現 を %d#と し た 文 字 順 の 出 力 で す 。Row Key word Title-1 Title-2 Par. Sen. 556 antigüedad 03 Funcionarios 1 Madrid 13 3 329 barbaridad 02 Camino 2 Sevilla 14 3 501 barbaridad 02 Camino 5 Buenos Aires 14 2 98 barbaridad 05 Consultorio 1 Madrid 13 2 139 bondad 08 Compras 1 Madrid 30 1 386 bondad 08 Compras 5 Buenos Aires 31 1 552 cantidad 06 Fiesta 2 Sevilla 10 3
こ の 表 か ら 、 Excel の ピ ボ ッ ト テ ー ブ ル を 使 っ て さ ま ざ ま な ク ロ ス 集 計 が で き ま す 。 LETRAS 独 自 の ク ロ ス 集 計 に つ い て は 後 述 し ま す (→ 5.7.)。 次 は 次 は 正 規 表 現 を %d#; #en#し た 出 力 順 の 出 力 で す 。 3 文 ID に つ い て は 「 1.3 準 備 」 を 参 照 し て く だ さ い 。
23
Row Key word
Title-1
Title-2
Par. Sen.
2 Madrid
01 Hotel 1 Madrid
1
1
3 universidad 01 Hotel 1 Madrid
2
1
3 en
01 Hotel 1 Madrid
2
1
3 en
01 Hotel 1 Madrid
2
1
11 usted
01 Hotel 1 Madrid
4
4
26 en
01 Hotel 1 Madrid
10
2
■ 連 字 分 析 と 連 語 分 析 文 字 や 音 韻 は 言 語 の 一 定 の 規 則 に 沿 っ て 連 続 し て い ま す 。 そ の 規 則 性 を 探 る た め の 1 つ の 方 法 が 「 連 字 分 析 」 で す 。 こ れ は 、 た と え ば la escuela と 言 う 文 字 連 続 を 、 正 規 表 現 (RE)「 ..」 ( 任 意 の 2 文 字 ) を 使 っ て 、 索 引 で 検 索 す る と 次 の 結 果 に な り ま す 。 出 力 は 出 現 順 で す 。 Input: Row Text 1 la escuela Output [RE: ..; 出 現 順 ]: Row Key word1 la 1 e 1 sc 1 ue 1 la こ の よ う に 検 索 は 一 致 し た 部 分 を 次 々 に 出 力 し て い き ま す 。 一 方 、 す べ て の 2 連 字 と い う こ と な ら ば 、ほ か に es, cu, el と い う 区 切 り 方 も 必 要 に な り ま す 。 そ こ で 、 次 の 連 立 検 索 置 換 式 を 用 意 し ま す 。 .. (.+)=>#$1 .. は じ め の 正 規 表 現「 ..」( 任 意 の 2 文 字 )で 先 と 同 じ 検 索 を し ま す 。次 に 、 正 規 表 現 「 (.+)=>#$1 」 に よ っ て 、 セ ル の 最 初 に # と い う マ ー ク を 加 え #la escuela と 言 う 文 字 連 続 に し ま す 。 そ の あ と 再 び 正 規 表 現 「 ..」 ( 任 意 の 2 文 字 ) を 使 っ て こ の 置 換 さ れ た 文 字 連 続 を 検 索 し ま す 。 今 度 は #<か ら 始 め
24 て 区 切 っ て 行 き ま す 。 次 が そ の 出 力 で す 。
Row Key word 1 la 1 e 1 sc 1 ue 1 la 1 #l 1 a 1 es 1 cu 1 el こ の よ う に 出 力 さ れ た 文 字 連 続 か ら 、 そ の 分 類 列 を 選 択 す る こ と に よ り 、 そ の 分 布 の 特 徴 を 示 す こ と が わ か り ま す 。 次 は 、 中 世 ・ 近 代 ス ペ イ ン 語 の 「 f+ 1 文 字 」と い う 2 連 字 の 相 対 的 な 頻 度 を 年 代 順 に 調 べ た も の で す 。全 2 連 字 の 中 か ら 取 り 出 し ま し た 。 こ れ を 見 る と 、 山 形 の 分 布 、 つ ま り 上 昇 ・ 下 降 の カ ー ブ を 描 く も の が い く つ か あ り ま す 。 し か し 、 そ れ ぞ れ の 山 の 頂 上 の 位 置 が 異 な り 、 ま た 山 の 形 状 も 異 な っ て い ま す 。 こ れ ら の 中 で 典 型 的 な 単 峰 型 ( 頂 上 が 1 つ ) の 分 布 が 、 言 語 変 化 の 特 徴 を よ く 示 し て い る の で 興 味 深 い と 思 わ れ ま す 。 な お 、 3 文 字 の 連 続 な ら ば 次 の 連 立 検 索 置 換 式 を 使 い ま す 。 ... (.+)=>¥#$1 ... (.+)=>¥#$1 ... そ し て 、2 文 字 連 続 で な く 、2 単 語 連 続 な ら ば 次 の 連 立 検 索 置 換 式 を 使 い ま す 。 & & (.+)=>xx $1 & &
25
5.5. 文脈
5.5.1. 外 置
検 索 式 に 一 致 す る キ ー ワ ー ド を 独 立 し た A 列 に 取 り 出 し て 、元 の 文 と 一 緒 に 表 示 し ま す 。 「 並 べ 替 え 」 は 「 文 字 順 」 と 「 出 現 順 」 が 選 択 で き ま す 。
26 %ndo% (ndo を 含 む 単 語 )
鍵語 テキスト
afinando y vete {*afinando*} la voz para cantarle el "Cumpleaños feliz", ¿eh?
afinando y vete {*afinando*} la voz para cantarle "Las mañanitas", ¿eh?
aguantando – Aquí estamos, hijo, {*aguantando*} para no caer...
出 力 付 加 段 落 数
出 力 す る 段 落 数 を 増 や し て 、検 証 す る 文 脈 の 範 囲 を 拡 げ る こ と が で き ま す 。 コ ン ボ ボ ッ ク ス の 数 字 を 変 え て 試 し て く だ さ い 。
同 : 付 加 段 落 1
鍵語 テキスト
afinando ¡Ah! y vete {*afinando*} la voz para cantarle el "Cumpleaños feliz",
¿eh? 6 Fiesta
afinando ¡Ah! y vete {*afinando*} la voz para cantarle "Las mañanitas", ¿eh? 6
Fiesta
aguantando ¡Qué es de tu vida, chaval ! – Aquí estamos, hijo, {*aguantando*} para
no caer... 9 Fútbol
5.5.2. 内 置
「 内 置 」で は キ ー ワ ー ド を 中 心 に 置 き 、そ の 前 後 の 文 脈 を 左 右 に 配 置 し ま す 。 キ ー ワ ー ド を 中 心 の 1 列 に 置 く こ と で 、 キ ー ワ ー ド の 配 列 が 追 跡 し や す く な り ま す 。ま た 、そ の 前 後 の 文 脈 の 特 徴 も 目 立 ち ま す 。「 並 べ 替 え 」は「 文 字 順 」 と 「 出 現 順 」 が 選 択 で き ま す 。 内 置 の イ メ ー ジ27 ()(%[ai]d[oa]s?)# (ado, ados, ada, adas, …な ど )
類 義 語
ラ テ ン 語 訳『 創 世 記 』に は「( 彼 は )言 っ た 」と い う 意 味 で 主 に ait, dixit, inquit と い う 3 つ の 変 化 形 が 使 わ れ て い ま す 。 ち ょ っ と 数 が 多 い の で す が 、 そ れ ぞ れ の キ ー ワ ー ド の 出 現 形 を ラ テ ン 語 訳 の 原 典 で あ る ヘ ブ ラ イ 語 テ キ ス ト の 中 で 探 し て み ま し ょ う 。 た と え ば 、 ait の (1.11), (1:26), ...、 dixt の (1:6)… と い う 具 合 で す 。 そ う す る と 、 こ れ ら 全 部 は 基 本 的 に 一 つ の ヘ ブ ラ イ 語 動 詞 に 対 応 し て い る こ と が わ か り ま す 。 そ れ で は 、 ラ テ ン 語 の 3 つ の 動 詞 は ま っ た く の 同 義 語 で バ リ ア ン ト に 過 ぎ な か っ た の で し ょ う か 。 翻 訳 し た ヒ エ ロ ニ ム ス は 3 つ の 動 詞 を 気 ま ま に 使 っ て い た の で し ょ う か 。 こ こ で 、 ふ た た び 「 内 置 」 で 同 じ キ ー ワ ー ド を 検 索 し て み る と 、 文 末 で は ait だ け が 使 わ れ て い て ( ait は 文 末 だ け に 限 り ま せ ん が ) 、「 ~ と 言 っ た 」 と い う よ う な 付 け 足 し の よ う な 感 じ で す 。 一 方 、 、 inquit は 文 中 に 挿 入 さ れ 、 日 本 語 に す れ ば 「 ~ ― と 彼 は 言 っ た ― ~ 」 と い う よ う な 感 じ で す 。 こ の 2 つ の 動 詞 に 対 し て 、 dixit は 文 頭 で 用 い ら れ ( 逆 に 文 頭 だ か ら と 言 っ て dixit に な る 、 と い う こ と で は あ り ま せ ん が ) 、 「 ( 彼 が ) 言 っ た こ と は ~ 」 と い う よ う な し っ か り と し た 意 味 合 い が 感 じ ら れ ま す 。
28 ス ペ イ ン 語( だ け で は あ り ま せ ん が )は こ れ ら の 類 義 語( け っ し て「 同 義 語 」 で は あ り ま せ ん )の 中 か ら dixit だ け を 継 承 し ま し た 。dixit の は っ き り と し た 意 味 と 形 が 好 ま れ た の だ と 思 い ま す 。 「 と は 思 わ な い 」 次 は 私 た ち が 編 集 し た ス ペ イ ン 語・日 本 語 辞 典 の 用 例 の 日 本 語 の 部 分「 思 い ま せ ん 」 を 「 内 置 」 で 検 索 し た 結 果 で す 。 キ ー ワ ー ド の 前 の 位 置 を 見 る と 、ほ と ん ど が「 と は 」で 終 わ っ て い て 、な ぜ か 「 と 思 い ま せ ん 」 の 例 が 見 つ か り ま せ ん で し た 。 次 は 夏 目 漱 石『 坊 っ ち ゃ ん 』の 全 文 を 調 べ た 結 果 で す 。「 思 う 」の 前 は「 と 」 に 限 ら れ 、「 思 わ な い 」の 前 で は ほ と ん ど が「 と は 」 が 現 れ て い ま す 。こ の よ う な 分 布 は 統 計 的 な 有 意 差 を 調 べ る ま で も な く 、見 た だ け で 単 に 偶 然 で 起 き る は ず が な い こ と が わ か り ま す 。 引 用 部 「 思 う 」 「 思 わ な い 」 「 と 」 183 例 な し 「 と は 」 1 例 11 例 「 と 思 わ な い 」と 言 っ て も ち ゃ ん と 日 本 語 と し て 成 り 立 つ の に 、実 際 に ほ と ん ど 使 わ れ な い 理 由 は 、「 思 わ な い 」と い う の が 単 に「 思 う 」の 否 定 形 と い う の で は な く て 、ち ょ う ど「 … な ん て 信 じ ら れ な い 」と い う よ う な 話 者 の 何 ら か の 評 価 を 示 し て い る か ら で は な い か と 思 わ れ ま す 。そ の 評 価 の 対 象 が 「 … と は 」 で 表 示 さ れ て い る の で し ょ う 。
29 ス ペ イ ン 語 の 「 ( 私 は ) 思 う 」 creo の 目 的 節 に は que+ 直 説 法 が 使 わ れ 、 「 思 わ な い 」 no creo で は 接 続 法 が 使 わ れ ま す 。 そ し て 学 生 の 答 案 や 日 本 の 文 法 書 を 見 る と 、そ の ほ と ん ど が「 … と は 思 い ま せ ん 」と 訳 し て い ま す 。ス ペ イ ン 語 文 法 で は「 否 定 」と い う 意 味 要 素 が 接 続 法 の 条 件 に な る 、と 論 じ ら れ る こ と が 多 い の で す が 、 no creo を 単 に 動 詞 の 否 定 形 と す る よ り も 、 や は り 「 信 じ ら れ な い 」 と い う 「 評 価 」 と い う 話 者 の 態 度 が 関 わ っ て い る の で し ょ う 。こ の 点 で 日 本 語 と ス ペ イ ン 語 の 文 法 の 間 に は 偶 然 で は な い 、人 間 の 普 遍 的 な 認 知 に 関 わ る 意 味 の 平 行 関 係 が あ る よ う に 思 わ れ ま す 。 私 た ち は 理 論 的 に 導 か れ た 文 法 の 規 則 を 実 際 の 言 語 使 用 に あ て は め る こ と が 多 い の で す が 、実 際 の 言 語 使 用 の 分 析 が 逆 に 理 論 的 な 文 法 の 問 題 を 再 考 す る き っ か け に な る こ と が あ り ま す 。帰 納 法 と 演 繹 法 を 両 立 さ せ る こ と が で き れ ば よ い と 思 い ま す 。
5.6. 連続
「 連 続 」で は 、キ ー ワ ー ド と 一 緒 に 現 れ る 語 を そ の 位 置 に そ っ て 集 計 し た り 、 集 め た り 、 連 続 し て 扱 っ た り し て 、 そ の 関 係 を 探 り ま す 。 こ こ で は 単 語 を 単 位 と し て 、 そ の 前 後 の 数 語 と の 連 続 関 係 を 分 析 し ま す 。 出 力 の 形 式 に は 「 語 形 」「 集 計 」「 合 同 」「 結 合 」が あ り ま す が 、こ の 中 で「 語 形 」だ け が 文 の 横 の つ な が り を 保 持 し ま す 。 一 方 、 「 集 計 」 「 合 同 」 「 結 合 」 で は 、 横 の つ な が り を 切 っ て 分 析 し ま す 。「 並 べ 替 え 」は「 文 字 順 」と「 出 現 順 」 が 選 択 で き ま す 。5.6.1. 語 形
単 語 を 単 位 と し て い る こ と を 除 い て 、「 内 置 」と ほ ぼ 同 じ 機 能 を 持 ち ま す 。 た と え ば 、 上 の 設 定 で 実 行 す る と 次 の よ う に 出 力 さ れ ま す 。 Output [#de#]Sum Ant. 3 words Sum Key word Sum Pos. 3 words Sum Total 6 words 174 1012 de 207 381 142 , 192 , 334 , 141 la 182 . 278 la 116 el 137 la 197 y 83 y 114 y 182 . 72 en 60 que 129 el 60 a 59 de 118 de
30
5.6.2. 集 計
上 の 「 語 形 」 の 前 語 (W-1, W-2, …)、 鍵 語 、 後 語 (W+1, W+2, …)の そ れ ぞ れ の 列 の 単 語 を ま と め て 集 計 し ま す 。 ま と め て い る の で 、 横 の 関 係 は 切 れ て い ま す 。 キ ー ワ ー ド の そ ば に あ る 語 の 頻 度 を 縦 の 列 だ け を 区 別 し て 調 べ た い と き に 役 に 立 ち ま す 。 出 力 は 「 文 字 順 」 、 「 出 現 順 」 、 「 頻 度 順 」 が 選 択 で き ま す 。 連 続 : 集 計 の イ メ ー ジ por (単 語 目 録 ) 並 べ 替 え : 頻 度 順5.6.3. 集 合
前 語 の 列 (W-1, W-2, …)、後 語 の 列 (W+1, W+2, …)、両 者 (W-1, W-2, …, W+1, W+2, …)を ま と め て そ れ ぞ れ を 合 計 列 に 出 力 し 、そ の 中 の 単 語 を 合 同 し て 、 そ の 頻 度 を 集 計 し ま す 。 キ ー ワ ー ド の そ ば で 連 続 す る 語 の 集 合 を 見 る と き に 使 い ま す 。Sum W-3 Sum W-2 Sum W-1 Sum Key word Sum W+1 Sum W+2 Sum W+3
120 128 la 36 , 1012 de 110 la 137 , 203 60 en 77 el 21 y 29 las 125 . 57 . 45 de 65 , 20 es 23 los 75 y 55 , 41 , 47 13 centro 22 todo 30 en 45 de 41 y 42 un 13 dentro 19 un 26 ... 39 y 30 el 31 a 13 lo 17 acuerdo 24 ? 24 que
31 連 続 : 集 合 の イ メ ー ジ por (単 語 目 録 ) 並 べ 替 え : 頻 度 順
5.6.4. 結 合
前 の 数 語 、 ま た は 後 の 数 語 の 連 続 を 切 ら ず に 、 そ の 連 続 の 頻 度 を 集 計 し ま す 。キ ー ワ ー ド に 隣 接 す る ま と ま っ た 語 数 の 特 徴 を 調 べ る こ と が で き ま す 。 連 続 : 連 続 の イ メ ー ジSum Ant. 3 words Sum Key word Sum Pos. 3 words Sum Total 6 words 174 1012 de 207 381 142 , 192 , 334 , 141 la 182 . 278 la 116 el 137 la 197 y 83 y 114 y 182 . 72 en 60 que 129 el 60 a 59 de 118 de
32 por (単 語 目 録 ) 並 べ 替 え : 頻 度 順 後 期 ラ テ ン 語 か ら 初 期 ス ペ イ ン 語 を 想 像 す る 大 学 で 習 う ラ テ ン 語 は カ エ サ ル や キ ケ ロ な ど の 紀 元 前 後 に 書 か れ た 文 章 を 対 象 と す る 古 典 ラ テ ン 語 で す 。 一 方 、 こ こ で テ キ ス ト 例 と し て 見 て い る『 創 世 記 』の ラ テ ン 語 は 紀 元 5 世 紀 の「 後 期 ラ テ ン 語 」 Late Latin と よ ば れ る も の で す 。 ラ テ ン 語 は 名 詞 が 格 変 化 し 、 そ れ に よ っ て 主 語 や 目 的 語 の 関 係 が わ か る の で 、 と く に 動 詞 の 目 的 語 の 位 置 が 定 ま っ て い る わ け で は あ り ま せ ん が 、 ふ つ う は 動 詞 の 前 に お き ま す 。 そ し て 動 詞 は ふ つ う 文 末 に 置 か れ ま す 。 一 方 、 現 代 ス ペ イ ン 語 な ど ラ テ ン 語 か ら 派 生 し た 言 語 で は 目 的 語 は 動 詞 の 後 に 置 く の が ふ つ う で す 。
さ て 、 次 は 名 詞 の 対 格 の 例 と し て aquam, arcam, terram を 選 び 、 そ の 直 前 の 語 を 頻 度 順 に 並 べ た と き の 出 力 で す 。
Sum Ant. 3 words Sum Key word Sum Pos.3 words
9 en_el_centro 1012 de 9 tema_,_¿ 9 en_la_sala 9 vez_en_cuando 8 _(_dentro 9 espera_)_ 8 _me_alegro 6 acuerdo_._ 7 __ 6 todo_._ 7 ¿_qué_es 6 tu_vida_? 7 oye_,_cambiando 5 la_ciudad_y
33 こ こ で 興 味 深 い の は 、『 創 世 記 』ラ テ ン 語 の 対 格( 目 的 語 )の 位 置 が 、 ま る で 現 代 ス ペ イ ン 語 の よ う に 、 ほ と ん ど 例 外 な く 動 詞 の 直 後 に な っ て い る こ と で す 。 こ の よ う に 当 時 の 話 し 言 葉 が 反 映 し て い る と 思 わ れ る 後 期 ラ テ ン 語 の 様 子 か ら 文 献 に よ っ て 記 録 さ れ て い な い 原 始 ス ペ イ ン 語 Proto-Spanish の シ ン タ ッ ク ス を 想 像 す る こ と が で き ま す 。
34
5.7. 分布
「 Dist.(分 布 )」 の タ ブ で は キ ー ワ ー ド の 出 現 頻 度 を 計 算 し ま す 。 「 並 べ 替 え 」は「 文 字 順 」「 出 現 順 」「 頻 度 順 」が 選 択 で き ま す 。Sch.fm.(Search formula) を 選 択 す る と 分 布 頻 度 は 検 索 式 を 単 位 と し て 計 算 さ れ ま す 。 K.w. (Key word)を 選 択 す る と 検 索 式 に マ ッ チ し た キ ー ワ ー ド が 単 位 に な り ま す 。 Cl.コ ン ボ ボ ッ ク ス の All は 全 体 で 計 算 し 、 Sheet は シ ー ト ご と に 計 算 し 、 ア ル フ ァ ベ ッ ト (A, B, C, …)は 文 字 で 示 さ れ る 列 の デ ー タ ご と に 計 算 し ま す 。[It (Interval)]で 数 値 を 選 択 す る と 、そ の 数 値 を 階 級 に し て 分 類 し ま す 。 [Fr.](Frequency)は 、Absolute frequency(絶 対 頻 度 ), Relative frequency( 相 対 頻 度 : % )、Per thousando words(千 語 率 : そ れ ぞ れ キ ー ワ ー ド の 絶 対 頻 度 を そ れ が 含 ま れ る 範 囲 の 総 語 数 で 割 り 、 1000 を 乗 じ た 数 )が 選 択 で き ま す 。 次 は Sample と Sample-2 を 選 択 し た と き の 出 力 で す 。Output-1 [Sch.fm,: ando#; iendo# ; S.fm; Cl.: All]
Output-2 [Sch.fm,: (a|ie) ndo#; S.fm; Cl.: All] Key word All
ando# 134 iendo# 24
Key word All (a|ie)ndo# 158
35 Output-3 [Sch.fm,: %(a|ie)ndo#; K.w.; Cl.: All]
Output-3 [Sch.fm,: %(a|ie)ndo#; K.w.; Cl.: Sheet]
Output-4 [Sch.fm,: %(a|ie)ndo#; K.w.; Cl.: D]
Output-5 [Sch.fm,: %(a|ie)ndo#; K.w.; Cl.: A; Itv: 100] ; Fr.: Absolute frequency Key word All
afinando 2 aguantando 1 añadiendo 1
ando 5
Key word Sample Sample-2
afinando 2 0
aguantando 1 0
añadiendo 0 1
ando 5 0
Key word - 1 Madrid 2 Sevilla 3 México 4 Lima 5 Buenos Aires
afinando 0 1 0 1 0 0 aguantando 0 1 0 0 0 0 añadiendo 0 1 0 0 0 0 ando 0 0 1 0 2 2 Key word 0 100 200 300 400 500 600 700 800 900 afinando 0 0 0 0 0 1 1 0 0 0 aguantando 0 0 0 0 1 0 0 0 0 0 añadiendo 0 0 0 0 0 0 0 1 0 0 ando 1 0 0 1 1 0 0 0 1 1
36
Output-5 [Sch.fm,: %(a|ie)ndo#; K.w.; Cl.: A; Itv: 100; Fr.:Relative frequency]
Output-5 [Sch.fm,: %(a|ie)ndo#; K.w.; Cl.: A; Itv: 100; Fr.:Per thousand word s]
L 字 形 分 布
ラ テ ン 語 訳『 創 世 記 』の 全 出 現 語 の 度 数 を「 分 布 」を 使 っ て 計 算 し 、そ の グ ラ フ を 描 い て み る と 次 の よ う な 形 に な り ま す 。
一 番 頻 度 の 高 い et (=英 and)は 1922, 次 が in(=英 in)が 713, est(=英 is)が 402, ...と 続 き ま す 。こ の よ う に 語 の 頻 度 を 降 順 で 辿 っ て い く と そ の 減 少 が 急 で あ る こ と が わ か り ま す 。 そ し て et, in, est な ど の 高 頻 度 語 の 数 が 非 常 に 少 な く 、逆 に 低 頻 度 語 は 非 常 に 数 多 く あ り ま す 。『 創 世 記 』で 頻 度 が 1 の 語 は 3480 も あ り ま し た 。 そ の 様 子 を 示 し て い る の が 、 上 の 図 で す 。 こ の よ う な Key word 0 100 200 300 400 500 600 700 800 900 afinando 0.0% 0.0% 0.0% 0.0% 0.0% 5.6% 6.3% 0.0% 0.0% 0.0% aguantando 0.0% 0.0% 0.0% 0.0% 5.9% 0.0% 0.0% 0.0% 0.0% 0.0% añadiendo 0.0% 0.0% 0.0% 0.0% 0.0% 0.0% 0.0% 4.5% 0.0% 0.0% ando 7.7% 0.0% 0.0% 8.3% 5.9% 0.0% 0.0% 0.0% 5.0% 5.0% Key word 0 100 200 300 400 500 600 700 800 900 afinando 0.000 0.000 0.000 0.000 0.000 0.376 0.386 0.000 0.000 0.000 aguantando 0.000 0.000 0.000 0.000 0.429 0.000 0.000 0.000 0.000 0.000 añadiendo 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.357 0.000 0.000 ando 0.276 0.000 0.000 0.439 0.429 0.000 0.000 0.000 0.358 0.369
37 分 布 は「 L 字 形 分 布 」と 呼 ば れ 、ど の よ う な テ キ ス ト で も 比 較 的 大 き な も の で あ れ ば 、こ の よ う な 分 布 を 示 し ま す 。こ こ で は 名 詞 や 動 詞 な ど の 変 化 形 な ど を 代 表 形 に ま と め こ ん だ 計 算 を し て い ま せ ん が 、代 表 形 に ま と め て も そ の 分 布 は 同 様 の 傾 向 を 示 し ま す 。 言 語 は 、種 類 は 少 な い け れ ど 非 常 に よ く 使 わ れ る 接 続 詞 、前 置 詞 、代 名 詞 な ど の 「 機 能 語 」 (function word)と 、 種 類 は と て も 多 い け れ ど あ ま り 使 わ れ る こ と が な い 名 詞 や 動 詞 な ど の「 内 容 語 」(content word)か ら 成 り 立 っ て い ま す 。こ の よ う に 頻 度 が 偏 っ て い る こ と は バ ラ ン ス が と れ て い な い よ う に 見 え ま す が 、む し ろ 言 語 の あ り 方 に と し て 合 理 的 だ と 思 わ れ ま す 。か り に す べ て の 単 語 が 同 じ 頻 度 で 使 わ れ る と し た ら 、言 語 使 用 者 は 非 常 に 多 く の 機 能 語 を 学 ば な け れ ば な ら ず 、ま た 絶 え ず 自 分 が 知 ら な い 内 容 語 に 出 会 う 、と い う 事 態 に な り ま す 。 こ れ で は 言 語 と し て の 働 き を な さ な く な る で し ょ う 。 と こ ろ で 、『 創 世 記 』で も っ と も 頻 度 が 高 い 内 容 語 は や は り Deus (=英 God) で し た 。 度 数 は 157 で 、 代 名 詞 な ど よ り も 頻 度 が 高 く 、 全 体 で 15 位 の 位 置 を 占 め て い ま す 。こ の よ う な 語 は テ キ ス ト の 中 で「 特 徴 語 」と 呼 ば れ 、と く に 注 意 が 必 要 で す 。
K WAC, K WOC, K WIC, ...
コ ン ピ ュ ー タ を 使 っ て 言 語 資 料 を 分 析 す る に は 次 の よ う な さ ま ざ ま な 方 法 が あ り ま す 。
検 索 の キ ー ワ ー ド に 注 目 す る と 、LETRAS の「 検 索 」で は 対 象 の テ キ ス ト 内 に お い て キ ー ワ ー ド を マ ー ク す る こ と で 分 析 者 の 気 づ き を 支 援 し ま す 。テ キ ス ト の 中 に マ ー ク さ れ た 部 分 を 辿 っ て い く と 、そ こ に 何 ら か の 傾 向 や 規 則 性 が 見 つ か る こ と が あ り ま す 。 こ の 方 法 を KWAC (Key Word Alongside
Context)と 呼 び ま す 。
次 に「 外 置 」で は キ ー ワ ー ド を 1 つ の 列 に ま と め 、そ の 横 に キ ー ワ ー ド を 含 む テ キ ス ト を 載 せ て い ま す 。キ ー ワ ー ド を 並 べ 替 え る こ と に よ っ て 一 定 の キ ー ワ ー ド を 集 中 さ せ た り 、キ ー ワ ー ド を 逆 引 き な ど の 基 準 に よ っ て 並 べ 替
38
え た り す る こ と が で き ま す 。こ の よ う に テ キ ス ト か ら 独 立 さ せ た キ ー ワ ー ド が 次 の 分 析 の 対 象 に な り ま す 。 こ の 方 法 を KWOC (Key Word Out of
Context)と よ び ま す 。
LETRAS の「 内 置 」で は キ ー ワ ー ド を 中 心 に お き 、そ の 前 後 の 文 脈 を 左 右 に 並 べ て い ま す 。こ れ に よ っ て キ ー ワ ー ド と 前 後 の 文 脈 の 関 係 が わ か り や す く な り ま す 。 こ の 方 法 は KWIC (Key Word In Context)と 呼 ば れ 、 シ ン タ ッ ク ス や コ ロ ケ ー シ ョ ン の 研 究 に か か せ ま せ ん 。
さ て 、そ う す る と「 分 布 」は ど の よ う に 読 ん だ ら よ い で し ょ う か 。「 分 布 」 で は コ ン テ キ ス ト を 考 え ず に キ ー ワ ー ド の 頻 度 だ け を 問 題 に し て い ま す 。言 っ て み れ ば KWWC (Key Word Without Context)と い う こ と に な る で し ょ う 。
対 照 頻 度 表
複 数 の シ ー ト を 使 っ た「 分 布 」の 結 果 は 対 照 頻 度 表 に な り 、各 種 の 統 計 分 析 に か け る こ と が で き ま す 。ま た 、対 照 頻 度 表 そ の も の の 観 察 も 興 味 深 い も の が あ り ま す 。
39
次 の 図 は LETRAS の「 分 布 」を 使 っ て 中 世 ス ペ イ ン 語 に 翻 訳 さ れ た『 創 世 記 』 50 章 の 中 に あ る i, j, y の 文 字 の 出 現 頻 度 を 調 べ た も の で す4
。
実 は 、こ れ ら の 3 つ の 文 字 は 同 じ 語 の 中 で も 、mi, mj, my; amigo, amjgo の よ う に 交 替 し て 使 わ れ て い ま し た 。こ の よ う な 分 布 を 自 由 変 異 free variation と 呼 び ま す 。 当 時 こ れ ら は 同 じ 文 字 ( 文 字 素 grapheme) の バ リ ア ン ト (異 文 字 : allograph)で し た 。 と こ ろ が 、 実 際 に そ の 分 布 を 調 べ て み る と グ ラ フ の 実 線 が 示 す よ う に 、 j の 文 字 が 途 中 ま で (14 章 の 途 中 ま で )ほ と ん ど 使 わ れ て い な い の で す 。自 由 変 異 の バ リ ア ン ト な ら ば ど こ に で も 出 現 す る は ず で す 。翻 訳 本 の 製 本 の 状 態 を 見 る と 14 章 の 途 中 で 帖 (quire)が 分 か れ て い ま す 。 書 体 の 違 い か ら こ こ で 写 字 生 が 交 替 し た こ と が わ か り ま す 。こ れ ら の バ リ ア ン ト の 使 い 方 に は 個 人 差 が あ っ た よ う で す 。 4
Schonfield, Jeremy (ed.). 1992. Companion volume to the facsimile edition. La
Biblia de Alba. An illustrated manuscript Bible in Castilian , by Rabbi Moses
Arragel. Madrid. Fundación Amigos de Sefarad.
Ueda, Hiroto. 2009. “Palatal graphem es in a medieval Spanish biblical text: a corpus analysis of «i, j, y» in Genesis, Biblia de Alba ”, Corpus analysis and
variation in linguistics , edited by Yuji Kawaguchi, Makoto Minegishi and
40
6. 共起分析
正 規 表 現 で 指 定 す る 2 つ の 要 素 の 結 合 度 を 探 り ま す 。 語 形 変 化 が 多 い ラ テ ン 語 な ど で は 正 規 表 現 を 工 夫 す る こ と で 、 さ ま ざ ま な 語 の 組 み 合 わ せ を 実 現 で き ま す 。 語 形 変 化 が 比 較 的 少 な い 英 語 で も 、 た と え ば #ha(ve|s|d|ving)# に よ っ て 要 素 の 1 つ に have を 指 定 す る こ と が で き ま す 。結 合 度 を 示 す さ ま ざ ま な 係 数 を 同 時 に 出 力 し ま す 。6.1. 共起係数
「 共 起 係 数 」の オ プ シ ョ ン を 選 択 す つ と 、2 つ の 要 素 は 同 じ セ ル の 中 に あ る 、 と い う 条 件 を 満 た し て い る か ぎ り 、ど れ だ け 間 隔 が 空 い て も か ま い ま せ ん 。 「 X:」 は 第 1 要 素 の 総 頻 度 を 示 し 、 「 Y:」 は 第 2 要 素 の 総 頻 度 を 示 し ま す 。41 「 共 起 回 数 」は 2 要 素 が 連 続 し て 現 れ た 語 数 で す 。こ の 場 合「 順 番 区 別 」を チ ェ ッ ク し て い な い の で 、 第 2 要 素 + 第 1 要 素 と い う 順 番 の デ ー タ も 数 え ま す 。 「 全 語 数 」 は デ ー タ 内 の 総 語 数 で す 。 「 相 互 情 報 量 」 「 Dice 係 数 」 「 Jaccard 係 数 」 「 Ochiai 係 数 」 「 優 先 係 数 」 に つ い て は 『 基 礎 』 を 参 照 し て く だ さ い 。 次 は [Classification (分 類 )]の コ ン ボ ボ ッ ク ス で [Sheet]を 選 択 し た 結 果 で す 。 次 は [Classification (分 類 )]の コ ン ボ ボ ッ ク ス で [D]列 を 選 択 し た 結 果 で す 。 Coocurrence Analysis: Cooc.coef. All
Freq. of X: #(por|para)# 521
Freq. of Y: &[aei]r# 883
a (++) Cooccur. (XY): #(por|para)#.*?&[aei]r# 483 b (+-) Exclusive (X): #(por|para)# 38 c (-+) Exclusive (Y): &[aei]r# 400
Total (N) 26,668 Mutual information 4.8073 Dice 2a/(2a+b+c) 0.6880 Jaccard a/(a+b+c) 0.5244 Ochiai a/√[(a+b)(a+c)] 0.7121 Preference (2a-b-c)/(2a+b+c) 0.3761
Coocurrence Analysis: Cooc.coef. Sample Sample-2
Freq. of X: #(por|para)# 420 101
Freq. of Y: &[aei]r# 753 130
a (++) Cooccur. (XY): #(por|para)#.*?&[aei]r# 398 85 b (+-) Exclusive (X): #(por|para)# 22 16 c (-+) Exclusive (Y): &[aei]r# 355 45
Total (N) 22,303 4,365 Mutual information 4.8108 4.8206 Dice 2a/(2a+b+c) 0.6786 0.7359 Jaccard a/(a+b+c) 0.5135 0.5822 Ochiai a/√[(a+b)(a+c)] 0.7077 0.7418 Preference (2a-b-c)/(2a+b+c) 0.3572 0.4719
42
6.2. 隣接係数
[Conjunction]を 選 択 す る と 、2 つ の 要 素 が 連 続 す る ケ ー ス で の 頻 度 を 計 算 し ま す 。6.3. 間隔係数
「 間 隔 係 数 」は 2 つ の 要 素 の 間 に 指 定 し た 数 字 以 下 の 文 字 数 の デ ー タ が あ る と き の 回 数 を 計 算 し 、 そ れ を 共 起 回 数 と し ま す 。Coocurrence Analysis: Cooc.coef. 1 Madrid 2 Sevilla 3 México 4 Lima 5 B.A.
Freq. of X: #(por|para)# 14 6 14 6 481
Freq. of Y: &[aei]r# 7 2 8 13 853
a (++) Cooccur. (XY): #(por|para)#.*?&[aei]r# 12 4 12 5 450
b (+-) Exclusive (X): #(por|para)# 2 2 2 1 31
c (-+) Exclusive (Y): &[aei]r# -5 -2 -4 8 403
Total (N) 411 256 495 419 25,084 Mutual information 5.6532 6.4150 5.7289 4.7473 4.7820 Dice 2a/(2a+b+c) 1.1429 1.0000 1.0909 0.5263 0.6747 Jaccard a/(a+b+c) 1.3333 1.0000 1.2000 0.3571 0.5090 Ochiai a/√[(a+b)(a+c)] 1.2122 1.1547 1.1339 0.5661 0.7025 Preference (2a-b-c)/(2a+b+c) 1.2857 1.0000 1.1818 0.0526 0.3493
Coocurrence Analysis: Cont.coef. 1 Madrid 2 Sevilla 3 México 4 Lima 5 B.A. Freq. of X: #(por|para)# 14 6 14 6 481 Freq. of Y: &[aei]r# 7 2 8 13 853 a (++) Cooccur. (XY): #(por|para)# ?&[aei]r# 5 1 5 1 160 b (+-) Exclusive (X): #(por|para)# 9 5 9 5 321 c (-+) Exclusive (Y): &[aei]r# 2 1 3 12 693 Total (N) 411 256 495 419 25,084 Mutual information 4.3902 4.4150 4.4659 2.4254 3.2901 Dice 2a/(2a+b+c) 0.4762 0.2500 0.4545 0.1053 0.2399 Jaccard a/(a+b+c) 0.3125 0.1429 0.2941 0.0556 0.1363 Ochiai a/√[(a+b)(a+c)] 0.5051 0.2887 0.4725 0.1132 0.2498 Preference (2a-b-c)/(2a+b+c) -0.0476 -0.5000 -0.0909 -0.7895 -0.5202
43 3 つ の 係 数 を 比 較 す る と 、 接 係 数 よ り も 共 起 係 数 の ほ う が 「 共 起 回 数 」 が 多 く 、 間 隔 係 数 は 、 両 者 の 間 に な る こ と が わ か り ま す 。 間 隔 語 数 を 増 や す と 、 共 起 回 数 が 増 加 す る 可 能 性 が 高 く な り ま す 。 隣 接 係 数 <= 間 隔 係 数 <= 共 起 係 数
6.4. 順番を区別
ラ テ ン 語 は 語 順 が 比 較 的 自 由 な 言 語 で す 。 「 順 番 区 別 」 の チ ェ ッ ク の 有 無 に よ る 出 力 を 比 較 し ま し ょ う 。 次 は 「 文 」 の 中 で 順 番 を 区 別 し た と き と 、 区 別 し な い と き の 出 力 を 比 べ た も の で す 。Coocurrencia Con dist. de orden Sin dist. de orden
X: #domin(us|i |um)# 164 164
Y: #de(us|i|um )# 200 200
a (++) Cooccur. (XY):
#domin(us|i|um )#+#de(us|i|um)#
29 33
b (+-) Exclusive (X): #domin(us|i |um)# 135 131 c (-+) Exclusive (Y): #de(us|i|um )# 171 167
Total (N) 25,569 25,569
Mutual information(M I) 4.4987 4.6851
Dice 2á(2a+b+c) 0.1593 0.1813
Jaccard á(a+b+c) 0.0866 0.0997
Ochiai á√ [(a+b)(a+c)] 0.1601 0.1822
Preference (2a -b-c)/(2a+b+c) −0.6813 −0.6373
Coocurrence Analysis: Interval letters100 1 Madrid 2 Sevilla 3 México 4 Lima 5 B.A.
Freq. of X: #(por|para)# 14 6 14 6 481
Freq. of Y: &[aei]r# 7 2 8 13 853
a (++) Cooccur. (XY): #(por|para)#.{0,100}?&[aei]r# 12 4 12 5 450
b (+-) Exclusive (X): #(por|para)# 2 2 2 1 31
c (-+) Exclusive (Y): &[aei]r# -5 -2 -4 8 403
Total (N) 411 256 495 419 25,084 Mutual information 5.6532 6.4150 5.7289 4.7473 4.7820 Dice 2a/(2a+b+c) 1.1429 1.0000 1.0909 0.5263 0.6747 Jaccard a/(a+b+c) 1.3333 1.0000 1.2000 0.3571 0.5090 Ochiai a/√[(a+b)(a+c)] 1.2122 1.1547 1.1339 0.5661 0.7025 Preference (2a-b-c)/(2a+b+c) 1.2857 1.0000 1.1818 0.0526 0.3493
44
7. 文 法タ グ
辞 書 と 文 法 規 則 を 使 っ て 、 テ キ ス ト に 、 出 現 形 ・ 代 表 形 ・ 文 法 情 報 を 付 加 し ま す 。 出 現 形 は テ キ ス ト に 現 れ た 形 で す 。 代 表 形 は 辞 書 に 代 表 と し て 載 せ ら れ て い る 形 式 で す 。 文 法 情 報 は 辞 書 で 初 期 規 定 し 、 そ れ を 文 法 規 則 に よ っ て 変 形 し ま す 。 複 数 の 解 釈 が あ る と き は 文 法 規 則 で 単 一 化 し ま す 。45