1
Excel VBA による
言語データ分析
ver. 201 5.4.8 こ の 文 書 は LETRAS.xlsm (以 下 で は LETRAS と し ま す ) を 簡 単 に 解 説 し た も の で す 。 LETRAS は 随 時 改 訂 し て い ま す の で 、 こ の 文 書 も 予 告 な し に 改 訂 し て い き ま す 。 常 に 最 終 バ ー ジ ョ ン を 次 の サ イ ト に ア ッ プ ロ ー ド し ま す 。 ご 使 用 に な ら れ た 方 は ぜ ひ ご 意 見 を お 寄 せ く だ さ い 。 私 の メ ー ル ア ド レ ス は LETRAS の 開 始 ペ ー ジ を ご 覧 く だ さ い 。 参 考 に さ せ て い た だ き 、 よ り よ い も の を 目 指 し た い と 思 い ま す 。 よ ろ し く お 願 い い た し ま す 。http://lecture. ecc. u-tokyo.ac.jp/~cueda/gengo/ (東 京 大 学 ・ 上 田 博 人 )
2
1. 開 始
LETRAS の フ ァ イ ル を 開 き 、マ ク ロ を 有 効 に し た 後 、シ ョ ー ト カ ッ ト [Ctrl] + [Shift] + L(エ ル )を 押 す と LETRAS の マ ク ロ が 起 動 し ま す 。 次 は 「 説 明 」 の タ ブ を 開 い た と こ ろ で す 。 こ の フ ォ ー ム の タ イ ト ル バ ー に 、 プ ロ グ ラ ム 名 (LETRAS …)、 最 小 化 ボ タ ン ( ― ) 、 最 大 化 ボ タ ン ( □ ) 、 終 了 ボ タ ン ( ×) が あ り ま す 。 分 析 中 に こ の フ ォ ー ム が 邪 魔 に な っ た と き は 最 小 化 ボ タ ン を 押 し て く だ さ い 。 再 び 最 大 化 ボ タ ン を 押 す と 元 の 大 き さ に 戻 り ま す 。 「 終 了 」 ボ タ ン を 押 す と フ ォ ー ム が 消 え ま す 。 再 度 立 ち 上 げ る と き は シ ョ ー ト カ ッ ト [Ctrl]+[Shift]+L で 起 動 し て く だ さ い 。 【 表 紙 】の 下 に 作 成 者 の メ ー ル ア ド レ ス が 載 せ ら れ て い ま す 。プ ロ グ ラ ム の 不 具 合 や 改 善 点 な ど の ご 意 見 を お 寄 せ く だ さ い 。 な る べ く 多 く の 人 に 回 答 を 差 し 上 げ ら れ る よ う に い た し ま す 。LETRAS を 立 ち 上 げ て い れ ば 、 他 の Book も 分 析 で き ま す 。 Book 内 で LETRAS の ユ ー ザ ー フ ォ ー ム を 表 示 し て く だ さ い 。
3 更 し 、 [A12]に テ ー マ の 色 を 使 っ て 塗 り つ ぶ し て く だ さ い 。 [Ctl]+[Shift]+L で 日 本 語 バ ー ジ ョ ン の LETRAS を 起 動 し ま す 。 こ の フ ォ ー ム に は 次 の よ う な 共 通 の ベ ー ス の 上 に 、 さ ま ざ ま な タ ブ の つ い た ペ ー ジ が 載 せ ら れ て い ま す 。 入 力 設 定 現 在 選 択 さ れ て い る シ ー ト と 列 を 入 力 デ ー タ に 設 定 し ま す 。 実 行 処 理 を 実 行 し ま す 。 削 除 選 択 さ れ て い る シ ー ト を 削 除 し ま す 。複 数 選 択 す る こ と も で き ま す 。 開 始 時 の シ ー ト を 削 除 し よ う と す る と 確 認 を 求 め ら れ ま す 。 入 力 行 数 入 力 デ ー タ の 全 行 数 が 示 さ れ ま す 。 入 力 行 番 実 行 中 に 入 力 デ ー タ の 行 番 が 順 次 表 示 さ れ ま す 。 出 力 行 番 実 行 中 に 出 力 デ ー タ の 行 番 が 順 次 表 示 さ れ ま す 。 実 行 時 間 実 行 時 間 が ミ リ セ カ ン ド 単 位 で 表 示 さ れ ま す 。
次 は LETRAS の Excel シ ー ト に 載 せ た サ ン プ ル デ ー タ Sample で す 。
English Español 日本語
LETRAS for textual data analysis LETRAS para análisis de datos textuales
LETRAS: テキス トデータ分析用プ
ログラム集
ver. 2013.10.5 « «
Select laguaguage in the cell [A6]: English=1; Spanish=2; Japanese=3, and restart LETRAS.
Seleccione el idioma en la celda [A6]: inglés = 1; español = 2; japonés = 3, y reinicie LETRAS.
言語を選択してください。英語=1; スペイン語=2; 日本語=3 をセル [A6]に書き込み再度LETRASを起 動してください。
3 « «
Select decimal separator in the cell [A8]: PT (point) or CM (comma), and restart LETRAS.
Seleccione el separador decimal en la celda [A8]: PT (punto) o CM
(coma), y reinicie LETRAS.
小数点を選択してください。(点) =PTまたはCM(コンマ)をセル[A8] に書き込み、再度LETRASを起動 してください。
PT « «
Select thousands separator in the cell [A10]: PT (point), CM
(comma) orBL (blank), and restart LETRAS.
Seleccione el separador de miles en la celda [A10]: PT (punto), CM (coma) o BL (blanco), y reinicie LETRAS. 千位点を選択してください。PT (点)、CM(コンマ)またはBL(ブラ ンク)をセル[A10]に書き込み、 LETRASを再起動してください。 CM « «
Select background color in the cell [A12].
Selecccione el color de fondo en la
celda [A12]. 背景色を[A12]に指定してください。
Background color Color de fondo 背景色
4 サ ン プ ル は ス ペ イ ン 語 圏 各 地 の 会 話 例 で す 。 デ ー タ は 、 こ の よ う に 、 初 め の 1 行 を タ イ ト ル 行 と し ま す 。 A 列 が テ キ ス ト 、 B 列 以 降 は そ れ ぞ れ の 行 に つ い て の 付 加 情 報 で す 。 「 表 紙 」以 外 の タ ブ で 実 行 が 可 能 で す 。時 間 が か か る 処 理 を 中 止 す る と き は 、 [Esc]キ ー を 押 し て く だ さ い 。 テキスト 見出し:1 見出し:2 行
A la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial. El profesor hablará con el conserje, pidiéndole información sobre los servicios del hotel, así como sobre posibles visitas turísticas por la región.
[A] Hotel (a) Madrid 1
– ¡Buenos días! Desearía una habitación individual para
5
2. 編 集
「 テ キ ス ト 編 集 」の タ ブ に 移 動 し て く だ さ い 。こ こ で 言 語 資 料 を 作 成 し た り 整 理 し た り し ま す 。2.1. コピーデータをシートにインポート
は じ め に 言 語 資 料 ( コ ー パ ス ) を 用 意 し ま す 。 自 分 が 持 っ て い る 言 語 デ ー タ や 自 分 が 作 成 し た 言 語 デ ー タ を Excel の シ ー ト 上 に コ ピ ー し て 言 語 資 料 を 作 成 し ま し ょ う 。 た と え ば 次 の よ う な 形 式 の フ ァ イ ル を Excel に 読 み 込 む こ と が で き ま す 。た と え ば 、#Tema:は 出 力 シ ー ト の B 列 の 1 行 の セ ル [B1] に 「 Tema」 と い う 文 字 が 入 り 、 同 じ 列 の 次 の 行 に Hotel が 入 る こ と を 意 味 し ま す 。こ の Hotel は 次 に #Tema:が 指 定 さ れ る ま で 繰 り 返 し ま す 。#Ciudad: も 同 様 で す 。 テ キ ス ト に は 何 も 指 定 し ま せ ん 。#Tema:[A] Hotel #Ciudad:(a) Madrid
A la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial. El profesor hablará con el conserje, pidiéndole información sobre los servicios del hotel, así como sobre
6 posibles visitas turísticas por la región.
– ¡Buenos días! Desearía una habitación individual para estar tres noches. ¿Qué precio tiene?
– ¡Buenos días, señor, bienvenido! El hotel cuenta con habitaciones individuales con baño, televisión y teléfono y algunas de ellas con vistas al Monasterio. El precio de la habitación por día, desayuno incluido, es de 12.000 pesetas. ¿Está bien así o prefiere usted otra cosa?
次 が 実 行 結 果 で す 。
2.2. 列自動調節・行高自動調整
セ ル 内 の デ ー タ の 量 に し た が っ て 列 幅 と 行 高 を 適 切 な 規 模 に 調 整 し ま す 。
TX Tema Ciudad
A la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial. El profesor hablará con el conserje, pidiéndole información sobre los servicios del hotel, así como sobre posibles visitas turísticas por la regió n.
[A] Hotel (a) Madrid
– ¡Buenos días! Desearía una habitación individual para estar tres
noches. ¿Qué precio tiene? [A] Hotel (a) Madrid – ¡Buenos días, señor, bienvenido! El hotel cuenta con habitaciones
individuales con baño, televisión y teléfono y algunas de ellas con vistas al Monasterio. El precio de la habitación por día, desayuno incluido, es de 12.000 pesetas. ¿Está bien así o prefiere usted otra cosa?
[A] Hotel (a) Madrid
TX Tema Ciudad
A la recepción de un hotel madrileño llega un profesor extranjero para
participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial. El profesor hablará con el conserje, pidiéndole información sobre los servicios del hotel, así como sobre posibles visitas turísticas por la región.
[A] Hotel (a) Madrid
– ¡Buenos días! Desearía una habitación individual para estar tres noches. ¿Qu
é precio tiene? [A] Hotel (a) Madrid
– ¡Buenos días, señor, bienvenido! El hotel cuenta con habitaciones individuales con baño, televisión y teléfono y algunas de ellas con vistas al Monasterio. El precio de la habitación por día, desayuno incluido, es de 12.000 pesetas. ¿Está bien así o prefiere usted otra cosa?
7
2.3. 異なるセル
2.3.1. 境 界表示
選 択 し た 列 の 、 直 前 の セ ル と 異 な る セ ル が 出 現 し た と き に 境 界 線 を 引 き ま す 。 該 当 列 を キ ー に し て 並 べ 替 え を し て お く と よ い で し ょ う 。 次 は 、 C 列 を 選 択 し た 場 合 で す 。2.3.2. 同 一セル に同番 号
選 択 し た 列 で 同 じ デ ー タ が 続 く 行 に 同 一 の 番 号 を つ け ま す 。次 は C 列 を 選 択 し た 場 合 で す 。 E 列 が 3, 4 と 変 化 し ま す 。2.3.3. 異 なるセ ルで番 号再開 始
選 択 し た 列 で 、 異 な る セ ル に な っ た と き 、 番 号 を 1 か ら 再 開 始 し ま す 。 以 下 は ID 列 を 選 択 し た 場 合 で す 。– Muchas gracias. Y una última pregunta: yo soy socio de ***. ¿Hacen
ustedes algún tipo de descuento en la estancia? Éste es mi carnet. [A] Hotel 1 12 Vrtx – Sí, señor. Gracias. Los socios tienen un 10% en todas nuestras tarifas. [A] Hotel 1 13 Vrtx – Bien, pues gracias otra vez. Me daré una ducha y después saldré a
recorrer la ciudad que parece tan bonita. Hasta luego. [A] Hotel 1 14 Vrtx – Adiós, señor. ¡Y feliz estancia entre nosotros! [A] Hotel 1 15 Vrtx En la recepción de un hotel llega un viajero que viene atraído por el
turismo para conocer la ciudad de Sevilla, debido a que tuvo la oportunidad de conocer la promoción de la misma en su país por medio de la televisión y la prensa. El turista dialoga con el consejero solicitá ndole información sobre comidas, costumbres y visitas.
[A] Hotel 2 16 Vrtx
B.A. – Llegó la hora de separarnos y de comenzar la tarea diaria. Nos veremos a la hora de
almorzar, ¿querés? Yo estaré en el comedor a la una menos cuarto. [C] Funcionarios238 3
B.A. – Bueno; de acuerdo, Javi. Comeremos juntos. Nos vemos... [C] Funcionarios239 3
B.A. – Chau, Cholo. [C] Funcionarios240 3
Madrid
Dos estudiantes universitarias, que estudian la carrera de Económicas en la Universidad de Madrid, van a coger juntas el metro hasta Ciudad Universitaria, en donde se encuentra la universidad. Susana López y Carmen García estudiaron en el mismo instituto de bachillerato; ahora también van juntas a la universidad y, de vez en cuando, quedan para estudiar.
[D] Estudiantes 241 4
8
2.4. シートの結合・分離
2.4.1. 複 数のシ ートを 結合
「 Unite selected sheets (選 択 し た シ ー ト を 結 合 )」で 複 数 の シ ー ト を 連 続 さ せ て 1 つ の シ ー ト に 結 合 さ せ ま す 。 リ ス ト ボ ッ ク ス 「 入 力 シ ー ト 」 で 複 数 の シ ー ト を 選 択 し て く だ さ い 。
Sample-2
出 力 :
2.4.2. 選 択列に よって シート を分離
「 Separate sheet by selected column (sorted) (ソ ー ト さ れ た 選 択 列 に よ っ て シ ー ト を 分 離 )」に よ っ て 選 択 さ れ た 列( シ ー ト の 列 を 選 択 し て く だ さ い )に あ る デ ー タ を 基 準 に し て 異 な る シ ー ト に 分 離 し ま す 。 選 択 さ れ た デ ー タ の 種 類 が 多 い と 、 そ の 数 だ け シ ー ト が 作 成 さ れ て し ま う の で 、 最 大 シ ー ト 数
– B ie n, pue s gr a c ia s ot r a ve z. M e da r é una duc ha y de s pué s s a ldr é a
r e c o r r e r la c iu d a d q u e p a r e c e t a n b o n it a . H a s t a lu e g o . [ A ] H o t e l 1 14 14 – A dió s , s e ñ or . ¡ Y f e liz e s t a nc ia e nt r e nos ot r os ! [ A ] H o t e l 1 15 15 E n la r e c e p c ió n d e u n h o t e l lle g a u n v ia je r o q u e v ie n e a t r a í d o p o r e l t u r is m o p a r a c o n o c e r la c iu d a d d e S e v illa , d e b id o a q u e t u v o la o p o r t u n id a d d e c o n o c e r la p r o m o c ió n d e la m is m a e n s u p a í s p o r m e d io d e la t e le v is ió n y la p r e n s a . E l t u r is t a d ia lo g a c o n e l c o n s e je r o s o lic it á n d o le in f o r m a c ió n s o b r e c o m id a s , c o s t u m b r e s y v is it a s . [ A ] H o t e l 2 16 1
– ¡ B ue nos dí a s ! ¿ T ie ne n una ha bit a c ió n c on ba ñ o pa r a una pe r s ona pa r a
t r e s n o c h e s ? [ A ] H o t e l 2 17 2
Ro w Te xt Tit le - 1 Tit le - 2 P a r .
981 ●1 0 Re unió n d e a migo s . D e s p e d id a 1 0 D e s p e d id a- 1 982 ■1 M a d r id 1 0 D e s p e d id a1 M a d r id 1
983
En c a s a d e la fa milia G a r c í a G ut ié r r e z t ie ne luga r una r e unió n e nt r e a migo s p a r a d a r le la b ie nve nid a a S e le ne , una a miga ve nid a d e S a lt a , A r ge nt ina , q ue ha o b t e nid o una b e c a p a r a la U nive r s id a d d e S a la ma nc a . A p r o ve c ha nd o s u e s t a nc ia e n Es p a ñ a , S e le ne ha via j a d o ha s t a M a d r id p a r a vis it a r a s u a migo a q uie n ha b í a c o no c id o e l a ñ o a nt e r io r e n un c o ngr e s o e n M é xic o y p a r a c o no c e r a s u fa milia . A l d í a s iguie nt e , lo s G a r c í a G ut ié r r e z o r ga niza n una r e unió n d e a migo s p a r a p r e s e nt a r le s a s u invit a d a , y a q ué lla s e d e s a r r o lla e n un a mb ie nt e muy c o r d ia l.
1 0 D e s p e d id a1 M a d r id 2
984 – ¡ H o la , G o nza lo ! ¡ G r a c ia s p o r ve nir ! Te p r e s e nt o a S e le ne , nue s t r a a miga q ue ha lle ga d o d e A r ge nt ina .1 0 D e s p e d id a1 M a d r id 3
Ro w Te xt Tit le - 1 Tit le - 2 P a r .
1 ●1 En e l ho t e l 0 1 H o t e l - 1
2 ■1 M a d r id 0 1 H o t e l 1 M a d r id 1
3
A la r e c e p c ió n d e un ho t e l ma d r ile ñ o lle ga un p r o fe s o r e xt r a nj e r o p a r a p a r t ic ip a r c o mo c o nfe r e nc ia nt e e n un s e mina r io s o b r e N ut r ic ió n o r ga niza d o p o r una unive r s id a d d e ve r a no c o n s e d e e n El Es c o r ia l. El p r o fe s o r ha b la r á c o n e l c o ns e r j e , p id ié nd o le info r ma c i ó n s o b r e lo s s e r vic io s d e l ho t e l, a s í c o mo s o b r e p o s ib le s vis it a s t ur í s t ic a s p o r la r e gió n.
9 の 初 期 値 を 10 と し て あ り ま す 。 入 力 : 2.3.1 の 出 力 シ ー ト ( C 列 を 選 択 し ま す 。 ) 出 力 : 2.3.1 の 入 力 シ ー ト
2.5. マークによる列の結合・分離
2.5.1. 選 択列を マーク をつけ て結合
隣 接 し た 複 数 の 列 を 選 択 し 、 そ れ ら を マ ー ク を つ け て 結 合 し ま す 。 初 期 設 定 で は 出 力 で 結 合 す る 対 象 列 を 削 除 し ま す 。 入 力 : CD 列 を 選 択 出 力 :2.5.2. マ ークに よる列 横分離
1 列 の 中 に あ る デ ー タ を マ ー ク に よ っ て 要 素 の 数 だ け 複 数 の 列 に 分 離 し ま す 。 入 力 : 2.3.4 の 出 力 シ ー ト 出 力 : 2.3.4 の 入 力 シ ー ト2.5.3. マ ークに よる列 縦分離
マ ー ク に よ っ て 1 列 を 複 数 の 列 に 分 離 し 、 要 素 の 数 だ け 縦 に 並 べ て 出 力 し ま す 。 次 は 分 離 す る マ ー ク と し て コ ン マ (,)を 指 定 し ま し た 。 位 置 は 「 LastRow Text Title-1/Title-2 Par.
981 ●10 Reunión de amigos. Despedida 10 Despedida/- 1
982 ■1 Madrid 10 Despedida/1 Madrid 1
983
En casa de la familia García Gutiérrez tiene lugar una reunión entre amigos para darle la bienvenida a Selene, una amiga venida de Salta, Argentina, que ha obtenido una beca para la Universidad de Salamanca. Aprovechando su estancia en España, Selene ha viajado hasta Madrid para visitar a su amigo a quien había conocido el año anterior en un congreso en México y para conocer a su familia. Al día siguiente, los García Gutiérrez organizan una reunión de
10 position (最 終 位 置 )」 で す 。
2.6. 逆引き配列による並べ替え(r)
対 象 の 文 字 列 の 逆 引 き 配 列 に よ る 整 列 を し ま す 。 語 尾 に よ る 語 形 変 化 な ど の 分 析 に 役 立 ち ま す 。 A 列 を 逆 引 き に す る と き は Ar の よ う に 指 定 し ま す 。 出 力 : (...)Row Text Title-1 Title-2 Par.
981 ●10 Reunión de amigos. Despedida 10 Despedida - 1
982 ■1 Madrid 10 Despedida 1 Madrid 1
983 En casa de la familia García Gutiérrez tiene lugar una reunión entre amigos para
darle la bienvenida a Selene, 10 Despedida 1 Madrid 2 983 una amiga venida de Salta, 10 Despedida 1 Madrid 2
11
3. 検 索
「 検 索 」の コ ン ボ ボ ッ ク ス に は「 ア イ テ ム 」「 文 内 ア イ テ ム 」「 文 外 ア イ テ ム 」 「 文 脈 内 ア イ テ ム 」 「 語 列 内 ア イ テ ム 」 「 ア イ テ ム 存 在 文 」 「 ア イ テ ム 不 在 文 」 「 ア イ テ ム 置 換 」 の 機 能 が あ り ま す 。 そ れ ぞ れ 「 正 規 表 現 」 と 「 単 語 目 録 」の オ プ シ ョ ン に よ る 検 索 式 が 使 え ま す 。「 正 規 表 現 」の コ ン ボ ボ ッ ク ス に は シ ー ト RE に 用 意 し た さ ま ざ ま な 検 索 式 が 表 示 さ れ る の で 、 そ の 中 か ら 選 択 し た り 、ま た 独 自 に 検 索 式 を 設 定 す る こ と が で き ま す 。「 単 語 目 録 」 の コ ン ボ ボ ッ ク ス も 同 様 で す 。 上 下 に 並 ん だ テ キ ス ト ボ ッ ク ス の 上 の テ キ ス ト ボ ッ ク ス で 指 定 し た 検 索 式 で 入 力 シ ー ト の 選 択 列 の デ ー タ を 置 換 ・ 検 索 し ま す 。 下 の テ キ ス ト ボ ッ ク ス は 、 そ の 下 の 小 さ な テ キ ス ト ボ ッ ク ス で 指 定 し た ユ ニ コ ー ド の 文 字 や 、 そ の 右 の 「 ラ テ ン 補 助 」 が あ る コ ン ボ ボ ッ ク ス で 指 定 し た 文 字 グ ル ー プ が 表 示 さ れ ま す 。 こ れ を 上 の 検 索 式 テ キ ス ト ボ ッ ク ス に コ ピ ー し て 使 用 す る こ と が で き ま す 。 左 下 に あ る ス ピ ン ボ タ ン に よ っ て 、 2 つ の テ キ ス ト ボ ッ ク ス の 領 域 を 変 え る こ と が で き ま す 。 そ の 右 の ス ピ ン ボ タ ン は 上 の テ キ ス ト ボ ッ ク ス の 文 字 を 拡 大 ・ 縮 小 し ま す 。 「 チ ェ ッ ク 」 ボ タ ン を 押 す と 検 索 式 が 一 般 の 正 規 表 現 に 変 換 さ れ ま す 。 「 保 存 」 ボ タ ン を 押 す と で 正 規 表 現 や 田 ん ぼ 目 録 を 、 そ れ ぞ れ シ ー ト RE, WL に 保 存 し 、 左 の コ ン ボ ボ ッ ク ス12 に 数 字 を つ け て 追 加 さ れ ま す 。 「 ク リ ア 」 ボ タ ン を 押 す と テ キ ス ト ボ ッ ク ス が 空 白 に な り ま す 。 ふ つ う は 「 大 小 文 字 区 別 」 を し ま せ ん が 、 区 別 す る と き は こ れ を チ ェ ッ ク し て く だ さ い 。 「 文 内 ・ ア イ テ ム 」 で 「 背 景 色 」 を チ ェ ッ ク す る と 該 当 す る セ ル に 色 が 塗 ら れ ま す 。 「 全 出 力 」 を チ ェ ッ ク す る と す べ て の 置 換 、 検 索 の 結 果 が 出 力 さ れ 、 チ ェ ッ ク を 外 す と 、 置 換 、 検 索 さ れ た 行 だ け が 出 力 さ れ ま す 。 「 検 索 」 の オ プ シ ョ ン ア イ テ ム 検 索 さ れ た ア イ テ ム を 文 の 標 識( テ キ ス ト 名 や 文 番 号 な ど を 一 義 的 に 示 す も の で 、 以 下 で は ID と 呼 び ま す ) の 集 合 と 共 に 表 示 し ま す 。 文 内 ア イ テ ム 検 索 さ れ た ア イ テ ム を テ キ ス ト の 中 で マ ー ク し ま す 。 文 外 ア イ テ ム 検 索 さ れ た ア イ テ ム を 独 立 し た 列 に 取 り 出 し て 、元 の 文 と 一 緒 に 表 示 し ま す 。 文 脈 内 ア イ テ ム 検 索 さ れ た ア イ テ ム を 中 心 に 置 き 、そ の 前 後 の 文 脈 を 左 右 に 配 置 し ま す 。 語 列 内 ア イ テ ム 検 索 さ れ た ア イ テ ム を 中 心 に 置 き 、そ の 前 後 の 語 列 を 左 右 に 配 置 し ま す 。 ア イ テ ム 存 在 文 検 索 さ れ た ア イ テ ム を 含 む デ ー タ だ け の シ ー ト を 作 成 し ま す 。 ア イ テ ム 不 在 文 検 索 さ れ た ア イ テ ム を 含 ま な い デ ー タ だ け の シ ー ト を 作 成 し ま す 。 ア イ テ ム 置 換 検 索 さ れ た ア イ テ ム を 置 換 し ま す 。 検 索 式 の オ プ シ ョ ン 正 規 表 現 一 般 的 な 正 規 表 現 と LETRAS 拡 張 正 規 表 現 ( 後 述 ) が 使 え ま す 。 単 語 目 録 単 語 使 用 文 字 の 連 続 を 単 位 と し た 置 換・検 索 を し ま す 。多 く の 単 語 を 置 換・検 索 す る と き は 、単 純 一 致 や 正 規 表 現 よ り も 処 理 が 高 速 で す 。 テ キ ス ト ボ ッ ク ス 検 索 式 上 の テ キ ス ト ボ ッ ク ス に 検 索 式 を 入 力 し ま す 。
13 再 定 義 検 索 式 に 入 力 さ れ た 文 字 列 が 再 定 義 さ れ て 表 示 さ れ ま す 。 チ ェ ッ ク ボ ッ ク ス 大 小 文 字 区 別 ふ つ う は 大 小 文 字 を 区 別 し ま せ ん が 、 区 別 す る と き の は チ ェ ッ ク し て く だ さ い 。 制 限 字 数 入 力 デ ー タ の ク ラ ス 内 の 字 数 を 制 限 し ま す 。 制 限 字 数 は 下 の テ キ ス ト ボ ッ ク ス で 指 定 し て く だ さ い 。 そ の 他 ク リ ア 検 索 式 の テ キ ス ト ボ ッ ク ス を ク リ ア し ま す 。 ス ピ ン ボ タ ン (1) 上 下 の テ キ ス ト ボ ッ ク ス の 領 域 を 変 え ま す 。 ス ピ ン ボ タ ン (2) 2 つ の テ キ ス ト ボ ッ ク ス の フ ォ ン ト サ イ ズ を 調 整 し ま す 。 入 力 シ ー ト 最 終 列 に シ ー ト 名 と 行 番 ( 行 番 号 の み ) が あ る 行 を 選 択 し 、 こ の ボ タ ン を 押 す と 、 そ の 入 力 シ ー ト の 該 当 行 を 表 示 し ま す 。 入 力 面 ( シ ー ト ) か ら 出 力 面 ( シ ー ト ) に 移 動 す る と き も こ の ボ タ ン を 押 し て く だ さ い 。
3.1. アイテム
検 索 さ れ た ア イ テ ム を 文 ID1の 集 合 と 共 に 表 示 し ま す 。「 並 べ 替 え 」は「 文 字 順 」 と 「 出 現 順 」 が 選 択 で き ま す 。 「 索 引 」 の イ メ ー ジ 1 文 ID に つ い て は 「 1.3 準 備 」 を 参 照 し て く だ さ い 。14
3.1.1. 並 べ替え :文字 順
は じ め に 文 ア イ テ ム に よ る 整 列 を し て 出 力 さ せ て み ま し ょ う 。 拡 張 正 規 表 現 の &は ¥l+、 つ ま り 、 単 語 を 指 定 し ま す 。 #p% (正 規 表 現 )3.1.2. 並 べ替え :出現 順
シート 行 鍵語 見出し-1 見出し-2 段落 文 Vt 4 +profesor 01 Hotel 1 Madrid 2 1 Vt 4 +para 01 Hotel 1 Madrid 2 1 Vt 4 +participar 01 Hotel 1 Madrid 2 1 Vt 4 +por 01 Hotel 1 Madrid 2 1 Vt 4 no 01 Hotel 1 Madrid 2 1 Vt 5 +profesor 01 Hotel 1 Madrid 2 23.1.3. 連 続検索
た と え ば 正 規 表 現 「 @@@」 ( 3 文 字 ) を 使 う と 、 recepción の 中 で そ れ に マ ッ チ し た 字 列 を 次 の よ う に 次 々 に 出 力 し ま す 。 Sch.Flm. @@@ @@@ rec @@@ epc @@@ ión こ の と き 、 正 規 表 現 「 @@@」 に マ ッ チ し た 字 列 は 、 次 の 検 索 の 対 象 に な り ま せ ん 。 そ こ で 、 recepción は rec, epc,ión の よ う に 区 切 ら れ て 出 力 さ れ ま す 。一 方 、3@に よ う に 、最 初 に 数 字 を つ け て 検 索 す る と 、次 の よ う な 出 力 に な り ま す 。
検索式 焦 点 Título:1 Título:2 Fila
%d# antigüedad [C] Funcionarios (a) Madrid 177 %d# barbaridad [B] Camino (b) Sevilla 122 %d# barbaridad [B] Camino (e) B.A. 164 %d# barbaridad [E] Consultorio (a) Madrid 327 %d# bondad [H] Compras (a) Madrid 697
15 Sch.Flm. 3@ 3@ rec 3@ ece 3@ cep 3@ epc 3@ pci 3@ ció 3@ ión
こ の と き は 、recepción は rec, ece, cep, epc, pci, ció, ión の よ う に 、あ ら ゆ る 3 文 字 連 続 が 出 力 さ れ ま す 。 こ の よ う な 出 力 を 「 連 続 検 索 」 と よ ぶ こ と に し ま す 。連 続 検 索 の 検 索 式 は 、字 連 続 の 場 合 は「 3@」の よ う に 、数 字 + @ と し 、 語 連 続 の 場 合 は 「 3&」 の よ う に 、 数 字 + &と し ま す 。 連 続 検 索 は 、 ア イ テ ム の 他 に 、以 下 の 文 外 ア イ テ ム 、文 脈 内 ア イ テ ム 、語 列 内 ア イ テ ム 、 お よ び 「 集 計 」 で 使 う こ と が で き ま す 。
3.2. 文内アイテム
言 語 資 料 を 分 析 す る と き 、 関 心 の あ る 検 索 さ れ た ア イ テ ム ( 一 定 の 語 、 語 の 連 続 、 語 の 一 部 ) に 注 目 し て 、 テ キ ス ト の 中 で そ れ ら の 出 現 を 確 認 す る こ と が よ く あ り ま す 。 LETRAS で は 単 純 一 致 、 正 規 表 現 、 単 語 リ ス ト を 使 っ て 、 Excel の 列 の 中 に 見 つ か る 検 索 さ れ た ア イ テ ム を 記 号 で マ ー ク す る こ と が で き ま す 。 以 下 で は 、 比 較 的 複 雑 な 正 規 表 現 を 練 習 す る た め に 、 と く に 指 定 し な い と き は 、 す べ て 正 規 表 現 を 使 っ て 検 索 し ま す 。16 検 索 の イ メ ー ジ ¥c¥c (子 音 + 子 音 ) テキスト Unidad 1 En el hotel 1.1. Ma{*dr*}id
A la rece{*pc*}ión de un hotel ma{*dr*}ileño {*ll*}ega un {*pr*}ofesor
e{*xt*}ra{*nj*}ero para pa{*rt*}icipar como co{*nf*}ere{*nc*}ia{*nt*}e en un seminario so{*br*}e Nu{*tr*}ición o{*rg*}anizado por una unive{*rs*}idad de verano con sede en El E{*sc*}orial.
「 検 索 マ ー ク 」 を チ ェ ッ ク す る と 、 該 当 す る セ ル に 色 が 塗 ら れ ま す 。 #m% (m で 始 ま る 単 語 )「 検 索 マ ー ク 」 を チ ェ ッ ク
3.3. 文外アイテム
検 索 さ れ た ア イ テ ム を 独 立 し た A 列 に 取 り 出 し て 、元 の 文 と 一 緒 に 表 示 し R o wT e x t T it le - 1 T it le - 2 P a r . 1 ●1 E n e l h o t e l 0 1 H o t e l - 1 2 ■1 { * M a d r id * } 0 1 H o t e l 1 M a d r id1 3A la r e c e p c ió n d e u n h o t e l { * m a d r ile ñ o * } lle g a u n p r o f e s o r e x t r a n je r o p a r a p a r t ic ip a r c o { * m o * } c o n f e r e n c ia n t e e n u n s e { * m in a r io * } s o b r e N u t r ic ió n o r g a n iz a d o p o r u n a u n iv e r s id a d d e v e r a n o c o n s e d e e n E l E s c o r ia l. E l p r o f e s o r h a b la r á c o n e l c o n s e r je , p id ié n d o le in f o r { * m a c ió n * } s o b r e lo s s e r v ic io s d e l h o t e l, a s í c o { * m o * } s o b r e p o s ib le s v is it a s t u r í s t ic a s p o r la r e g ió n .
17
ま す 。 「 並 べ 替 え 」 は 「 文 字 順 」 と 「 出 現 順 」 が 選 択 で き ま す 。
「 外 置 」 の イ メ ー ジ %ndo% (ndo を 含 む 単 語 )
鍵語 テキスト
afinando y vete {*afinando*} la voz para cantarle el "Cumpleaños feliz", ¿eh?
afinando y vete {*afinando*} la voz para cantarle "Las mañanitas", ¿eh?
aguantando – Aquí estamos, hijo, {*aguantando*} para no caer...
出 力 付 加 段 落 数
出 力 す る 段 落 数 を 増 や し て 、検 証 す る 文 脈 の 範 囲 を 拡 げ る こ と が で き ま す 。 コ ン ボ ボ ッ ク ス の 数 字 を 変 え て 試 し て く だ さ い 。
同 : 付 加 段 落 1
鍵語 テキスト
afinando ¡Ah! y vete {*afinando*} la voz para cantarle el "Cumpleaños feliz",
¿eh? 6 Fiesta
afinando ¡Ah! y vete {*afinando*} la voz para cantarle "Las mañanitas", ¿eh? 6
Fiesta
aguantando ¡Qué es de tu vida, chaval ! – Aquí estamos, hijo, {*aguantando*} para
no caer... 9 Fútbol
3.4. 文脈内アイテム
検 索 さ れ た ア イ テ ム を 中 心 に 置 き 、 そ の 前 後 の 文 脈 を 左 右 に 配 置 し ま す 。 検 索 さ れ た ア イ テ ム を 中 心 の 1 列 に 置 く こ と で 、 検 索 さ れ た ア イ テ ム の 配
18
列 が 追 跡 し や す く な り ま す 。 ま た 、 そ の 前 後 の 文 脈 の 特 徴 も 目 立 ち ま す 。 「 並 べ 替 え 」 は 「 文 字 順 」 と 「 出 現 順 」 が 選 択 で き ま す 。
内 置 の イ メ ー ジ ()(%[ai]d[oa]s?)# (ado, ados, ada, adas, …な ど )
類 義 語
ラ テ ン 語 訳『 創 世 記 』に は「( 彼 は )言 っ た 」と い う 意 味 で 主 に ait, dixit, inquit と い う 3 つ の 変 化 形 が 使 わ れ て い ま す 。 ち ょ っ と 数 が 多 い の で す が 、 そ れ ぞ れ の 検 索 さ れ た ア イ テ ム の 出 現 形 を ラ テ ン 語 訳 の 原 典 で あ る ヘ ブ ラ イ 語 テ キ ス ト の 中 で 探 し て み ま し ょ う 。 た と え ば 、 ait の (1.11), (1:26), ...、 dixt の (1:6)… と い う 具 合 で す 。 そ う す る と 、 こ れ ら 全 部 は 基 本 的 に 一 つ の ヘ ブ ラ イ 語 動 詞 に 対 応 し て い る こ と が わ か り ま す 。 そ れ で は 、 ラ テ ン 語 の 3 つ の 動 詞 は ま っ た く の 同 義 語 で バ リ ア ン ト に 過 ぎ な か っ た の で し ょ う か 。 翻 訳 し た ヒ エ ロ ニ ム ス は 3 つ の 動 詞 を 気 ま ま に 使 っ て い た の で し ょ う か 。 こ こ で 、 ふ た た び 「 内 置 」 で 同 じ 検 索 さ れ た ア イ テ ム を 検 索 し て み る と 、 文 末 で は ait だ け が 使 わ れ て い て ( ait は 文 末 だ け に 限 り ま せ ん が ) 、 「 ~ と 言 っ た 」 と い う よ う な 付 け 足 し の よ う な 感 じ で す 。
19 一 方 、 、 inquit は 文 中 に 挿 入 さ れ 、 日 本 語 に す れ ば 「 ~ ― と 彼 は 言 っ た ― ~ 」 と い う よ う な 感 じ で す 。 こ の 2 つ の 動 詞 に 対 し て 、 dixit は 文 頭 で 用 い ら れ ( 逆 に 文 頭 だ か ら と 言 っ て dixit に な る 、 と い う こ と で は あ り ま せ ん が ) 、 「 ( 彼 が ) 言 っ た こ と は ~ 」 と い う よ う な し っ か り と し た 意 味 合 い が 感 じ ら れ ま す 。 ス ペ イ ン 語( だ け で は あ り ま せ ん が )は こ れ ら の 類 義 語( け っ し て「 同 義 語 」 で は あ り ま せ ん )の 中 か ら dixit だ け を 継 承 し ま し た 。dixit の は っ き り と し た 意 味 と 形 が 好 ま れ た の だ と 思 い ま す 。 「 と は 思 わ な い 」 次 は 私 た ち が 編 集 し た ス ペ イ ン 語・日 本 語 辞 典 の 用 例 の 日 本 語 の 部 分「 思 い ま せ ん 」 を 「 内 置 」 で 検 索 し た 結 果 で す 。
20 検 索 さ れ た ア イ テ ム の 前 の 位 置 を 見 る と 、ほ と ん ど が「 と は 」で 終 わ っ て い て 、 な ぜ か 「 と 思 い ま せ ん 」 の 例 が 見 つ か り ま せ ん で し た 。 次 は 夏 目 漱 石『 坊 っ ち ゃ ん 』の 全 文 を 調 べ た 結 果 で す 。「 思 う 」の 前 は「 と 」 に 限 ら れ 、「 思 わ な い 」の 前 で は ほ と ん ど が「 と は 」 が 現 れ て い ま す 。こ の よ う な 分 布 は 統 計 的 な 有 意 差 を 調 べ る ま で も な く 、見 た だ け で 単 に 偶 然 で 起 き る は ず が な い こ と が わ か り ま す 。 引 用 部 「 思 う 」 「 思 わ な い 」 「 と 」 183 例 な し 「 と は 」 1 例 11 例 「 と 思 わ な い 」と 言 っ て も ち ゃ ん と 日 本 語 と し て 成 り 立 つ の に 、実 際 に ほ と ん ど 使 わ れ な い 理 由 は 、「 思 わ な い 」と い う の が 単 に「 思 う 」の 否 定 形 と い う の で は な く て 、ち ょ う ど「 … な ん て 信 じ ら れ な い 」と い う よ う な 話 者 の 何 ら か の 評 価 を 示 し て い る か ら で は な い か と 思 わ れ ま す 。そ の 評 価 の 対 象 が 「 … と は 」 で 表 示 さ れ て い る の で し ょ う 。 ス ペ イ ン 語 の 「 ( 私 は ) 思 う 」 creo の 目 的 節 に は que+ 直 説 法 が 使 わ れ 、 「 思 わ な い 」 no creo で は 接 続 法 が 使 わ れ ま す 。 そ し て 学 生 の 答 案 や 日 本 の 文 法 書 を 見 る と 、そ の ほ と ん ど が「 … と は 思 い ま せ ん 」と 訳 し て い ま す 。ス ペ イ ン 語 文 法 で は「 否 定 」と い う 意 味 要 素 が 接 続 法 の 条 件 に な る 、と 論 じ ら れ る こ と が 多 い の で す が 、 no creo を 単 に 動 詞 の 否 定 形 と す る よ り も 、 や は り 「 信 じ ら れ な い 」 と い う 「 評 価 」 と い う 話 者 の 態 度 が 関 わ っ て い る の で し ょ う 。こ の 点 で 日 本 語 と ス ペ イ ン 語 の 文 法 の 間 に は 偶 然 で は な い 、人 間 の 普 遍 的 な 認 知 に 関 わ る 意 味 の 平 行 関 係 が あ る よ う に 思 わ れ ま す 。 私 た ち は 理 論 的 に 導 か れ た 文 法 の 規 則 を 実 際 の 言 語 使 用 に あ て は め る こ と が 多 い の で す が 、実 際 の 言 語 使 用 の 分 析 が 逆 に 理 論 的 な 文 法 の 問 題 を 再 考 す る き っ か け に な る こ と が あ り ま す 。帰 納 法 と 演 繹 法 を 両 立 さ せ る こ と が で き れ ば よ い と 思 い ま す 。
3.5. 語列内アイテム
「 3.5. 語 列 内 ア イ テ ム 」 で は 、 キ ー ワ ー ド と 一 緒 に 現 れ る 語 を そ の 位 置 に そ っ て 集 計 し た り 、 集 め た り 、 連 続 し て 扱 っ た り し て 、 そ の 関 係 を 探 り ま す 。 こ こ で は 単 語 を 単 位 と し て 、 そ の 前 後 の 数 語 と の 連 続 関 係 を 分 析 し ま す 。 出 力 の 形 式 に は 「 語 形 」 「 集 計 」 「 合 同 」 「 結 合 」 が あ り ま す が 、 こ の 中 で「 語 形 」だ け が 文 の 横 の つ な が り を 保 持 し ま す 。一 方 、「 集 計 」「 合21 同 」「 結 合 」で は 、横 の つ な が り を 切 っ て 分 析 し ま す 。「 並 べ 替 え 」は「 文 字 順 」 と 「 出 現 順 」 が 選 択 で き ま す 。 単 語 を 単 位 と し て い る こ と を 除 い て 、 「 文 脈 内 ア イ テ ム 」 と ほ ぼ 同 じ 機 能 を 持 ち ま す 。た と え ば 、上 の 設 定 で 実 行 す る と 次 の よ う に 出 力 さ れ ま す 。 Output [#de#] ■ 集 計 上 の 「 語 形 」 の 前 語 (W-1, W-2, …)、 鍵 語 、 後 語 (W+1, W+2, …)の そ れ ぞ れ の 列 の 単 語 を ま と め て 集 計 し ま す 。 ま と め て い る の で 、 横 の 関 係 は 切 れ て い ま す 。 キ ー ワ ー ド の そ ば に あ る 語 の 頻 度 を 縦 の 列 だ け を 区 別 し て 調 べ た い と き に 役 に 立 ち ま す 。 出 力 は 「 文 字 順 」 、 「 出 現 順 」 、 「 頻 度 順 」 が 選 択 で き ま す 。 連 続 : 集 計 の イ メ ー ジ
Sum Ant. 3 words Sum Key word Sum Pos. 3 words Sum Total 6 words
174 1012 de 207 381 142 , 192 , 334 , 141 la 182 . 278 la 116 el 137 la 197 y 83 y 114 y 182 . 72 en 60 que 129 el 60 a 59 de 118 de
22 por (単 語 目 録 ) 並 べ 替 え : 頻 度 順 ■ 集 合 前 語 の 列 (W-1, W-2, …)、後 語 の 列 (W+1, W+2, …)、両 者 (W-1, W-2, …, W+1, W+2, …)を ま と め て そ れ ぞ れ を 合 計 列 に 出 力 し 、そ の 中 の 単 語 を 合 同 し て 、 そ の 頻 度 を 集 計 し ま す 。 キ ー ワ ー ド の そ ば で 連 続 す る 語 の 集 合 を 見 る と き に 使 い ま す 。 連 続 : 集 合 の イ メ ー ジ por (単 語 目 録 ) 並 べ 替 え : 頻 度 順 ■ 結 合 前 の 数 語 、 ま た は 後 の 数 語 の 連 続 を 切 ら ず に 、 そ の 連 続 の 頻 度 を 集 計 し ま S u m W - 3 S u m W - 2 S u m W - 1 S u m K e y wo r dS u m W + 1 S u m W + 2 S u m W + 3 120 128 la 36 , 1012 de 110 la 137 , 203 60 en 77 el 21 y 29 las 125 . 57 . 45 de 65 , 20 es 23 los 75 y 55 , 41 , 47 13 centro 22 todo 30 en 45 de 41 y 42 un 13 dentro 19 un 26 ... 39 y 30 el 31 a 13 lo 17 acuerdo 24 ? 24 que
29 a 22 una 12 sala 17 que 19 ! 21 se
S u m A n t . 3 w o r d s S u m K e y wo r dS u m P o s . 3 w o r d s S u m T o t a l 6 w o r d s 174 1012 de 207 381 142 , 192 , 334 , 141 la 182 . 278 la 116 el 137 la 197 y 83 y 114 y 182 . 72 en 60 que 129 el 60 a 59 de 118 de
23 す 。キ ー ワ ー ド に 隣 接 す る ま と ま っ た 語 数 の 特 徴 を 調 べ る こ と が で き ま す 。 連 続 : 連 続 の イ メ ー ジ por (単 語 目 録 ) 並 べ 替 え : 頻 度 順 後 期 ラ テ ン 語 か ら 初 期 ス ペ イ ン 語 を 想 像 す る 大 学 で 習 う ラ テ ン 語 は カ エ サ ル や キ ケ ロ な ど の 紀 元 前 後 に 書 か れ た 文 章 を 対 象 と す る 古 典 ラ テ ン 語 で す 。 一 方 、 こ こ で テ キ ス ト 例 と し て 見 て い る『 創 世 記 』の ラ テ ン 語 は 紀 元 5 世 紀 の「 後 期 ラ テ ン 語 」 Late Latin と よ ば れ る も の で す 。 ラ テ ン 語 は 名 詞 が 格 変 化 し 、 そ れ に よ っ て 主 語 や 目 的 語 の 関 係 が わ か る の で 、 と く に 動 詞 の 目 的 語 の 位 置 が 定 ま っ て い る わ け で は あ り ま せ ん が 、 ふ つ う は 動 詞 の 前 に お き ま す 。 そ し て 動 詞 は ふ つ う 文 末 に 置 か れ ま す 。 一 方 、 現 代 ス ペ イ ン 語 な ど ラ テ ン 語 か ら 派 生 し た 言 語 で は 目 的 語 は 動 詞 の 後 に 置 く の が ふ つ う で す 。
さ て 、 次 は 名 詞 の 対 格 の 例 と し て aquam, arcam, terram を 選 び 、 そ の 直 前 の 語 を 頻 度 順 に 並 べ た と き の 出 力 で す 。
Sum Ant. 3 words Sum Key word Sum Pos.3 words 9 en_el_centro 1012 de 9 tema_,_¿ 9 en_la_sala 9 vez_en_cuando 8 _(_dentro 9 espera_)_ 8 _me_alegro 6 acuerdo_._ 7 __ 6 todo_._ 7 ¿_qué_es 6 tu_vida_? 7 oye_,_cambiando 5 la_ciudad_y
24 こ こ で 興 味 深 い の は 、『 創 世 記 』ラ テ ン 語 の 対 格( 目 的 語 )の 位 置 が 、 ま る で 現 代 ス ペ イ ン 語 の よ う に 、 ほ と ん ど 例 外 な く 動 詞 の 直 後 に な っ て い る こ と で す 。 こ の よ う に 当 時 の 話 し 言 葉 が 反 映 し て い る と 思 わ れ る 後 期 ラ テ ン 語 の 様 子 か ら 文 献 に よ っ て 記 録 さ れ て い な い 原 始 ス ペ イ ン 語 Proto-Spanish の シ ン タ ッ ク ス を 想 像 す る こ と が で き ま す 。
25
3.6. 存在文と不在文
3.6.1. 存 在文を 抽出
検 索 さ れ た ア イ テ ム に 一 致 し た デ ー タ が あ る セ ル を 取 り 出 し て 、 新 し い シ ー ト に コ ピ ー し ま す 。 「 抽 出 」 の イ メ ー ジ3.6.2. 不 在文を 抽出
検 索 さ れ た ア イ テ ム に 一 致 し た デ ー タ が な い セ ル を 取 り 出 し て 、 新 し い シ ー ト に コ ピ ー し ま す 。 「 除 外 」 の イ メ ー ジ26
3.7. 置換
Excel の 置 換 の 機 能 は 限 ら れ て い ま す 。 LATR AS で は 正 規 表 現 を 含 め た さ ま ざ ま な 検 索 式 を 使 っ て 、 言 語 テ ク ス ト を 分 析 に 適 し た 形 に 変 換 す る こ と が で き ま す 。 検 索 式 は A=>B の よ う に 「 =>」 を 使 い ま す 。 こ れ の 左 辺 が 右 辺 に 置 換 さ れ ま す 。 以 下 で は 次 の デ ー タ を サ ン プ ル と し ま す 。 Text ●1 En el hotel ■1 MadridA la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial. 正 規 表 現
「 Search fml.(検 索 式 )」で「 Regular expression(正 規 表 現 )」を 選 択 し ま す 。た と え ば 次 の 正 規 表 現 の 検 索 式 を 使 う と r に 続 く 英 数 字 の 連 続 が <R>に 置 換 さ れ ま す 。
r¥w*=><R> ●1 En el hotel ■1 Mad<R>
A la <R>ón de un hotel mad<R>ño llega un p<R> ext<R> pa<R> pa<R> como confe<R> en un semina<R> sob<R> Nut<R>ón o<R> po<R> una unive<R> de ve<R> con sede en El Esco<R>.
ス ペ イ ン 語 の ó な ど は 単 語 文 字 と し て 認 識 さ れ て い ま せ ん 。 そ こ で 、 英 語 以 外 の 言 語 で は 一 般 の 正 規 表 現 を 拡 張 し て 再 定 義 し た LETRAS 拡 張 正 規 表 現 を 使 用 し ま す 。 た と え ば ¥l(エ ル )は 独 ・ 仏 ・ 西 語 な ど の 西 欧 語 の 単 語 に 使 用 さ れ る 文 字 と し て 再 定 義 さ れ ま す 。
r¥l*=><R>
A la <R> de un hotel mad<R> llega un p<R> ext<R> pa<R> pa<R> como confe<R> en un semina<R> sob<R> Nut<R> o<R> po<R> una unive<R> de ve<R> con sede en El Esco<R>.
27
が ¥l*を 再 解 釈 し ま す 。 し た が っ て 、 r¥l*は r%と す る こ と が で き ま す 。 (…)に よ る 後 方 照 応 を 使 う と 、 正 規 表 現 に 一 致 し た 文 ア イ テ ム を 再 生 す る こ と が で き ま す 。
(r%)=><$1>
A la <recepción> de un hotel mad<rileño> llega un p<rofesor> ext<ranjero> pa<ra> pa<rticipar> como confe<renciante> en un semina<rio> sob<re> Nut<rición> o<rganizado> po<r> una unive<rsidad> de ve<rano> con sede en El Esco<rial>. 上 で は r に 始 ま る 文 字 列 を <…>で 囲 み ま し た 。 r で 始 ま る 単 語 を マ ー ク す る に は 次 の よ う な 指 定 を し ま す 。
(¥L)(r%)=>$1<$2>
A la <recepción> de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en El Escorial.
¥L は 西 欧 語 単 語 使 用 文 字 以 外 の 文 字( 空 白 や 記 号 類 )を 示 し ま す 。こ れ に 一 致 し た 文 字 列 が 、 =>の 右 辺 の $1 で 再 生 さ れ 、 さ ら に r%に 一 致 し た 文 字 列 が $2 で 再 生 さ れ ま す 。 さ ら に デ ー タ の 最 初 の 語 も 含 め る な ら ば 、 (^|¥L) と し な け れ ば な り ま せ ん 。 ま た 、 一 般 に 語 末 ま で 含 め た 単 語 以 外 の 文 字 列 は (^|$|¥L) と し ま す 。 こ れ を 「 # 」 を 使 っ て 再 解 釈 し ま す 。 し た が っ て 、 (^ |$ |¥ L)(r%)=>$1<$2>は 、 #(r%)=>$1<$2>の よ う に 書 く こ と が で き ま す 。 ñ や ó な ど の 特 殊 文 字 は n@, o/の よ う に 書 く と 、 そ れ ぞ れ ñ と ó に 再 解 釈 さ れ ま す 。 (%n@%)=><$1> (%o/%)=><$1>
A la <recepción> de un hotel <madrileño> llega un profesor extranjero para participar como conferenciante en un seminario sobre <Nutrición> organizado por una
universidad de verano con sede en El Escorial.
上 の 連 立 検 索 式 は (%(n@|o/)%)=><$1>の よ う に 、(...|...)で 括 っ て 示 す こ と も で き ま す 。
28
3.8. 大小文字区別
「 大 小 文 字 区 別 」を チ ェ ッ ク し て 次 の 置 換 式 を 使 う と 小 文 字 で は じ ま る 語 だ け に マ ッ チ し ま す 。
(%e%)=><$1> (大 小 区 別 な し )
A la <recepción> <de> un <hotel> <madrileño> <llega> un <profesor> <extranjero> para participar como <conferenciante> <en> un <seminario> <sobre> Nutrición organizado por una <universidad> <de> <verano> con <s ede> <en> <El> <Escorial>.
(%e%)=><$1> (大 小 区 別 あ り )
A la <recepción> <de> un <hotel> <madrileño> <llega> un <profesor> <extranjero> para participar como <conferenciante> <en> un <seminario> <sobre> Nutrición organizado por una <universidad> <de> <verano> con <sede> <en> El Escorial. (%E%)=><$1> (大 小 区 別 あ り )
A la recepción de un hotel madrileño llega un profesor extranjero para participar como conferenciante en un seminario sobre Nutrición organizado por una universidad de verano con sede en <El> <Escorial>.
29
4. 集 計
「 集 計 」で は 検 索 さ れ た ア イ テ ム の 出 現 頻 度 を 計 算 し 、表 に し て 出 力 し ま す 。 「 絶 対 頻 度 」「 縦 相 対 頻 度 (%)」「 横 相 対 頻 度 (%)」「 千 語 率 」「 千 字 率 」「 ア イ テ ム リ ス ト 」 が 選 択 で き ま す 。 頻 度 の 計 算 は 「 フ ォ ー ム 」 (F)で 「 合 計 」 (す べ て の 検 索 式 に 一 致 し た 検 索 さ れ た ア イ テ ム の 頻 度 ), 「 検 索 式 」 (そ れ ぞ の 検 索 式 に 一 致 し た 検 索 さ れ た ア イ テ ム の 頻 度 ), 「 ア イ テ ム 」 (そ れ ぞ れ の 検 索 さ れ た ア イ テ ム の 頻 度 ) が 選 択 で き ま す 。分 類 の 基 準 と し て「 ク ラ ス 」(C)を 選 択 す る こ と が で き ま す 。 「 ク ラ ス 」 の コ ン ボ ボ ッ ク ス の 最 初 は 「 全 体 」 で す 。 こ れ を 選 択 す る と 、 シ ー ト ご と に 検 索 さ れ た ア イ テ ム の 分 布 を 見 る こ と が で き ま す 。 列 文 字 (A, B, C…)を 選 択 す る と 、 そ の 列 に あ る セ ル の 内 容 ご と に 検 索 さ れ た ア イ テ ム の 分 布 を 見 る こ と が で き ま す 。30
集 計 の イ メ ー ジ
Output-1 [検 索 式 : &ando#; &iendo#;縦 列 : F.合 計 ; 横 行 : : 全 体
Output-2 [検 索 式 : &ando#; &iendo#; 縦 列 :F.検 索 式 ; 横 行 : : 全 体
Output-3 [検 索 式 : &(a|ie)ndo#; 縦 列 :F.検 索 式 ; 横 行 : ID] &ando# &iendo# 全体 合計 153 &ando# &iendo# 全体 &ando# 129 &iendo# 24 計 153 &ando#
&iendo# B.A. Lima Madrid México Sevilla 計
&ando# 17 19 29 34 30 129
&iendo# 5 2 7 8 2 24
31
Output-4 [検 索 式 : &(a|ie)ndo#; 縦 列 :F.ア イ テ ム ; 横 行 : ID]
Output-5 [検 索 式 : &(a|ie)ndo#; 縦 列 :C.Tema; 横 行 : C.ID]
Output-7 [検 索 式 : &(a|ie)ndo#; 縦 列 :F 検 索 式 ; 横 行 :C.Línea Int: 100]]
Output-8 [同 ; 縦 相 対 頻 度 ( % ) ] &ando#
&iendo# B.A. Lima Madrid México Sevilla 計
afinando 1 1 2 aguantando 1 1 añadiendo 1 1 aprovechando 1 2 1 1 5 ayudando 1 1 2 cambiando 2 2 3 3 10 &ando#
&iendo# B.A. Lima Madrid México Sevilla 計
[A] Hotel 1 1 [B] Camino 3 2 1 4 10 [C] Funcionarios 4 5 4 3 5 21 [D] Estudiantes 4 3 6 5 3 21 [E] Consultorio 3 6 5 7 4 25 [F] Fiesta 3 3 3 2 11 [G] Política 2 7 15 5 29 [H] Compras 3 1 4 [I] Fútbol 3 2 5 3 4 17 [J] Despedida 3 5 2 4 14 計 22 21 36 42 32 153 &ando# &iendo# 0 100 200 300 400 500 600 700 800 900 1000 計 &ando# 1 15 25 17 12 13 12 4 14 11 5 129 &iendo# 1 3 4 3 2 5 5 1 24 計 2 18 29 20 14 18 17 4 14 12 5 153 &ando# &iendo# 0 100 200 300 400 500 600 700 800 900 1000 &ando# 50.0% 83.3% 86.2% 85.0% 85.7% 72.2% 70.6% 100.0% 100.0% 91.7% 100.0% &iendo# 50.0% 16.7% 13.8% 15.0% 14.3% 27.8% 29.4% 0.0% 0.0% 8.3% 0.0%
32 Output-9 [同 ; 横 相 対 頻 度 ( % ) ] Output-10 [同 ; 千 語 率 ] Output-11 [同 ; 千 字 率 ] Output-12 [同 ; ア イ テ ム リ ス ト ] 検 索 ア イ テ ム が あ る セ ル を 選 択 し て 「 入 力 シ ー ト 」 ボ タ ン を ク リ ッ ク す る と 、 入 力 し た テ キ ス ト に ジ ャ ン プ し ま す 。 &ando# &iendo# 0 100 200 300 400 500 600 700 800 900 1000 &ando# 0.8% 11.6% 19.4% 13.2% 9.3% 10.1% 9.3% 3.1% 10.9% 8.5% 3.9% &iendo# 4.2% 12.5% 16.7% 12.5% 8.3% 20.8% 20.8% 0.0% 0.0% 4.2% 0.0% &ando# &iendo# 0 100 200 300 400 500 600 700 800 900 1000 &ando# 0.464 4.496 8.091 6.751 5.242 4.724 5.141 3.042 7.592 4.287 2.098 &iendo# 0.464 0.899 1.294 1.191 0.874 1.817 2.142 0.000 0.000 0.390 0.000 &ando# &iendo# 0 100 200 300 400 500 600 700 800 900 1000 &ando# 0.102 1.084 1.965 1.605 1.236 1.117 1.205 0.729 1.819 0.994 0.485 &iendo# 0.102 0.217 0.314 0.283 0.206 0.429 0.502 0.000 0.000 0.090 0.000 &ando# 0 100 200 300 400 500 600 700 800 900 1000
&iendo# saliendo-50 cogiendo-116 viniendo-203 sufriendo-316 corriendo-432 viendo-529 haciendo-603 añadiendo-948 &iendo# haciendo-157 compartiendo-227doliendo-337 viviendo-451 haciendo-556 manteniendo-617
&iendo# viniendo-173 insistiendo-244 haciendo-377 viendo-561 subiendo-624 &iendo# insistiendo-274 manteniendo-570 haciendo-627
&iendo# haciendo-580 viendo-669
&ando# Fernando-99 cuando-113 cambiando-208 Cuando-305 cuando-407 pensando-503 paseando-602 señalando-731 cuando-835 tomando-911 Cuando-1002 &ando# fijando-119 cuando-208 Cuando-314 cambiando-411 afinando-509 aprovechando-602cuando-741 aguantando-837 tirando-913 paseando-1022 &ando# cuando-123 Fernando-213 llegando-315 peleando-412 cuando-510 ayudando-603 molestando-752 gritando-846 Cuando-922 Aprovechando-1058 &ando# conversando-143 llegando-213 cuando-320 cuando-424 pensando-521 mamando-609 cuando-752 cantando-846 Aprovechando-928Cuando-1068 &ando# mirando-147 hablando-220 cambiando-324 cuando-425 necesitando-522 pasando-614 Cuando-846 Cuando-938 cuando-1079 &ando# fijando-155 Cambiando-222 protestando-325 cuando-436 dando-555 echando-616 cuando-852 Cuando-948
&ando# Cuando-161 mejorando-223 cuando-337 cambiando-441 aprovechando-555entrando-618 cuando-860 cuando-949 &ando# Cuando-168 llegando-228 Fernando-362 pensando-467 ayudando-556 paseando-626 jugando-860 Aprovechando-960 &ando# cambiando-178 Cambiando-237 Fernando-364 afinando-473 pasando-567 trabajando-627 dominando-861 Cuando-980 &ando# charlando-181 cuando-237 cuando-367 cuando-474 dando-579 chupando-633 cuando-876 cuando-981 &ando# cuando-183 cuando-242 Fernando-368 pensando-485 pasando-588 hablando-640 cuando-883 cuando-982 &ando# tirando-187 Cuando-245 cuando-378 preparando-491 pasando-589 cuando-659 Cuando-887
&ando# cuando-190 cambiando-246 cambiando-382 cuando-590 cuando-893
&ando# Cuando-191 pasando-246 protestando-383 tomando-893
&ando# charlando-194 cuando-254 cuando-384 &ando# cuando-257 cuando-395 &ando# pasando-261 cuando-396
&ando# cuando-269 &ando# cuando-272 &ando# Cuando-275 &ando# cambiando-276 &ando# cuando-284 &ando# cuando-287 &ando# pasando-291
33 Output-13:語 の 長 さ #@{1}# #@{2}# #@{3}# #@{4}# #@{5}# #@{6}# #@{7}# #@{8}# #@{9}# * 全体 #@{1}# 1,668 #@{2}# 6,751 #@{3}# 4,081 #@{4}# 3,105 #@{5}# 3,586 #@{6}# 2,631 #@{7}# 2,002 #@{8}# 1,145 #@{9}# 743 計 25,712
Word list B.A. Lima Madrid México Sevilla #el %a# El turista-82 El turista-57 el mapa-12 el recepcionista-38El turista-17 #el %a# el mapa-92 el día-71 el tema-245 el sistema-48 el lila-188 #el %a# el día-442 el Alianza-902 el programa-250 el mapa-52 el tema-577 #el %a# el día-442 el tema-552 El programa-280el sistema-593 #el %a# el tema-646 el agua-940 el problema-398
#el %a# el sistema-662 el tema-599 #el %a# el tema-624 #el %a# el América-885 #el %a# El día-980 #el %a# el día-1040
#{ir}{{ a }} iré-95 vaya-79 vas-105 Va-38 ir-111 #{ir}{{ a }} vas-155 ir-139 va-107 ir-125 vas-117 #{ir}{{ a }} voy-159 vas-141 va-109 vas-127 vas-117
34 Output-14:文 の 長 さ ##¥P{1,10}## ##¥P{11,20}## ##¥P{21,30}## ##¥P{31,40}## ##¥P{41,50}##
* Madrid Sevilla México Lima B.A. 計 ##¥P{1,10}## 99 67 171 79 72 488 ##¥P{11,20}## 137 113 179 119 127 675 ##¥P{21,30}## 98 87 122 87 118 512 ##¥P{31,40}## 67 68 92 74 74 375 ##¥P{41,50}## 56 50 72 50 55 283 計 457 385 636 409 446 2,333 L 字 形 分 布 ラ テ ン 語 訳『 創 世 記 』の 全 出 現 語 の 度 数 を「 分 布 」を 使 っ て 計 算 し 、そ の グ ラ フ を 描 い て み る と 次 の よ う な 形 に な り ま す 。
一 番 頻 度 の 高 い et (=英 and)は 1922, 次 が in(=英 in)が 713, est(=英 is)が 402, ...と 続 き ま す 。こ の よ う に 語 の 頻 度 を 降 順 で 辿 っ て い く と そ の 減 少 が 急 で あ る こ と が わ か り ま す 。 そ し て et, in, est な ど の 高 頻 度 語 の 数 が 非 常 に 少 な く 、逆 に 低 頻 度 語 は 非 常 に 数 多 く あ り ま す 。『 創 世 記 』で 頻 度 が 1 の 語 は
35 3480 も あ り ま し た 。 そ の 様 子 を 示 し て い る の が 、 上 の 図 で す 。 こ の よ う な 分 布 は「 L 字 形 分 布 」と 呼 ば れ 、ど の よ う な テ キ ス ト で も 比 較 的 大 き な も の で あ れ ば 、こ の よ う な 分 布 を 示 し ま す 。こ こ で は 名 詞 や 動 詞 な ど の 変 化 形 な ど を 代 表 形 に ま と め こ ん だ 計 算 を し て い ま せ ん が 、代 表 形 に ま と め て も そ の 分 布 は 同 様 の 傾 向 を 示 し ま す 。 言 語 は 、種 類 は 少 な い け れ ど 非 常 に よ く 使 わ れ る 接 続 詞 、前 置 詞 、代 名 詞 な ど の 「 機 能 語 」 (function word)と 、 種 類 は と て も 多 い け れ ど あ ま り 使 わ れ る こ と が な い 名 詞 や 動 詞 な ど の「 内 容 語 」(content word)か ら 成 り 立 っ て い ま す 。こ の よ う に 頻 度 が 偏 っ て い る こ と は バ ラ ン ス が と れ て い な い よ う に 見 え ま す が 、む し ろ 言 語 の あ り 方 に と し て 合 理 的 だ と 思 わ れ ま す 。か り に す べ て の 単 語 が 同 じ 頻 度 で 使 わ れ る と し た ら 、機 能 語 の 数 は ま っ た く 不 足 し て し ま い 、同 じ 内 容 語 が 何 度 も 繰 り 返 さ れ る こ と に な り ま す 。こ れ で は 言 語 と し て の 働 き を な さ な く な る で し ょ う 。 と こ ろ で 、『 創 世 記 』で も っ と も 頻 度 が 高 い 内 容 語 は や は り Deus (=英 God) で し た 。 度 数 は 157 で 、 代 名 詞 な ど よ り も 頻 度 が 高 く 、 全 体 で 15 位 の 位 置 を 占 め て い ま す 。こ の よ う な 語 は テ キ ス ト の 中 で「 特 徴 語 」と 呼 ば れ 、と く に 注 意 が 必 要 で す 。
36 対 照 頻 度 表 複 数 の シ ー ト を 使 っ た 「 分 布 」 の 結 果 は 対 照 頻 度 表 に な り 、 各 種 の 統 計 分 析 に か け る こ と が で き ま す 。 ま た 、 対 照 頻 度 表 そ の も の の 観 察 も 興 味 深 い も の が あ り ま す 。 次 の 図 は LETRAS の 「 分 布 」 を 使 っ て 中 世 ス ペ イ ン 語 に 翻 訳 さ れ た 『 創 世 記 』 50 章 の 中 に あ る i, j, y の 文 字 の 出 現 頻 度 を 調 べ た も の で す2 。
実 は 、 こ れ ら の 3 つ の 文 字 は 同 じ 語 の 中 で も 、 mi, mj, my; amigo, amjgo の よ う に 交 替 し て 使 わ れ て い ま し た 。 こ の よ う な 分 布 を 自 由 変 異 free variation と 呼 び ま す 。当 時 こ れ ら は 同 じ 文 字( 文 字 素 grapheme)の バ リ ア ン ト (異 文 字 : allograph)で し た 。 と こ ろ が 、実 際 に そ の 分 布 を 調 べ て み る と グ ラ フ の 実 線 が 示 す よ う に 、j の 文 字 が 途 中 ま で (14 章 の 途 中 ま で )ほ と ん ど 使 わ れ て い な い の で す 。 自 由 変 異 の バ リ ア ン ト な ら ば ど こ に で も 出 現 す る は ず で す 。 翻 訳 本 の 製 本 の 状 態 を 見 る と 14 章 の 途 中 で 帖 (quire)が 分 か れ て い ま す 。 書 体 の 違 い か ら こ こ で 写 字 生 が 交 替 し た こ と が わ か り ま す 。 こ れ ら の バ リ ア ン ト の 使 い 方 に は 個 人 差 が あ 2
Schonfield, Jeremy (ed.). 1992. Companion volume to the facsimile edition. La
Biblia de Alba. An illustrated manuscript Bible in Castilian , by Rabbi Moses
Arragel. Madrid. Fundación Amigos de Sefarad.
Ueda, Hiroto. 2009. “Palatal graphem es in a medieval Spanish biblical text: a corpus analysis of «i, j, y» in Genesis, Biblia de Alba ”, Corpus analysis and
variation in linguistics , edited by Yuji Kawaguchi, Makoto Minegishi and
37 っ た よ う で す 。
38
5.
【補説】正規 表現と単語目録
5.1. 一般の正規表現
正 規 表 現 は 複 雑 な 文 字 列 処 理 に 適 し て い ま す 。 正 規 表 現 の 規 則 は 非 常 に 単 純 で す が 、 使 い 方 に つ い て は 練 習 が 必 要 で す 。 何 度 で も 実 験 し て 確 認 し て く だ さ い 。5.1.1. 特 殊文字
¥t 水 平 タ ブ に 一 致 し ま す 。 ¥b 任 意 の英 単 語 の境 界 に一 致 します。 ¥B 任 意 の英 単 語 境 界 以 外 の位 置 に一 致 します。 ¥n 改 行 に一 致 します。 入 力 文 :The Universal Declaration of Human Rights Article 1. All human beings are born free and equal in dignity and rights. They are endowed with reason and conscience and should act towards one another in a spirit of brotherhood.
正 規 表 現 :¥bin¥b:単 語 境 界 に挟 まれた in
The Universal Declaration of Human Rights Article 1. All human beings are born free and equal {*in*} dignity and rights. They are endowed with reason and conscience and should act to wards one another {*in*} a spirit of brotherhood. beings の 中 の in は 、 単 語 境 界 に 挟 ま れ て い な い の で 一 致 し ま せ ん 。
5.1.2. 文 字クラ ス
[xyz] 文 字 セ ッ ト に 含 ま れ て い る 任 意 の 1 文 字 に 一 致 し ま す 。[...] の 中 で は ., ? , *な ど を エ ス ケ ー プ す る 必 要 は あ り ま せ ん 。 [^xyz] 文 字 セットに含 まれていない任 意 の 1 文 字 に一 致 します。 .( ピ リ オ ド ) 改 行 (¥n)以 外 の任 意 の文 字 に一 致 します。 ¥w 英 単 語 に使 用 さ れる任 意 の文 字 (アル ファベ ッ ト、数 字 、ア ンダー スコア)[a-zA-Z0-9_]に一 致 します。 ¥W 英 単 語 に使 用 される文 字 以 外 の任 意 の文 字 に一 致 します。39 [^a-zA-Z0-9[a-zA-Z_0-9]と同 じです。 ¥d 任 意 の数 字 に一 致 します。[0-9]と同 じです。 ¥D 任 意 の数 字 以 外 の文 字 に一 致 します。 [^0-9]と同 じです。 ¥s 任 意 のスペース文 字 に一 致 します。 [ ¥t¥r¥n¥f]と同 じです。 ¥S 任 意 の非 スペース文 字 に一 致 します。 [^ ¥t¥r¥n¥f]と同 じです。 入 力 文 :
All human beings are born free and eq ual in dignity and rights. 正 規 表 現 検 索 :[e-h] (e, f, g, h, i に一 致 )
All {*h*}uman b{*e*}in{*g*}s ar{*e*} born {*f*}r{*e*}{*e*} and {*e*}qual in di{*g*}nity and ri{*g*}{*h*}ts.
正 規 表 現 検 索 :[^a-v] (a-v 以 外 に一 致 )
All{* *}human{* *}beings{* *}are{* *}born{* *}free{* *}and{* *}equal{* *}in{* *}dignit{*y*}{* *}and{* *}rights{*. *}
正 規 表 現 検 索 :[c-i] (c, d, e, f, g, h, i に一 致 )
All human beings are born free and eq ual in dignity and rights. 結 果 正 規 表 現 検 索 :[^c-i](c, d, e, f, g, h, i 以 外 に一 致 ) All human beings are born free and eq ual in dignity and rights.
5.1.3. 選 択、グ ループ 化、繰 り返し
| 複 数 の 句 を 1 つ の 正 規 表 現 に ま と め 、こ れ ら の う ち の 任 意 の 句 に 一 致 し ま す 。 た と え ば 、 d(os|a) は dos ま た は da に 一 致 し ま す 。 ¥ba¥b|¥bthe¥b の よ う に (…)で も 使 う こ と が で き ま す 。 (…) 複 数 の 句 を グ ル ー プ 化 し て 1 つ の 句 を 作 成 し ま す 。(ab)*c は abc ま た は c に 一 致 し ま す 。+ 1 個 以 上 の 直 前 の 文 字 に 一 致 し ま す 。{1,}と 同 じ で す 。e+で e, ee, eee, …に 一 致 し ま す 。
* ゼ ロ 個 以 上 の 直 前 の 文 字 ま た は ぐ る に 一 致 し ま す 。{0,}と 同 じ で す 。
ah*で a, ah, ahh, …に 一 致 し ま す 。
40
books?で book と books に 一 致 し ま す 。
{a} 先 行 す る 正 規 表 現 a 個 に 一 致 し ま す 。 [aeoiu]{2}で 2 母 音 の連 続 (ei,
ee, ua など)に一 致 します。
{a,} 先 行 す る 正 規 表 現 a 個 以 上 の 直 前 の 文 字 に 一 致 し ま す 。 [aeoiu]{3,}
で 3 母 音 の連 続 (aei, uai, auuu など)に一 致 します。
{a,b} 先 行 す る 正 規 表 現 a 個 以 上 、b 個 以 下 に 一 致 し ま す 。[aeoiu]{2, 4}で
2-4 母 音 の連 続 ( ei, aei, uai, auuu など)に一 致 します。 正 規 表 現 検 索 (free|equal) (free と equal に一 致 )
All human beings are born {*free*} and {*equal*} in dignity and rights . 正 規 表 現 検 索 [e-h]+ ([e-h]の連 続 に一 致 )
All {*h*}uman b{*e*}in{*g*}s ar{*e*} born {*f*}r{*ee*} and {*e*}qual in di{*g*}nity and ri{*gh*}ts.
正 規 表 現 検 索 [aeoiu]{2} (2 母 音 の連 続 )
All human b{*ei*}ngs are born fr{*ee*} and eq{*ua*}l in dignity and rights . 結 果 3 正 規 表 現 検 索 [^aeoiu]{2,} ( 母 音 以 外 の文 字 2 個 以 上 の連 続 に一 致 )
A{*ll h*}um a{*n b*}ei{*ngs *}are{* b*}o{*rn fr*}ee a{*nd *}equa{*l *}i{*n d*}i{*gn*}i{*ty *}a{*nd r*}i{*ghts.*}
5.1.4. エ スケー プ文字
特 殊 文 字 の 検 索 (, ), [, ], {, }, ?, !, .(ピ リ オ ド ), +, *, |, ¥を 探 す と き は ,そ の 前 に ¥を つ け て エ ス ケ ー プ し ま す 。た と え ば ¥?で ク エ ス チ ョ ン マ ー ク を 検 索 し ま す 。
入 力 文 :
¿Cómo está usted?
正 規 表 現 ¥?( ク エ ス チ ョ ン マ ー ク ) ¿Cómo está usted ?
41
5.1.5. 置 換文字
正 規 表 現 の 後 方 参 照 を使 うと、 検 索 式 の 一 部 を参 照 する こと がで き ます。 句 を括 弧 で囲 み、$の後 に 1 つの数 字 を続 けることによってその句 を指 定 します。 $n 検 索 パタンの n 番 目 の(…)に一 致 した文 字 列 $$ $という文 字 入 力 文 :Rumi: Hola, profesor.Prof. Rubio: Buenos di/as.Rumi: B uenos di/as. Nos encontramos ahora en la Universidad [[Complutense]] de Madrid. ¿Dónde nos vamos ahora?
Prof.: Bueno, vamos a iniciar hoy el [[Camino]] del [[Cid]], la primera parte.
正 規 表 現 : HTML コ ー ド を 作 成 し ま す 。 a/=>á e/=>é i/=>í ó=>ó ú=>ú 正 規 表 現 :([aeiou])/=>&$1acute;:上 の連 立 式 を折 りたたみます。
Rumi: Hola, profesor.Prof. Rubio: Buenos días.Rumi: Buenos días. Nos encontramos ahora en la Universidad Complutense de M adrid. ¿Dónde nos vamos ahora? Prof.: Bueno, vamos a iniciar hoy el C amino del Cid, la primera parte.
正 規 表 現 : #(c%)=>[[$1]](c で始 まる語 を[[...]]でマークします。)
Rumi: Hola, profesor.Prof. Rubio: Buenos días.Rumi: Buenos días. Nos encontramos ahora en la Universidad [[Complutense]] de Madrid. ¿Dónde nos vamos ahora?
Prof.: Bueno, vamos a iniciar hoy el [[Camino]] del [[Cid]], la primera parte. 次 は 中 世 ス ペ イ ン 語 の 資 料 を 文 字 化 し た 資 料 で す 。
42
juezes, ca el juez deve tener la seña, e tengo que si <a> afruenta viniesse o a logar de periglo e omne vil o rafez toviesse la seña que podrié (23) caer el concejo en grant onta e en grant vergüença.
(22)は 語 の 途 中 で 改 行 さ れ ssí 以 下 が 22 行 目 に な る こ と を 示 し て い ま す 。 文 法 研 究 の た め に は 、こ れ を Otrossí (22)に す る 必 要 が あ り ま す 。こ れ は 次 の 置 換 式 に よ っ て 実 現 で き ま す 。
正 規 表 現 : (¥(¥d+¥))(&)=>$2 $1
Otrossí (22) mando que los menestrales non echen suerte en el judgado por seer juezes, ca el juez deve tener la seña, e tengo que si <a> afrue nta viniesse o a logar de periglo e omne vil o rafez toviesse la seña que podrié (23) caer el concejo en grant onta e en grant vergüença.