34
35 Output-3 [Sch.fm,: %(a|ie)ndo#; K.w.; Cl.: All]
Output-3 [Sch.fm,: %(a|ie)ndo#; K.w.; Cl.: Sheet]
Output-4 [Sch.fm,: %(a|ie)ndo#; K.w.; Cl.: D]
Output-5 [Sch.fm,: %(a|ie)ndo#; K.w.; Cl.: A; Itv: 100] ; Fr.: Absolute frequency
Key word All
afinando 2
aguantando 1
añadiendo 1
ando 5
Key word Sample Sample-2
afinando 2 0
aguantando 1 0
añadiendo 0 1
ando 5 0
Key word - 1 Madrid 2 Sevilla 3 México 4 Lima 5 Buenos Aires
afinando 0 1 0 1 0 0
aguantando 0 1 0 0 0 0
añadiendo 0 1 0 0 0 0
ando 0 0 1 0 2 2
Key word 0 100 200 300 400 500 600 700 800 900
afinando 0 0 0 0 0 1 1 0 0 0
aguantando 0 0 0 0 1 0 0 0 0 0
añadiendo 0 0 0 0 0 0 0 1 0 0
ando 1 0 0 1 1 0 0 0 1 1
36
Output-5 [Sch.fm,: %(a|ie)ndo#; K.w.; Cl.: A; Itv: 100; Fr.:Relative frequency]
Output-5 [Sch.fm,: %(a|ie)ndo#; K.w.; Cl.: A; Itv: 100; Fr.:Per thousand word s]
L 字 形 分 布
ラ テ ン 語 訳『 創 世 記 』の 全 出 現 語 の 度 数 を「 分 布 」を 使 っ て 計 算 し 、そ の グ ラ フ を 描 い て み る と 次 の よ う な 形 に な り ま す 。
一 番 頻 度 の 高 い et (=英 and)は 1922, 次 が in(=英 in)が 713, est(=英 is)が 402, ...と 続 き ま す 。こ の よ う に 語 の 頻 度 を 降 順 で 辿 っ て い く と そ の 減 少 が 急 で あ る こ と が わ か り ま す 。 そ し て et, in, est な ど の 高 頻 度 語 の 数 が 非 常 に 少 な く 、逆 に 低 頻 度 語 は 非 常 に 数 多 く あ り ま す 。『 創 世 記 』で 頻 度 が 1 の 語 は 3480 も あ り ま し た 。 そ の 様 子 を 示 し て い る の が 、 上 の 図 で す 。 こ の よ う な
Key word 0 100 200 300 400 500 600 700 800 900
afinando 0.0% 0.0% 0.0% 0.0% 0.0% 5.6% 6.3% 0.0% 0.0% 0.0%
aguantando 0.0% 0.0% 0.0% 0.0% 5.9% 0.0% 0.0% 0.0% 0.0% 0.0%
añadiendo 0.0% 0.0% 0.0% 0.0% 0.0% 0.0% 0.0% 4.5% 0.0% 0.0%
ando 7.7% 0.0% 0.0% 8.3% 5.9% 0.0% 0.0% 0.0% 5.0% 5.0%
Key word 0 100 200 300 400 500 600 700 800 900
afinando 0.000 0.000 0.000 0.000 0.000 0.376 0.386 0.000 0.000 0.000 aguantando 0.000 0.000 0.000 0.000 0.429 0.000 0.000 0.000 0.000 0.000 añadiendo 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.357 0.000 0.000 ando 0.276 0.000 0.000 0.439 0.429 0.000 0.000 0.000 0.358 0.369
37
分 布 は「L字 形 分 布 」と 呼 ば れ 、ど の よ う な テ キ ス ト で も 比 較 的 大 き な も の で あ れ ば 、こ の よ う な 分 布 を 示 し ま す 。こ こ で は 名 詞 や 動 詞 な ど の 変 化 形 な ど を 代 表 形 に ま と め こ ん だ 計 算 を し て い ま せ ん が 、代 表 形 に ま と め て も そ の 分 布 は 同 様 の 傾 向 を 示 し ま す 。
言 語 は 、種 類 は 少 な い け れ ど 非 常 に よ く 使 わ れ る 接 続 詞 、前 置 詞 、代 名 詞 な ど の 「 機 能 語 」(function word)と 、 種 類 は と て も 多 い け れ ど あ ま り 使 わ れ る こ と が な い 名 詞 や 動 詞 な ど の「 内 容 語 」(content word )か ら 成 り 立 っ て い ま す 。こ の よ う に 頻 度 が 偏 っ て い る こ と は バ ラ ン ス が と れ て い な い よ う に 見 え ま す が 、む し ろ 言 語 の あ り 方 に と し て 合 理 的 だ と 思 わ れ ま す 。か り に す べ て の 単 語 が 同 じ 頻 度 で 使 わ れ る と し た ら 、言 語 使 用 者 は 非 常 に 多 く の 機 能 語 を 学 ば な け れ ば な ら ず 、ま た 絶 え ず 自 分 が 知 ら な い 内 容 語 に 出 会 う 、と い う 事 態 に な り ま す 。 こ れ で は 言 語 と し て の 働 き を な さ な く な る で し ょ う 。 と こ ろ で 、『 創 世 記 』で も っ と も 頻 度 が 高 い 内 容 語 は や は り Deus (=英 God) で し た 。 度 数 は 157 で 、 代 名 詞 な ど よ り も 頻 度 が 高 く 、 全 体 で 15 位 の 位 置 を 占 め て い ま す 。こ の よ う な 語 は テ キ ス ト の 中 で「 特 徴 語 」と 呼 ば れ 、と く に 注 意 が 必 要 で す 。
K WAC, K WOC, K WIC, ...
コ ン ピ ュ ー タ を 使 っ て 言 語 資 料 を 分 析 す る に は 次 の よ う な さ ま ざ ま な 方 法 が あ り ま す 。
検 索 の キ ー ワ ー ド に 注 目 す る と 、LETRAS の「検 索」で は 対 象 の テ キ ス ト 内 に お い て キ ー ワ ー ド を マ ー ク す る こ と で 分 析 者 の 気 づ き を 支 援 し ま す 。テ キ ス ト の 中 に マ ー ク さ れ た 部 分 を 辿 っ て い く と 、そ こ に 何 ら か の 傾 向 や 規 則 性 が 見 つ か る こ と が あ り ま す 。 こ の 方 法 を KWAC (K ey Word Along side Context)と 呼 び ま す 。
次 に「 外 置 」で は キ ー ワ ー ド を 1 つ の 列 に ま と め 、そ の 横 に キ ー ワ ー ド を 含 む テ キ ス ト を 載 せ て い ま す 。キ ー ワ ー ド を 並 べ 替 え る こ と に よ っ て 一 定 の キ ー ワ ー ド を 集 中 さ せ た り 、キ ー ワ ー ド を 逆 引 き な ど の 基 準 に よ っ て 並 べ 替
38
え た り す る こ と が で き ま す 。こ の よ う に テ キ ス ト か ら 独 立 さ せ た キ ー ワ ー ド が 次 の 分 析 の 対 象 に な り ま す 。 こ の 方 法 を K WOC (K ey Word Out of Context)と よ び ま す 。
LETRAS の「 内 置 」で は キ ー ワ ー ド を 中 心 に お き 、そ の 前 後 の 文 脈 を 左 右 に 並 べ て い ま す 。こ れ に よ っ て キ ー ワ ー ド と 前 後 の 文 脈 の 関 係 が わ か り や す く な り ま す 。 こ の 方 法 は KWIC (K ey Word In Context)と 呼 ば れ 、 シ ン タ ッ ク ス や コ ロ ケ ー シ ョ ン の 研 究 に か か せ ま せ ん 。
さ て 、そ う す る と「 分 布 」は ど の よ う に 読 ん だ ら よ い で し ょ う か 。「 分 布 」 で は コ ン テ キ ス ト を 考 え ず に キ ー ワ ー ド の 頻 度 だ け を 問 題 に し て い ま す 。言 っ て み れ ば KWWC (K ey Word Without Context)と い う こ と に な る で し ょ う 。
対 照 頻 度 表
複 数 の シ ー ト を 使 っ た「 分 布 」の 結 果 は対 照 頻 度 表に な り 、各 種 の 統 計 分 析 に か け る こ と が で き ま す 。ま た 、対 照 頻 度 表 そ の も の の 観 察 も 興 味 深 い も の が あ り ま す 。
39
次 の 図 は LETRAS の「 分 布 」を 使 っ て 中 世 ス ペ イ ン 語 に 翻 訳 さ れ た『 創 世 記 』50章 の 中 に あ る i, j, yの 文 字 の 出 現 頻 度 を 調 べ た も の で す4。
実 は 、こ れ ら の 3 つ の 文 字 は 同 じ 語 の 中 で も 、mi, mj, my; amigo, amjgo の よ う に 交 替 し て 使 わ れ て い ま し た 。こ の よ う な 分 布 を自 由 変 異 free variation と 呼 び ま す 。 当 時 こ れ ら は 同 じ 文 字 (文 字 素 grapheme) の バ リ ア ン ト(異 文 字 :allograph)で し た 。
と こ ろ が 、 実 際 に そ の 分 布 を 調 べ て み る と グ ラ フ の 実 線 が 示 す よ う に 、j の 文 字 が 途 中 ま で(14 章 の 途 中 ま で)ほ と ん ど 使 わ れ て い な い の で す 。自 由 変 異 の バ リ ア ン ト な ら ば ど こ に で も 出 現 す る は ず で す 。翻 訳 本 の 製 本 の 状 態 を 見 る と 14 章 の 途 中 で 帖(quire)が 分 か れ て い ま す 。 書 体 の 違 い か ら こ こ で 写 字 生 が 交 替 し た こ と が わ か り ま す 。こ れ ら の バ リ ア ン ト の 使 い 方 に は 個 人 差 が あ っ た よ う で す 。
4 Schonfield, Jeremy (ed.). 1992. Companion volume to the facsimile edition. La Biblia de Alba. An illustrated manuscript Bible in Castilian, by Rabbi Moses Arragel. Madrid. Fundación Amigos de Sefarad.
Ueda, Hiroto. 2009. “Palatal graphem es in a medieval Spanish biblical text: a corpus analysis of «i, j, y» in Genesis, Biblia de Alba”, Corpus analysis and variation in linguistics, edited by Yuji Kawaguchi, Makoto Minegishi and Jacques Durand, John Benjamins Publishig Company, pp. 239 -257.
40
6. 共起分析
正 規 表 現 で 指 定 す る 2 つ の 要 素 の 結 合 度 を 探 り ま す 。 語 形 変 化 が 多 い ラ テ ン 語 な ど で は 正 規 表 現 を 工 夫 す る こ と で 、 さ ま ざ ま な 語 の 組 み 合 わ せ を 実 現 で き ま す 。 語 形 変 化 が 比 較 的 少 な い 英 語 で も 、 た と え ば#ha(ve|s |d |ving)#
に よ っ て 要 素 の 1 つ に have を 指 定 す る こ と が で き ま す 。結 合 度 を 示 す さ ま ざ ま な 係 数 を 同 時 に 出 力 し ま す 。