フランス語機械可読辞書 とメタ言語
中 尾 浩
1:は じ め に
デ ジ タ ル 化 さ れ た 言 語 デ ー タ を 処 理 す る た め に,機 械 可 読 辞 書 (MachineReadableDictionary)(以 下,MRDと 略 す こ と も あ り)の 開発 は 不 可 欠 で あ る。 言 うま で もな く言 語 の 数 だ けMRDは 必 要 で あ る 。 さ ら に,利 用 目的 次 第 で 複 数 のMRDが 必 要 だ ろ う。 構 文 解 析 の 利 用 を 前 提 と したMRDが 自 動 翻 訳 のMRDと して もふ さわ し い か ど うか は 設 計次 第 で あ っ た り,使 い 方 次 第 の 面 も あ る が,一 般 に は 別 のMRDを 設 計す る 方 が 妥 当 で あ る。
機 械 可 読 辞 書 を 何 らか の 言 語 処 理 に 実 装 す る た め に,ど の よ う に 設 計 ・作 成 す るか に つ いて は,非 常 に 多 くの こ と を 考 慮 に 入 れ る必 要 が あ る 。 どの よ うな 目 的 のMRDな の か,ど の よ う な 環 境 で の 処 理 を 前 提 と す る の か,ど の よ うな 構 造 にす れ ば よ いか,ど の 程 度 の 規 模 のMRDな の か,な ど,列 挙 し始 め た らキ リが な い ほ どで あ る 。 本 論 文 で は そ れ ら の 中 で も特 に,MRDを コー デ ィ ン グ す る た め の メ タ 言 語 の 問 題 に つ い て 考 察 した い。MRDを どの メ タ 言 語 で どの よ う に コ ー デ ィ ン グす る か は,そ の デ ー タ が どの 程度 共 有 可 能 で あ るか に もか か わ る 重 要 な 問 題 で あ る 。
四〇
一1一
一九
2:メ タ 言 語 の 選 定
機 械 可 読 辞 書 を作 成 す る に あ た って は,い わ ゆ る 文 書 フ ォー マ ッ トが 必 要 に な る。 た と え ば,
見 出 し語,品 詞,語 義1,語 義2
と い っ た いわ ゆ るCSV(CommaSeparatedValue)も 文 書 フ ォー マ ッ ト (デ ー タ フ ォ ー マ ッ ト)の 一 種 で あ る 。 しか し,こ う し た 原 始 的 な フ ォ ー マ ッ トは 必 ず し も言 語 処 理 に は向 か な い 。 た とえ ば,語 義 は最 大 で い く つ ま で 分 類 す る の か,同 形 異 義 語 は ど の よ う に処 理 す る の か な ど,さ ま ざ ま な 問 題 が 出 て き て,単 に フ ィ ー ル ドが コ ン マ で 区 切 られ て いれ ば よ い と い っ た 単 純 な もの で は な い 。MRDも 辞 書 で あ る以 上,構 造 が 必 要 不 可 欠 で あ る 。 単 に 形 式 上 の フ ォ ー マ ッ トで は な く,文 書 フ ォ ー マ ッ ト≒ 文 書 構 造 が記 述 で きな け れ ば な らな いの で あ る 。
で は,デ ジ タ ル 文 書 に構 造 を 付 与 す るた め に は ど うす る か と言 う と, マ ー ク ア ッ プ 言 語(MarkupLanguage)ま た は 文 書 構 造 記 述 言 語 と い う メ タ 言 語 を 利 用 す る。 た だ し,メ タ 言 語 が 常 に マ ー ク ア ッ プ言 語 と は限
らな い。 た と え ば コ ンパ イ ラを コ ンパ イ ル す る た め の 言 語 は コ ンパ イ ラ に と っ て は メ タ 言 語 だ が,コ ンパ イ ラ ・コ ン パ イ ル 言 語 は マー ク ア ッ プ 言 語 で は な い 。
マ ー ク ア ッ プ 言 語 の 中 に もさ ま ざ まな も の が あ る 。 最 も身 近 な と こ ろ で は イ ン タ ー ネ ッ トの ホ ー ム ペ ー ジ を作 成 す る た め のHTML(Hyper TextMarkupLanguage)だ ろ う(本 論 で 検 討 す るXMLはHTMLと 無 関 係 で は な い。 そ れ ど ころ か 大 い に 関 係 が あ る の だ が,そ れ は 次 第 に 明 らか に な る)。 組 み 版 シ ス テ ム のTeXやLaTeX,清 書 印 刷 シ ス テ ム のroff (trollやfroffなど 何 種 類 もあ る)も マ ー ク ア ッ プ言 語 の1つ で あ る 。 そ れ らの マ ー ク ア ッ プ 言語 はそ れ ぞ れ が,組 み 版 や 文 書 構 造 記 述 と い っ た 目 的 を 持 っ て い る 。 組 み 版 シ ス テ ム と して はLaTeXは 非 常 に 優 れ た も の
フ ラ ン ス語 機械 可 読 辞 書 と メタ 言 語
で あ る が,こ れ は 印 刷 用 の マ ー ク ア ップ 言 語 な の で,MRDに は い さ さ か 不 向 き で あ る 。 確 か にTeXは デ ー タ ベ ー ス と して 利 用 す る こ と も可 能 で,事 実,そ の よ うな 利 用 方 法 も存 在 す る と言 え ば存 在 す る の だ が, TeXそ の もの が 元 来 印 刷 を 目的 と して 設 計 さ れ て い るの で,デ ー タベ ー ス に 応 用 しよ う とす れ ばす る ほ ど,使 い勝 手 が 悪 くな る ば か りか,他 の
言語 と の 整 合 性 も取 りに く くな っ て,再 利 用 し に く くな る1)O HTMLは 学 生 で も使 い こ なせ る ほ ど手 軽 だ が,こ ち らはWWWのWeb ペ ー ジ を 作 成 す る こ とが 目的 で あ って,実 は 文 書 の 構 造 に つ いて は ほ と ん ど何 も記 述 す る こ とが で き な い 。 一 般 に(印 刷)レ イ ア ウ ト重 視 型 の マ ー ク ア ッ プ 言 語 は 本 格 的 な デ ー タベ ー ス に 利 用 す る に は 限 界 が 出 て き て も仕 方 な い。
で は,MRD専 用 の マ ー ク ア ッ プ言 語 が 存 在 す る か と言 え ば,存 在 し な い と答 え ざ る を 得 な い 。 あ え てMRD専 用 の マ ー ク ア ップ 言 語 は必 要
と され て お らず,辞 書 と し て の 構 造 が 記 述 で き さ え す れ ば よ い の で あ る 。 従 っ て,選 択 肢 は 最 初 か らSGML(StandardGeneralizedMarkup
Language)かXML(eXtensibleMarkupLanguage)の どち らか しか な い。
SGMLは 確 か に ほ と ん ど パ ー フ ェ ク トな 文 書 記 述 言 語 で,実 際 に, SGMLで 記 述 さ れ た 文 書 は あ ち こち で 蓄 積 さ れ て い る 。 しか し,SGML
の 欠 点 は ま さ し くそ の パ ー フ ェ ク トさ に あ り,簡 単 に 言 え ば 使 い に く い の で あ る2)0現 時 点 で は 文 書 構 造 を記 述 化 す る に は,事 実 上XMLの 選 択 肢 以 外 は あ りえ な い。
天 3:XMLの 特 徴
で は,MRDの コ ー デ ィ ン グ 用 メ タ言 語 と して ほ と ん ど 唯 一 の 選 択 肢 で あ るXMLと は ど の よ う な 言 語 な の か 。 まず は 全体 的 な 概 略 を 紹 介 し て お こ う。XMLは そ もそ も はSGMLの サ ブ セ ッ トで あ る 。HTMLも
一3一
一七
SGMLの サ ブ セ ッ トな の で,全 て はSGMLか ら始 ま っ た と 言 え る 。 実 は SGMLの 前 身 はIBMに よ っ て 作 ら れ たGML(GeneralizedMarkup
Language)だ が,さ し あ た っ て そ こ ま で さ か の ぼ る 必 要 は な い 。 SGMLは1986年 にISOの 規 格 を 受 け た(ISO.8879)。SGMLが 必 要 と さ れ た の は ネ ッ ト ワ ー ク に お い て,お 互 い に 共 通 の 文 書 フ ォ ー マ ッ ト に 基 づ い て デ ー タ を 共 有 す る た め だ っ た 。 事 実,ア メ リ カ 国 防 総 省 の 公 文 書 フ ォ ー マ ッ ト と し て 採 用 さ れ た り,航 空 産 業 界 で も 標 準 文 書 フ ォ ー マ ッ ト と し て 採 用 さ れ た 。 日 本 で も い く つ か の 官 公 庁 が 採 用 し て い る 。 言 語 学 関 係 で 言 え ば,TEI(TextEncodingInitiative)が 提 唱 す る 言 語 デ ー タ の 標 準 フ ォ ー マ ッ ト はSGMLに 準 拠 し て い る 。 こ の よ う に 色 々 な 分 野 で の 取 り 組 み は あ る が,さ ほ ど 広 範 囲 に 普 及 し な か っ た と 認 め ざ る を 得 な い 。
同 じ 頃 にCERN(ConseilEuroP6enpourlaRechercheNucl6aire。 欧 州 原 子 核 研 究 機 構)の 研 究 者 た ち が,SGMLを 参 考 に し て,ネ ッ ト ワ ー ク 上 で 他 の 研 究 者 た ち と 簡 単 に 情 報 を や り 取 り す る た め にHTMLを 作 っ た 。 そ れ に 呼 応 し て,ア メ リ カ の イ リ ノ イ 大 学 のNCSA(NationalCenter forSupercomputingApplications)チ ー ム が 開 発 し た の が,か の 有 名 な WWWブ ラ ウ ザ ソ フ トのMosaic(モ ザ イ ク)で あ る 。NCSAが モ ザ イ ク を 開 発 し た 頃 に は,す で に 商 用 パ ソ コ ン 通 信 経 由 で もtelnetやftpな ど が 少 し ず つ 使 え る よ う に な っ て い た が,一 般 に は イ ン タ ー ネ ッ ト を 利 用 す る こ と が ど の よ う な こ と な の か 今 ひ と つ わ か り に く か っ た 。 こ の ソ フ トが イ ン タ ー ネ ッ トブ ー ム に 火 を つ け た の は あ ま り に も 有 名 な 話 で あ る 。 ち な み に,モ ザ イ ク 開 発 者 の 一 人 で あ るMarcAndressenとJimClarkが 立 ち 上 げ た の がNetscape社 で,同 社 が 開 発 し たNetscapeNavigatorは 今 で も 二 大WWWブ ラ ウ ザ の 一 方 の 雄 で あ る 。
と こ ろ が,歴 史 の 偶 然 は こ こ か ら 始 ま る 。SGMLは 元 来 ネ ッ ト ワ ー ク に お い て 共 通 の 文 書 フ ォ ー マ ッ トに 基 づ い て デ ー タ を 共 有 す る こ と を 目
フラ ンス語機械可読辞書 とメタ言語
的 と して 作 成 さ れ て い た 。 他 方 にお い て,イ ン タ ー ネ ッ トのWWWを 利 用 す る た め に も,共 通 の フ ォ ー マ ッ トに基 づ い て 文 書 が 作 成 され て い な けれ ば な らな か っ た 。 そ の 共 通 の フ ォ ー マ ッ ト こそ,SGMLの サ ブ セ ッ トのHTMLで あ る 。 あ ま り に完 壁 主 義 なSGMLの 普 及 が 遅 れ る の を 尻 目 に,WWWの 利 用 は爆 発 的 に進 み,そ れ に伴 っ てHTMLも2001年 現 在 でversion4.01ま で 進 ん で い て,HTMLを 拡 張 したXHTMLま で も普 及 の 兆 しを 見 せ て い る。 本 家 本 元 が 普 及 す る よ り早 く,分 家 の 方 が 津 々 浦 々 ま で 行 き届 い て し ま っ た の で あ る。
他 方,SGMLの 普 及 が 遅 れ,HTMLの 普 及 が 進 む に つ れ て,逆 に HTMLの 限 界 も ま す ます 明 確 にな って き た 。HTMLで は 限 られ た タ グ しか 利 用 で きず,そ れ らは ど ち らか と 言 う と レイ ア ウ ト関 係 で,文 書 の 構 造 を記 述 す る も の で は な か った 。 一 例 を あ げ よ う 。 ボ ー ル ドと か イ タ リッ ク とい うの は レイ ア ウ トに関 係 す る が,ポ ー ル ドで 書 か れ た 部 分 は
「著 者 名 」 で,イ タ リ ッ ク で 書 か れ た 部 分 は 「書 名 」 で あ る と い うの は, 文 書 の構 造 にか か わ る。HTMLで は ボ ー ル ドは<B></B>,イ タ リ ック
は<1>〈 π〉 と い う タ グが 存 在 す る が,著 者 名<author></author>は 存 在 しな い し,作 成 して もHTML文 書 と して は意 味 を な さ な い 。
つ ま り,デ ジ タ ル 文 書 の 共 有 を 目指 す の で あ れ ば,ボ ー ル ドや イ タ リ ッ クの 指 定 よ り も,ど こが 著 者 名 で ど こが 書 名 で あ る か が わ か らな い と困 るの で あ る 。 先 ほ どのCSVで も,
LeoWanner,LexicalFunctions,1996,JohnBenjamins
この よ うな 形 式 で は,第1フ ィー ル ドが 著 者 名,第2フ ィ ー ル ドが 書 名,
… … と い う 「暗 黙 の 了 解 」 が な けれ ば機 能 しな い。 た と え,第1レ コ ー ドを,
Author,Title,Year,Publisher
と い っ た 具 合 に 定 義 して お い た と こ ろ で,第2レ コ ー ド以 降 に は, フ ィー ル ド桁 数 以 外 に,そ れ が 書 名 で あ る こ とを 意 味 す る 手 が か りが な
一5一
一六
一五
い の で あ る 。 万 一,別 の デ ー タ ベ ー ス で は第1フ ィ ー ル ドが 書 名 だ った りす る と,お 互 い に 混 乱 の 元 で あ る 。 そ れ を 解 決 す るた め に こそ,そ も そ もSGMLは 作 られ た の で あ る。 も し,
<author>】 しeoWanner</author>,<title>LexcialFunctions</title>,
<year>1996</year>,<publisher>JohnBenjamins</publisher>
と記 述 して お け ば,実 は フ ィー ル ドを 区 切 る コ ン マ も不 要 で あ る 。 もち ろ ん,全 て の レコ ー ドに 対 し て<author>な どの タ グ が 入 る と デ ー タ の 容 量 を い た ず ら に増 や して し ま う欠 点 は あ る が,フ ィ ー ル ドの構 造 の方 が 重 要 な 場 合 が 多 い 。
と ころ が,SGMLは 必 ず し も使 い や す い言 語 で は な い 。HTMLく らい 取 り組 み や す け れ ばSGMLが 普 及 しな か っ た わ け は な いの だ が,専 門 家 で さ え て こず る ほ ど,厳 密 さ を 要 求 す る 使 い に く い言 語 で あ った 。 と は い っ て も,HTML程 度 で は デ ー タ共 有 の 実 務 に 耐 え な い,と い う ジ レ ン マ が 近 年 ます ます 大 き くな っ て きた 。
XMLの 取 り組 み はそ の ジ レ ンマ を解 決 しよ う と い う試 み と も言 え る。
XMLが 登 場 し た の は1998年 初 頭 で あ る 。 こ こ10年 ほ ど の 間 に 立 て 続 け にSGML,HTML,XMLと 三 つ の 重 要 な マ ー ク ア ッ プ言 語 が 登 場 した こ と に な る 。 は た して,XMLが 本 当 に実 務 に 耐 え う る の か ど うか は 予 断 を 許 さ な いが,少 な くと も二 つ の 先 例 の 良 い と ころ を 取 り入 れ て,悪 い と こ ろ は 取 り除 こ う と して い る こ と は 事 実 で あ る。XMLが 今 後 と も 実 務 に 耐 え う る か ど うか は,SGML(厳 密 に はGML)に 始 ま るマ ー ク ア ッ プ 方 式 そ の も の の根 幹 に か か わ る よ うな 仕 様 変 更 を 迫 られ るか ど うか に か か っ て い る だ ろ う。SGML発 足 当 時 は 参 考 文 献 で さ え 見 つ け る の が 大 変 だ っ た が,今 や 書 店 に はXML関 連 書 籍 の コ ー ナ ー ま で あ る ほ ど で あ
る 。 今 度 こそ 離 陸 が 期 待 で き る 。
言 う ま で も な く,XMLはMRDの コ ー デ ィ ン グの た め に 開 発 され た の で は な い。 む し ろ非 常 に汎 用 的 な マ ー ク ア ッ プ言 語 で あ る 。 あ と は そ の
フ ラ ンス 語 機 械 可 読 辞書 と メ タ言 語
汎 用 性 を う ま く利 用 す る しか な い 。 少 な く と も現 時 点 で はMRDの コー デ ィ ン グ 用 メタ 言 語 と して はXMLが 唯 一 の 選 択 肢 と考 え られ る3)
4:XMLに よ る コ ー デ ィ ン グ の 例
次 に,簡 単 にXMLの コ ー デ ィ ン グ例 を紹 介 して お こ う。XMLは 一 般 に 複 数 の 要 素 か ら成 り立 っ て い る 。 大 ま か に言 え ば,デ ー タ そ の も の
(XML文 書 そ の も の),そ の 内 容 の 構 造 を 定 義 し た フ ァイ ル(DTDや XMLSchema),そ して レイ ア ウ トに関 す る情 報 フ ァイ ル(XSLTやCSS) で あ る。IntemetExplorerやNetscapeの 最 新 バ ー ジ ョ ンはXMLの パ ー サ と して の 機 能 も持 っ て い る の で(パ ー サ と い うよ り,相 変 わ らず ブ ラ ウザ と呼 ん だ ほ うが 正確 だ が),つ いXSLTやCSSが 注 目 され が ち だ が, XMLに お い て 最 も 重 要 な の はSGMLか ら 引 き 継 い だDTDとXML Schemaで あ る 。DTDは 厳 密 に はXMLSchemaの 一 種 で あ る 。 お そ ら く 今 後 は 厳 密 に定 義 可 能 なXMLSchemaを どの よ う に扱 うか と い う方 に重 点 が 移 行 して い く も の と思 わ れ る が4),こ こで は まず デ ジ タ ル 文 書 に お け る 「定 義 」 の 重 要 性 を理 解 して い た だ くた め に,DTDに 絞 っ て 紹 介 す る こ と にす る 。
DTDと はDocumentTypeDe丘nitionの 略 で 文 書 型 定 義 と 訳 さ れ る 。 XMLのeXtensibleさ は ま さ し くDTDの お か げ で あ る 。XSLやCSSな ど
は 後 回 しに して も,DTDだ け は 厳 密 に定 義 して お く必 要 が あ る 。 DTDはXML文 書 そ の も の の 中 に,XML宣 言 に 続 い て,内 部 サ ブ セ ッ トと して定 義 す る こ と もで き る 。 小 さな デ ー タで あ れ ば,内 部 サ ブ セ ッ トで も十 分 だ ろ う。 あ る 程 度 大 規 模 な デ ー タ にな る と,外 部 サ ブ セ ッ ト と して 切 り離 した 方 が,後 々 わ か りや す い。
DTDの 定 義 そ の も の は 決 し て 難 し く は な い 。 む し ろ 単 純 す ぎ て, XMLSchemaの 重 要 性 が 高 ま っ て い る と さ え言 え る 。DTDの 基 本 的 な 考
̲7
一四
え 方 は,何 が 一 ま と ま りのデ ー タ の 集 ま りで,そ の デ ー タ の 中 は ど の よ う な 階 層 構 造 に な っ て い る か,で あ る。 先 の 書 誌 デ ー タ な どの 場 合 は, 以 下 の よ うなDTDの 定 義 が考 え られ る 。
fig.1DTD定 義 例
〈!ELEMENTbookdata(author,title,year,publisher)〉
〈ELEMENTauthor(#PCDATA)〉
〈!ELEMENTtitle(#PCDATA)〉
〈!ELEMENTyear(#PCDATA)〉
〈!ELEMENTpublisher(#PCDATA)〉
この 程 度 の 定 義 で も 十 分 で あ る 。 上 のDTDの 意 味 は,ま ず 一 行 目で XML文 書 の 中 の1つ の デ ー タの か た ま りで あ るbookdataを 定 義 し,そ の 中 に はauthorとtitleとyearとpulisherの 四 っ のデ ー タ が あ る こ と を 宣 言 し て い る 。 以 下 は,そ れ ぞ れ の デ ー タ の 型 を 定 義 し て い て, (#PCDATA)と は 要 素 が テ キ ス トを 内 容 と して 持 つ こ と を 意 味 し て い
る 。 従 っ て,画 像 で も音 声 で も定 義 可 能 で あ る 。 そ して,実 際 に コ ー デ ィ ン グ して み た の が,以 下 の よ うな サ ンプ ル で あ る 。
丘g.2XMLサ ン プ ル
〈?XMLversion="1.0"encoding="UTF‑8"?〉
<bookdata>
<author>LeoWanner</author>
<title>LexicalFunctions</title>
<year>1996</year>
<publisher>JohnBenjamins</publisher>
</bookdata>
こ れ な ら,ど こ か ら ど こ ま で がauthorな の か,は っ き り わ か る こ と に
フ ラ ン ス語 機 械 可読 辞 書 とメ タ 言 語
な る。
しか し,少 し考 えて み れ ば,こ れ で も まだ 情 報 は 足 りな い こ とが わ か る。 た とえ ば 書 籍 の 場 合 は これ で もよ いが,雑 誌 の 場 合,号 巻 数 は ど う す る の か,日 本 語 の 書 籍 か フ ラ ン ス語 の 書 籍 か と い っ た 情 報 は 不 要 か,
も し必 要 だ と して,さ ま ざ ま な 言 語 を どの よ うに し て 入 力す る の か,な どの 問 題 が 出 て く る 。
5:文 書 型定義をめ ぐる諸問題
上 で 取 り上 げ た よ う な 例 の 場 合 な らわ ざわ ざXMLで な くて も よ い と も言 え る 。 この 程 度 の デ ー タ な ら(も ち ろ ん,本 格 的 な 書 誌 デ ー タ な ら 話 は別 で あ る)CSVで 作 っ て お いて も,フ ィー ル ド数 が4つ く らい な ら, 単 な る テ キ ス ト処 理 で フ ィ ー ル ドの入 れ 替 え な ど い く ら で もで き る。 も ち ろ ん,デ ー タ さ え 正 し く作 られ て い れ ば,と い う 前 提 条 件 の も と に お い て の 話 だ が 。
問 題 は,そ の 程 度 の構 造 で は記 述 しき れ な い場 合 で あ る 。 機 械 可 読 で は な くて も,一 般 の 印 刷 物 の 辞 書 の項 目定 義 が どれ ほ ど 難 し い か を考 え て み よ う。
ま ず,ど の 単 語 を 見 出 し 語 と して 取 り 上 げ る の か を 決 め る 必 要 が あ る 。 専 門 用 語 は ど こ ま で 取 り上 げ る の か,固 有 名 詞 を 取 り上 げ る 基 準 は ど こ に置 くか,複 数 の 綴 り字 の あ る語 は ど うす るか,等 を 決 め る 必 要 が あ る。 これ は フ ォー マ ッ トさ え 決 ま れ ば,あ と は い く らで も追 加 可 能 と 考 え て も よ い。
次 に,個 々 の 単 語 に お いて,何 を定 義 す る必 要 が あ る の か 決 め な け れ ば な らな い。 発 音 記 号,品 詞,意 味,用 例 は どの 辞 書 に も あ る と して, 類 義 語 や 反 意 語 は ど う す るの か,類 義 語 や 反 意 語 が な い場 合 は ど うす る か,同 形 異 義 語 や 複 数 の 品 詞,複 数 の 意 味 の あ る場 合 は ど うす る か,も
一9一
決 め る必 要 が あ る 。 これ も原 理 的 に は追 加 可 能 だ が,こ こは 可 能 な 限 り 厳 密 に定 義 を し て お か な い と,泥 縄 式 に追 加 しな け れ ば な らな くな る。
項 目 は 厳 密 に 決 ま って い て も,個 々 の項 目の 数 が 厳 密 に 決 ま らな い こ とが 多 い 。 ほ と ん ど一 義 的 に しか 使 わ れ な い 語 も あ れ ば,多 義 語 も あ る 。 しか も意 味 が3つ あ る も の もあ れ ば,5つ で も 足 りな い も の もあ る。
DTDやXMLSchemaの 中 で は,意 味 に 関 して は 当然,「1個 以 上 」 と い う 可 変 長 の 定 義 し か で きな い。 そ して,そ れ ぞ れ の 意 味 に応 じて 用 例 も異 な る の で,用 例 は 意 味 の数 に応 じて 決 め な け れ ば な らな い が,そ の 用 例 も必 ず1つ と 決 ま っ て い れ ば よ い が,場 合 に よ って は2つ 以 上 必 要 な こ と も あ る 。 た とえ ば フ ラ ンス 語 で は 従 属 節 のque以 下 で 接 続 法 が 用 い ら れ た り直 説 法 が 用 い られ た り条 件 法 が 用 い られ る と い っ た,複 雑 な 用 例 の 動 詞 が 少 な くな い。 しか も接 続 法 の 使 用 は 主 動 詞 が 否 定 形 また は 疑 問 形 に置 か れ た と き と決 ま っ て い れ ば よ い が,現 実 に は そ の よ う に き れ い に は ま と ま らな い。 否 定 形 の8割 方 は接 続 法 が 用 い られ て い る の に,残
り2割 は 直 説 法 だ った り条 件 法 だ っ た り,と い った ケ ー ス も あ り う る 。 そ うな る と,最 初 は接 続 法 だ と思 わ れ て い た 第 一 群 規 則 動 詞 の ほ と ん ど は,実 は 判 別 不 可 能 に な って しま う 。 この よ うな 場 合 は1つ の 意 味 に 対
して,複 数 の 用 例 が 必 要 に な り うる 。
と ころ が,現 実 の 辞 書 を 見 れ ば わ か る こ とだ が,全 て の 意 味 に対 して 用 例 が あ る わ け で はな い。 紙 幅 の 都 合 や 重 要 度 に応 じて 用 例 は 適 宜 省 略 さ れ る 。 も ち ろ ん,あ らゆ る語 の あ ら ゆ る 語 義 に対 して 用 例 が つ く辞 書 と い う の も1つ の セ ー ル ス ポ イ ン トで あ ろ う が,果 た して どれ く ら い現 実 的 あ る い は 実 用 的 か わ か らな い5)0と な る と,結 果 的 に 用 例 は 「0個以 上 」 と い う さ ら に曖 昧 な 可 変 長 の 定 義 しか で きな くな る 。
そ して,こ れ らの 辞 書 に関 す る項 目定 義 は,ま た もや,辞 書 の 使 用 目 的 に よ っ て 問 題 点 が 大 き く異 な っ て く る。 印 刷 物 の 辞 書 に 限 っ て も,そ れ は 英 和 辞 典 な の か,英 英 辞 典 な の か に よ っ て,辞 書 の 作 り は 全 く異
フ ラ ンス 語 機械 可読 辞 書 と メ タ言 語
な っ て し ま う こ と は言 う ま で もな い 。 つ ま り単 一 言 語 で よ い の か,そ れ と も複 数 言 語 が 必 要 に な る の か は,現 時 点 で は 機 械 可 読 辞 書 に と っ て極 め て 大 き な 問 題 で あ る 。1っ の フ ァイ ル の 中 で 複 数 の 言 語 を扱 う こ とが ま だ完 全 で は な い の だ 。
実 はXMLはJava言 語 と 同 じ くUnicodeに 準 拠 して お り,UTF‑8と UTF‑16に 対 応 し て い る 。Unicodeの 問 題 に つ い て は 中 尾1997,1999で
も 若干 述 べ た が,筆 者 の 立 場 は,全 面 支 持 も しな い が,全 面 否 定 も しな い,で あ る 。 全 面 支 持 しな い の は,Unicodeが 完 全 な コ ー ド体 系 で は な い の は 明 らか だ か らで あ り,全 面 否 定 しな い の は,従 来 の コ ー ド体 系 で は 不 可 能 だ っ た こ と の い くつ か がUnic∞deで あ れ ば 実 現 可 能 に な っ て き た か らで あ る 。
た と え ば 筆 者 の 関 係 で 言 え ば,従 来 は 日 本 語 と フ ラ ン ス 語 を1つ の フ ァイ ル の 中 で 同 時 に 扱 お う とす れ ば,特 定 メ ー カ の 製 品 に よ るバ イ ナ リ フ ァイ ル を 作 成 す る の で な け れ ば,Muleな ど の よ う に 同 一 フ ァ イ ル 内 で 複 数 の 文 字 コー ドを切 り替 え る 以 外 に は方 法 が な か った 。 文 字 コ ー ドの 段 階 で 異 な っ た 文 字 に 同 じ コー ド番 号 が 振 られ て い る か らで あ る 。 フ ラ ン ス 語 や ドイ ツ語 の 特 殊 文 字 は1バ イ トの8ビ ッ ト目 に 割 り 当 て ら れ て い る の で,Shift・JISで もEUCで も ど ち ら も 日本 語 表 示 に8ビ ッ ト目 を 使 う以 上,混 在 で き な い の は 明 らか で あ り,8ビ ッ ト目 を 使 わ な い JIS‑2022を 使 う と,今 度 は8ビ ッ ト目 を 使 っ て しま うISO‑8859‑1と の 整 合 性 が 取 れ な くな って し ま う 。 これ で は ま と もな 多 言 語 混 在 フ ァイ ル を 作 成 す る こ と す らで き な か っ た 。 同 一 の テ キ ス トフ ァイ ル 内 で 日本 語 の ひ らが な とハ ング ル 文 字 を混 在 さ せ る な ど,ほ とん ど 不 可 能 だ っ た 。
言 う まで も な く,日 本 語 と フ ラ ンス 語(や ドイ ツ語 な ど 主 要 な 西 ヨ ー ロ ッパ 言 語)が 同 時 に 扱 え さ え す れ ばそ れ で よ い は ず は な い 。Unicode で 同 時 に扱 え る言 語 に は 限 りが あ る こ と も事 実 で あ る 。 筆 者 と し て は, 従 来 不 可 能 だ っ た こ と の い くつ か が 可能 に な っ た 以 上,ま だ 可 能 で は な
一11一
一〇
い こ とが 残 っ て い る こ とを 理 由 に全 否 定 す る の は 理 性 的 な 判 断 で は な い と考 え て い る 。 さ ら に 改 良 を加 え る た め に 生 産 的 な 提 案 や 研 究 を す れ ば よ いだ け の こ と で あ る。
XMLはUnicode準 拠 とは い え,現 実 に はUnicodeを 処 理 で き る環 境 は 十 分 と は ま だ 言 え な い。 た と え ば,XMLフ ァイ ル を コ ー デ ィ ン グ して い る 最 中 に は 当 然,何 らか の エ デ ィ ッ トソ フ トが 必 要 に な り,そ れ が Unicodeに 対 応 して い な けれ ば,エ デ ィ ッ ト中 は 文 字 参 照 で 書 く しか な い 。 一 般 に エ デ ィ ッ トソ フ トは フ ォ ン トの コ ン トロー ル が 必 ず しも 簡 単 で は な い の で(左 か ら右 に英 文 を書 いて い る 途 中 で,右 か ら左 に書 くヘ ブ ライ 語 や ア ラ ビア 語 を 引用 す る 必 要 が 出 て きた 場 合 に ど うす れ ば よ い か を 考 えれ ば,フ ォ ン トが あ り さえ す れ ば よ い と は 考 え られ な い こ と は す ぐ に理 解 で き る だ ろ う),XMLで は現 時 点 で は,以 下 の よ う な 文 字 参 照 を す る必 要 が あ る 。
fig.3ラ テ ン拡 張 文 字 と文 字 参 照 例(10進 法 と16進 法)
一九
10進 法 16進 法
A À &#xOOOO;
A Â &#xOOC2;
G Ç &#xOOO7;
直 È &#xOOO8;
直 É &#xOOC9;
倉 Ê &#xOOCA;
E Ë &#xOOCB;
i Î &#xOOCE;
1 Ï &#xOOCF;
6 Ô &#xOOD4;
む ? &#xOOD9;
o Û &#xOODB;
U Ü &#xOODC;
(以 下 略)
もち ろ ん,DTDかXMLSchemaの 中 で 定 義 さえ して お け ばHTMLな ど
フ ラ ンス 語 機械 可読 辞 書 と メ タ言 語
で お な じみ の ネ ー ム エ ンテ ィ テ ィ(éな ど)も 使 え る し,こ の方 が ま だ 可 読 度 が 高 い。
しか し,辞 書 で 使 う文 字 は これ だ けで は な い 。 フ ラ ンス 語 と 日本語 の 辞 書 に 限 って も,発 音 記 号 を使 うの で あれ ば,ま た もや 困 難 が 待 ち 受 け て い る 。Unicodeで は88のIPA文 字(lntemationa1PhoneticAlphabet)が 定 義 され て い る が,こ れ を ネ ー ム エ ンテ ィ テ ィで あ ろ う と文 字 参 照 で あ ろ う と記 憶 す る こ と は 音 声 学 か 音 韻 論 の 専 門 家 で な け れ ば,ほ とん ど不 可 能 だ ろ う。 文 字 参 照 と い う苦 肉 の 策 に よ っ て,曲 が りな りに も扱 え る よ う にな っ て きた と い う の が 唯 一 の 救 い な の で あ る 。
文 字 の話 が い さ さ か 長 くな って し ま っ た が,文 字 を 表 示 さ せ る と い う だ けな ら画 像 と して 処 理 して し ま う方 法 もあ るの で,決 して 乗 り越 え が た い 問題 で は な い 。 検 索 に お いて も若 干 煩 雑 で は あ る が,た とえ ば発 音 記 号 の画 像 と フ ァイ ル 名 が 一 対 一 に対 応 して いれ ば,む し ろ 処 理 しや す
い と さ え 言 え る。
6:メ タ 言 語 の 未 来
XMLの 登 場 に よ っ て,確 か に(フ ラ ンス 語)機 械 可 読 辞 書 の 作 成 の外 的 な 問 題 点 は か な り解 決 さ れ た と言 え る 。 た と え ばUnicodeの 問 題 に し て も,ま ず はXMLを 利 用 したMRDが い くつ も作 成 さ れ て,そ れ ぞ れ の 使 用 目 的 に 応 じ て 評 価 さ れ て,そ の 結 果 を フ ィ ー ドバ ッ ク して い く方
が,現 実 的 で 生 産 的 な 方 法 だ ろ う。
しか し,XMLの 登 場 に よ っ て か な り改 善 さ れ て き た の は 言 語 に と っ て 外 的 な 問 題 で あ る 。 言 語 に 内 在 す る 問 題 はXMLだ ろ うが,SGMLだ ろ うが,何 一 つ 解 決 さ れ て いな い と言 っ て もよ い。 た と え ば フ ラ ン ス語 で は過 去 分 詞 と 形 容 詞 の 境 界 が 極 め て 曖 昧 な 語 が い く つ も あ る 。 つ ま り,見 出 し語 は い く らで も立 て られ る が,た と え ば そ のMRDが 構 文 解
一八
一13一
一七
析 や 自 動 翻 訳 に 利 用 さ れ るの で あ れ ば,今 度 は そ の 形 容 詞 か 動 詞 か を ど の よ うに して 判 定 す る か の 条 件 分 岐 を 辞 書 の 中 に記 述 して お いて プ ロ グ ラム が そ の 情 報 を参 照 す る よ う に ア ル ゴ リズ ム を組 む か,あ る い は 何 ら か の 「機 械 可 読 文 法 」を 実 装 して お か な け れ ば,い く らMRDが あ っ て も 実 用 に は な ら な い だ ろ う。
XMLが そ の 真 価 を 問 わ れ る の は ま さ し く こ こ か も しれ な い 。XMLは そ の 仕 様 上,基 本 的 に デ ー タベ ー ス に は 向 い て い る 。 辞 書 と は ま さ し く デ ー タ ベ ー ス で あ る 。 問 題 は,文 法 は デ ー タ ベ ー ス か 否 か で あ る。 確 か に文 法 に も若 干 の デ ー タ ベ ー ス 的性 質 が あ る が(な ぜ な ら,規 則 の 「集 ま り」で あ る),文 法 と は 基 本 的 に 「規 則 」 の 集 ま りで あ る。 辞 書 の 中 の 個 々 の項 目 に は,出 現 頻 度 順 位 や 利 用 頻 度 順 は 存 在 して も,優 先 順 位 は 存 在 しな い 。 しか し文 法 の規 則 の 中 に は 優 先 順 位 の 高 い規 則 も あ れ ば, 特 定 の 限 られ た 条 件 にお いて しか 機 能 しな い規 則 も あ る。 た と え ば フ ラ ンス 語 で は 形 容 詞 は 一 般 に 名詞 の後 ろ に置 か れ,一 部 の 形 容 詞 は 名 詞 の 前 に置 か れ る と い っ た 場 合,優 先 順 位 の 高 い規 則 は 「形 容 詞 は 名 詞 の後 ろ」 で あ る 。 そ れ が 出 現 順 位 も高 いか ど うか は わ か らな い 。 な ぜ な ら, 名 詞 の 前 に 置 か れ る 一 部 の形 容 詞 と は 使 用 頻 度 の 高 い もの ばか りだ か ら で あ る 。 あ る い は,他 動 詞 の過 去 分 詞 が 性 ・数 一 致 す る の は 「複 合 時 制 で 直 接 目的 補 語 が 過 去 分 詞 よ り前 に 置 か れ た 場 合 」 な ど と い う の は,条 件 が3つ も重 な っ て い る以 上(複 合 時 制,直 接 目 的 補 語,そ の 位 置),か な り制 限 され た 規 則 とみ な して よか ろ う。 実 際 に は 日常 的 に 目 に す る現 象 で は あ る が6)。
また,現 実 の文 が 必 ず しも規 則 に従 っ て い る わ け で は な い 。 そ れ らの 中 に は,規 範 文 法 か らす れ ば,「 誤 用 」 と断 定 さ れ る もの も あ れ ば,「 例 外 」 や 「稀 」 と い っ た 扱 い を受 け る も の も あ る 。 しか し,異 文 化 コ ミ ュ ニ ケ ー シ ョ ン 的 な 観 点 に立 て ば,現 実 の言 語 現 象 は,誤 用,例 外,稀, 省 略,言 い 淀 み,迂 遠,重 複 な どの 連 続 で あ る 。 文 法 とは そ れ らのmass
フ ラ ンス 語 機 械 可 読 辞 書 と メ タ 言 語
で しか あ りえ な い 。 さ らに 重 要 な 要 素 と して,文 法 とは 常 に,あ らか じ め 存 在 す る も の の 最 大 公 約 数 で しか あ りえ ず,原 理 的 に は 決 してupto dateに 追 い つ く こ とは な い 。 言 語 の 変 化 は 現 在 も進 行 中 で,文 法 が そ の 変 化 を 先 取 りす る こ と は あ り えな い。
問 題 は こ の よ うな ダ イ ナ ミ ッ ク な 動 き に ど れ だ け 対 応 で き る か で あ る。 デ ー タ ベ ー ス や 文 法 に全 て を記 述 す る こ と の 不 可 能 性 は す で に人 工 知 能 の 分 野 で 証 明 済 み で あ る。 今 は,い くつ か の 規 則 か らい か に して 未 知 の も の を推 論 し た り予 想 で き るか,と い っ た 方 向 に 向 か っ て い る 。 MRDに つ い て も 同 じ こ とが 求 め られ る だ ろ う 。
註
1)事 実,1995年 こ ろ に は 情 報 知 識 学 会 な どで,TeX文 書 を どの よ う に して HTMLあ る い はSGML文 書 に 変 換 す る か と い っ た こ と が よ く 議 論 さ れ た
り発 表 さ れ た り した 。 そ の と き に 最 も 問 題 に な っ た の は,TeXとHTML で は 文 書 構 造 の 記 述 の 仕 方 が 違 う(つ ま り文 書 構 造 の 解 釈 の 仕 方 が 異 な っ て い る)点 で あ っ た 。
2)場 合 に よ っ て は タ グ の 方 が 本 来 の デ ー タ よ り容 量 が 大 き く な っ て し ま う こ と さ え あ り う る の は,決 して 誉 め られ た 仕 様 で は な い 。 も っ と も,そ の 程 度 の こ と は,ハ ー ド的 な マ シ ン パ ワ ー さ え 向 上 す れ ば,微 々 た る 問 題 と も い え る 。 む し ろ,情 報 の 中心 点 と考 え られ る テ キ ス ト部 分(文 書 本 体 部 分)よ り,文 書 構 造 や レイ ア ウ トの 情 報 量 の 方 が 多 くな りが ち な の は, 言 語 学 的,情 報 理 論 的 に 見 て 極 め て 興 味 深 い 現 象 で あ る 。 そ の 他 に ハ イ パ ー リ ン ク が 実 装 さ れ て い な い な ど,時 代 に そ ぐ わ な い 欠 点 も 出 て き て い る。
3)1998年 に 出 版 さ れ たDθ'伽 露o〃鰍 〃24吻膨(Habertetal.)で は,SGMLの サ ブ セ ッ ト と い う 位 置 付 け で は あ る が,XMLが い ち 早 く 言 語 デ ー タ の マ ー ク ア ッ プ 言 語 と して 紹 介 され て い る 。
4)最 新 の 情 報 で は,XML文 書 か ら必 要 な 情 報 だ け を 抽 出 して 組 み 版 に 渡 す よ う な シ ス テ ム が 次 々 と 開 発 さ れ て い る 。 ペ ー パ ー レ ス 社 会 に は ほ ど 遠 い が,XMLの 柔 軟 さ を よ く 示 して い る 。
5)通 常 の 電 子 辞 書 な ど な ら,デ ー タ ベ ー ス に 対 し て 常 時 ア ク セ ス で き る よ う に ハ イ パ ー リ ン ク を 設 定 し て お け ば,意 味 を 参 照 す る そ れ ぞ れ の 場 合 に 最 新 の 用 例 を 引 き 出 す こ と が で き る,と い っ た 方 向 を 考 え た 方 が 将
一六
一15一
来 性 が あ る だ ろ う。
6)こ の よ う に,優 先 順 位 が 高 い か ら と い っ て,使 用 頻 度 も 高 い と は 限 らな い とか,か な り制 限 さ れ た 規 則 な の だ が,言 語 現 象 と して は 日常 的 と い っ た 「ね じれ 」 が フ ラ ン ス語 の 自 動 構 文 解 析 を難 し く して い る 要 因 の 一 つ で も あ る。
参考文献
ClaudeFREY,Dani61eLAT‑N,Lecorpuslexicographique,1997,Duculot.
Ben◎itHABERT,CecileFABRE,FabriceISSAC,De1伽 珍au"π 〃吻 π島 ω πs'伽%〃o㎜ 廊 〃6'ゆ'o露 〃'ε5ω7ψκs4'6cかo"勿 粥s,1998,Masson.
BenoitHABERT,AdelineNAZARENKO,AndreSALEM,LesLinguistiquesde Corpus,1997,ArmanColin.
CharlesF.GOLDFARB,PaulPRESCOD,TheXMLHandbook,1998,Prentice
Hall(邦 訳,安 藤 慶 一,『XML技 術 大 全 』,ピ ア ソ ン ・エ デ ュ ケ ー シ ョ ン, 1999年 。).
ElizabethCASTRO,XMLfortheWorldWideWeb‑一 一VisualQuickStartGuide, MdNCorporation,2001(邦 訳,『XMLク イ ッ ク ス タ ー ト ガ イ ド』,エ ム デ ィ エ ヌ コ ー ポ レ ー シ ョ ン,2001年).
政 瀧 浩 和,匂 坂 芳 典,「 品 詞 お よ び 可 変 長 形 態 素 列 の 複 合N。g㎜ を 用 い た 日 本 語 形 態 素 解 析 」,『 自 然 言 語 処 理 』Vo1.6‑2,1999年1月 。
春 野 雅 彦,「 対 訳 テ キ ス ト か ら 辞 書 を 自 動 生 成 」,『 情 報 処 理 』VoL40‑4, 1999年4月 。
松 本,影 山 他,『 単 語 と 辞 書 』,岩 波 講 座 「言 語 の 科 学 」3,1997年 。 長 尾,黒 橋 他,『 言 語 情 報 処 理 』,岩 波 講 座 「言 語 の 科 学 」9,1998年 。 中 尾 浩,赤 間 啓 之,馬 場 雄 二,「 マ ル チ リ ン ガ ル 環 境 の 構 築:Unicodeの 理 論
と 実 践 」,『 人 文 学 と 情 報 処 理 』 第16号,1997年 。
中 尾 浩,「 文 字 コ ー ド に お け る マ ル チ リ ン ガ ル 概 念 に つ い て 」,『 日 本 フ ラ ン ス 語 フ ラ ン ス 文 学 会 中 部 支 部 研 究 報 告 書 』 第23号,1999年 。
孟 く付記〉
本 研 究 は1999‑2000年 度 愛 知 大 学 研 究 助 成(課 題 番 号C‑85)に よ る 成 果 の 一 部 で あ る 。