DEIM Forum 2011 A8-5
構文・意味保存による多言語 Web ページの作成支援システム
浦江 宏志
†手塚 太郎
‡木村 文則
‡前田 亮
‡†立命館大学 理工学研究科 〒525-8577 滋賀県草津市野路東 1-1-1
‡立命館大学 情報理工学部 〒525-8577 滋賀県草津市野路東 1-1-1
E-mail: †[email protected], ‡{ tezuka,amaeda }@media.ritsumei.ac.jp,
[email protected]
あらまし Web ページの多言語化の方法としては,ページ作成者による事前の翻訳,ならびにページ閲覧者によ
る閲覧時の翻訳サービスの利用が挙げられる.前者は閲覧者にとって読みやすい文章になるという利点があるが,
ページ作成者にとっては大きな負担となる.一方後者は,ページ作成時の負担はないが,機械翻訳で行われるた
め,ページ作成者の意図とは違う意味で翻訳されてしまうことがある.そこで本研究では,ページの作成時に文
の構造と意味を保存することで,翻訳時に作成者の意図を適切に反映させる手法を提案する.また,構文と意味
の保存を自動化し,ページ作成者が保存結果を編集できるようにすることで, ページ作成者の負担をさらに少な
くする手法についても提案を行う.
キーワード Web,多言語化,翻訳,セマンティック Web
Structural and Semantic Indexing for Supporting Creation of Multilingual Web
Pages
Hiroshi URAE
†Taro TEZUKA
‡Fuminori KIMURA
‡and Akira MAEDA
‡†Graduate School of Science and Engineering, Ritsumeikan University
1-1-1 Noji-higashi, Kusatsu, Shiga 525-8577, Japan
‡College of Information Science and Engineering, Ritsumeikan University
1-1-1 Noji-higashi, Kusatsu, Shiga 525-8577, Japan
E-mail: †[email protected], ‡{ tezuka,amaeda }@media.ritsumei.ac.jp,
[email protected]
Abstract There are two ways of translating web pages. One is preparing translated web pages made by the webmaster.
Another is using web translation services. The former way has a merit that translated web pages consist of natural sentence.
It imposes, however, a burden on webmaster. The latter way has a merit that it doesn’t impose a burden on the webmaster. It
often makes, however, unnatural sentences the webmaster doesn’t intend. In this paper, we propose a new method that makes
natural sentences by using an analysis of sentence structures and what each word means. This system lightens a burden on
the webmaster analyzing sentence structures and what each word means almost automatically.
Keyword Web,Multilingualization,Translation,Semantic Web
1. は じ め に
World Wide Web は 世 界 中 の 情 報 へ の ア ク セ ス を 可 能 に し た が , コ ン テ ン ツ の 記 述 に 使 用 さ れ る 自 然 言 語 の 多 様 性 が 情 報 流 通 に お け る 大 き な 障 壁 と し て 残 っ て い る .こ の 障 壁 を 乗 り 越 え る た め ,様 々 な 形 で Web ペ ー ジ の 多 言 語 化 が 行 わ れ て い る .そ の 方 法 と し て 主 に , Web ペ ー ジ の 作 成 者 が 独 自 の 方 法 で 多 言 語 化 を 行 う 方 法 と 翻 訳 サ ー ビ ス を 利 用 す る 方 法 が 挙 げ ら れ る . 前 者 で は , ユ ー ザ の 使 用 言 語 に 応 じ て , Web ペ ー ジ を 言 語 ご と に 用 意 し た り , PHP や JavaScript と い っ た ス ク リ プ ト 言 語 を 用 い て Web ペ ー ジ の 内 容 を 書 き 換 え る こ と に よ っ て , 実 装 し て い る . こ の 方 法 で は , Web ペ ー ジ の 作 成 者 が 予 め 各 言 語 で 書 か れ た 文 章 を 用 意 し て い る た め , ユ ー ザ に と っ て 自 然 で 読 み や す い 文 章 で あ る こ と が メ リ ッ ト で あ る .し か し , Web ペ ー ジ の 内 容 を 更 新 し た り ,新 た な Web ペ ー ジ を 作 成 す る 度 に , 各 言 語 に 対 応 し た 文 章 を 用 意 し な く て は な ら な い こ と が デ メ リ ッ ト で あ る . こ の デ メ リ ッ ト は 対 象 と す る 言 語 が 多 い ほ ど 増 大 す る た め ,Web ペ ー ジ の 作 成 者 に 対 し て 大 き な 負 担 と な る . 後 者 で は , Web ペ ー ジ の 閲 覧 時 に ユ ー ザ が Google 翻 訳 や Yahoo!翻 訳 な ど の 翻 訳 Web サ ー ビ ス を 用 い る こ と で 実 現 し て い る .こ の 方 法 で は , Web ペ ー ジ の 作
成 者 が Web ペ ー ジ の 多 言 語 化 を 実 装 し て い な い 場 合 で も ,ユ ー ザ は 自 分 の 使 用 言 語 で Web ペ ー ジ を 閲 覧 す る こ と が で き る . し か し , 翻 訳 精 度 に は 限 界 が あ る た め , 翻 訳 結 果 が 不 適 切 で あ る こ と も 多 い . こ れ は , 現 在 の 機 械 翻 訳 で は Web ペ ー ジ 作 成 者 の 意 図 を 汲 み 取 れ な い 場 合 が あ り , 文 の 構 造 や 単 語 の 意 味 を 取 り 違 え て い る こ と が 一 因 で あ る . そ こ で 我 々 は こ れ ま で に ,Web ペ ー ジ の 作 成 段 階 で 文 の 構 文 お よ び 単 語 の 意 味 を 指 定 す る こ と に よ り , Web ペ ー ジ の 多 言 語 化 を 支 援 す る 手 法 を 提 案 し た [1]. こ の 手 法 は Web ペ ー ジ 作 成 時 に 行 う ,文 章 が ど の よ う な 構 造 に な っ て い る か を 保 存 す る 「 構 文 保 存 」 と 各 単 語 の 意 味 を 保 存 す る「 意 味 保 存 」 , Web ペ ー ジ の 閲 覧 時 に 行 う 「 文 章 復 元 」 の 3 段 階 か ら な る . 構 文 保 存 ・ 意 味 保 存 を シ ス テ ム に よ っ て 自 動 で 行 う こ と で , Web ペ ー ジ の 作 成 者 が 多 言 語 化 を 行 う 際 に か か る 負 担 を 少 な く す る こ と が で き る . そ の 一 方 で , 最 終 的 な 構 文 ・ 意 味 保 存 の 結 果 を Web ペ ー ジ 作 成 者 が 確 認 ,編 集 す る こ と を 可 能 に す る こ と で ,Web ペ ー ジ 作 成 者 の 意 図 を 正 確 に 反 映 さ せ る こ と が で き る . こ れ に よ っ て 閲 覧 時 に 翻 訳 サ ー ビ ス を 利 用 す る 手 法 よ り も 高 い 精 度 が 期 待 で き る . 本 論 文 で は , 構 文 保 存 , 意 味 保 存 の 詳 細 な 表 現 方 法 に つ い て 述 べ る . さ ら に , 文 書 復 元 の 手 法 を 提 案 し , シ ス テ ム の 実 装 に つ い て 述 べ る .
2. 関 連 研 究
近 年 , 統 計 処 理 手 法 に よ る 言 語 解 析 の 限 界 が 指 摘 さ れ , 統 計 処 理 手 法 と 深 い 言 語 解 析 を 組 み 合 わ せ た 手 法 が 注 目 さ れ て い る . 深 い 言 語 解 析 の 解 釈 は 様 々 で あ る が ,増 市 ら は ,「 文 の 構 成 要 素 間 の 修 飾 関 係 だ け で な く , 述 語 ・ 項 構 造 ま で 特 定 す る 処 理 」 と し , 深 い 言 語 処 理 に よ る , 複 数 言 語 の 文 法 記 述 お よ び , 文 の 解 析 生 成 シ ス テ ム の 研 究 を 行 っ た [2].こ の 研 究 で 使 わ れ て い る 深 い 言 語 処 理 の 為 の 言 語 理 論 は , Lexical Functional Grammar(LFG)[3] と 呼 ば れ る . こ の 理 論 で は , 自 然 言 語 文 の 構 造 を 2 つ の 構 造 で 表 し て い る . 1 つ は 木 構 造 で 表 し た c-structure, も う 1 つ は 文 の 格 構 造 や 時 制 な ど の 意 味 情 報 を マ ト リ ッ ク ス 構 造 で 表 現 し た f-structure で あ る .c-structure は ,言 語 毎 に 大 き く 異 な る が , f-structure は 異 な る 言 語 間 で も 違 い が 少 な い こ と が わ か っ て い る . 本 研 究 で は , 複 数 の 言 語 間 で 統 一 的 な 文 の 構 造 の 表 現 が 必 要 で あ る た め f-structure の よ う に 文 の 構 造 を 文 法 的 機 能 で 表 す .3. 提 案 手 法
シ ス テ ム の 概 要 図 を 図 1 に 示 す .3.1. 構 文 保 存
構 文 保 存 は , 文 章 が ど の よ う な 構 造 で あ る か を 保 存 す る 処 理 で あ る . こ の 処 理 で は , 構 文 解 析 器 や 形 態 素 解 析 器 を 用 い て 文 章 を 解 析 し ,主 語( S)や 述 語( V), 目 的 語( O)と い っ た 基 本 的 な 構 造( 以 下 ,基 本 構 文 ) と そ れ に 係 る 修 飾 語 ( M) に 分 解 し , 文 章 の 構 造 を 保 存 す る .こ こ で 「 He works for a local bank.」 と い う 英 語 の 文 章 と , 日 本 語 の 対 訳 と な る 「 彼 は 地 元 の 銀 行 に 勤 め て い る 。 」 と い う 2 つ の 文 を 例 に あ げ る . 異 な る 言 語 で は , 図 2 の よ う に 語 の 順 序 も 異 な る . そ の 為 , 構 文 保 存 で は 語 の 順 序 は 保 存 し な い .
ま ず , 「 He works for a local bank.」 と い う 英 語 の 文 章 の 解 析 結 果 は 図 3 の よ う に な る . 文 章 を 構 成 し て い た 各 語 は 元 の 順 序 を 保 持 せ ず , 基 本 構 文 と 修 飾 語 に よ っ て 表 す . こ の 時 , 修 飾 語 に は ど こ に 係 っ て い る か と い う 情 報 を 付 加 す る . ま た , 各 語 は 基 本 形 で 保 存 し , 必 要 に 応 じ て 時 制 情 報 を 付 加 す る . 同 様 に , 「 彼 は 地 元 の 銀 行 に 勤 め て い る 。 」 と い う 日 本 語 の 解 析 結 果 は 図 4 の よ う に な る .こ こ で ,英 語 の 文 章「 He works for a local bank.」と 日 本 語 の 文 章「 彼 は 地 元 の 銀 行 に 勤 め て い る 。 」 の 解 析 結 果 に 注 目 す る と , 元 の 文 の 関 係 を 表 す 図 2 で は 対 訳 関 係 で あ る 語 同 士 が 異 な る 順 序 で 並 ん で い た の に 対 し , 文 章 の 構 造 を 解 析 し た 後 で は , 図 5 の よ う に 対 訳 関 係 に あ る 語 同 士 を , 同 じ 構 造 で 表 せ て い る . 図 2 異 な る 言 語 で 対 訳 関 係 に あ る 文 章 の 語 の 並 び の 違 い 図 1 シ ス テ ム 概 要 図
3.2. 意 味 保 存
意 味 保 存 で は , 形 態 素 解 析 し た 結 果 を も と に , 各 語 の 意 味 と そ の 意 味 ID を 格 納 し て い る ワ ー ド ID デ ー タ ベ ー ス ( 表 1) か ら 参 照 し , 意 味 を 保 存 す る . ワ ー ド ID デ ー タ ベ ー ス は 英 和・和 英 対 訳 辞 書「 英 辞 郎 」を 用 い て 作 成 し た . 単 語 に よ っ て は 複 数 の 意 味 を 持 つ こ と も あ る が , 意 味 ご と に 別 の ID を 割 り 振 り , ワ ー ド ID デ ー タ ベ ー ス に 格 納 す る . ま た , 熟 語 に 関 し て も 同 様 に 意 味 ID を 付 与 し て あ る .こ の ワ ー ド ID デ ー タ ベ ー ス を 基 に ,各 語 の 意 味 は 意 味 ID に よ っ て 保 存 さ れ る . Web ペ ー ジ の 作 成 者 の 母 国 語 に よ っ て 作 成 さ れ た 文 章 は , 構 文 保 存 と 意 味 保 存 の 処 理 に よ っ て , 意 味 ID と 構 文 の み の 特 定 の 言 語 に 依 存 し な い 形 式 に 変 換 さ れ る . 例 と し て , 図 3 の 構 文 保 存 の 処 理 結 果 に 対 し て 意 味 保 存 の 処 理 を 行 っ た の が 図 6 で あ る .「 bank」に は「 銀 行 」 や 「 岸 」 と い う 意 味 が 存 在 す る . こ の よ う な 曖 昧 性 の あ る 語 に 対 し て , シ ス テ ム は 曖 昧 性 の あ る 語 が 文 章 中 に 含 ま れ る こ と を 表 示 す る .Web ペ ー ジ の 作 成 者 は そ の 語 に ふ さ わ し く な い 意 味 ID が 付 与 さ れ て い る 場 合 ,手 動 で 変 更 す る こ と が で き る .ま た ,「 work for」 は 1 つ の 熟 語 と し て 保 存 す る . こ れ に よ り 2 つ の メ リ ッ ト が 得 ら れ る . 1 つ 目 の メ リ ッ ト は 曖 昧 性 の 減 少 で あ る . ワ ー ド ID デ ー タ ベ ー ス に は 現 在 , 「 work」 に 対 し て 27 の 意 味 ,「 for」に 対 し て 10 の 意 味 が 保 存 さ れ て い る . こ こ か ら 推 測 さ れ る 「 work for」 の 意 味 の 候 補 は 270 と な る .こ の 中 か ら 意 味 を 選 ぶ こ と は Web ペ ー ジ の 作 成 者 に と っ て 大 き な 負 担 と な る . し か し , 「 work for」と い う 熟 語 の 意 味 を ワ ー ド ID デ ー タ ベ ー ス に 登 録 し て お く こ と に よ り ,Web ペ ー ジ の 作 成 者 は 実 際 に 登 録 さ れ て い る 6 つ の 意 味 か ら 選 ぶ こ と が で き , 大 き く 負 担 を 減 ら す こ と が で き る . 2 つ 目 の メ リ ッ ト は 特 殊 な 意 味 へ の 対 応 で あ る . 熟 語 は 構 成 要 素 と な る 各 語 の 意 味 の 組 み 合 わ せ で は 表 せ な い 特 殊 な 意 味 を 持 つ こ と が あ る た め , 熟 語 と し て 保 存 す る こ と で 対 応 し て い る . 図 4 の 構 文 保 存 の 結 果 に 対 し て も 同 様 に 処 理 を 行 っ た 結 果 が 図 7 で あ る .対 訳 関 係 に あ る 2 つ の 文 章「 He works for a local bank.」と「 彼 は 地 元 の 銀 行 に 勤 め て い る 。」に 対 し て 構 文 保 存 と 意 味 保 存 の 処 理 を 行 っ た 結 果 , 全 く 同 じ 形 に な っ て い る こ と か ら , 同 じ 内 容 を 意 味 す る 複 数 の 言 語 の 文 章 を 一 つ の 形 式 で 表 せ る こ と が 示 さ れ て い る . し か し , 現 状 で は 曖 昧 語 の 自 動 判 定 を 行 う こ と が 難 し く ,Web ペ ー ジ の 作 成 者 に か か る 曖 昧 語 判 定 の 負 担 が 大 き い .そ の 為 , Web ペ ー ジ の 作 成 者 の 負 担 を よ り 少 な く す る た め に , シ ス テ ム が よ り 多 く の 語 を 自 動 で 判 定 で き る よ う に す る 仕 組 み が 必 要 で あ る . 解 決 案 の 一 つ と し て ,図 8 の よ う に 意 味 ID を 概 念 ご と に 分 け , そ の 文 書 内 で よ り 多 く 使 わ れ て い る 概 念 の 意 味 で 意 味 保 存 を 行 う と い う 手 法 が 考 え ら れ る . 意 味 ID en ja 157833 bank 土 手 岸 157844 bank ~ を 積 み 上 げ る ~ を 山 に す る 157850 bank 銀 行 824570 he 彼 1068632 local 地 元 の 特 定 の 場 所 の 現 地 の そ の 地 域 の 地 場 の 2042928 work for ~ に 勤 め て い る 表 1 ワ ー ド ID デ ー タ ベ ー ス 図5 異 な る 言 語 で 対 訳 関 係 に あ る 文章 の 解 析 結 果 の 比 較 図 4 「 彼 は 地 元 の 銀 行 に 勤 め て い る 。」の 構 文 保 存 の 例図 3 「 He works for a local bank.」 の 構 文 保 存 の 例
3.3. 文章 復 元
構 文 と 意 味 を 保 存 し た 文 書 に ユ ー ザ が ア ク セ ス し た 時 , そ の ユ ー ザ の 使 用 言 語 に 合 わ せ て 文 章 を 復 元 す る . 復 元 は 保 存 と 逆 の 順 番 で 処 理 す る . ま ず , ユ ー ザ の 使 用 言 語 を 取 得 す る . そ の 情 報 を も と に ワ ー ド ID デ ー タ ベ ー ス を 参 照 し 意 味 を 復 元 し , そ の 後 基 本 構 文 を 基 に 構 文 を 復 元 し 修 飾 語 を 付 け 加 え る . 図 7 の よ う に 保 存 さ れ た 文 章 を 英 語 を 使 う ユ ー ザ が ア ク セ ス し た 場 合 の 文 書 復 元 例 が 図 9 で あ る . こ の 例 で は 英 語 を 母 国 語 と す る ユ ー ザ が ア ク セ ス し た と 想 定 し て い る . ワ ー ド ID デ ー タ ベ ー ス を 参 照 し , 各 語 の 意 味 ID を 英 語 で の 単 語 に 復 元 す る . そ の 後 , 基 本 構 文 を 英 語 の 文 章 に 復 元 し , 最 後 に 修 飾 語 を 付 け 足 す . 文 章 復 元 の 課 題 点 と し て 文 章 の 構 成 の 曖 昧 さ が 課 題 と な る . 英 語 の よ う に 基 本 構 文 が 確 立 し て い る 言 語 は 比 較 的 簡 単 に 復 元 で き る と 考 え ら れ る が , 日 本 語 の よ う に 文 の 構 造 が 曖 昧 な 言 語 で は , 復 元 の パ タ ー ン を 見 つ け ら れ る か が 課 題 と な る . そ の 解 決 策 と し て , 基 本 構 文 を 機 械 翻 訳 し , そ れ に 修 飾 情 報 を 付 け 足 し て い く と い う 手 法 が 考 え ら れ る . ま た , 「 a」 や 「 the」 と い っ た 冠 詞 , 三 人 称 単 数 現 在 形 や 過 去 形 と い っ た 時 制 , 「 は 」 や 「 が 」 と い っ た 格 な ど , 各 言 語 に 大 き く 依 存 す る 部 分 を ど の よ う に し て 自 然 な 文 章 と な る よ う に 復 元 す る か も 課 題 と な る .4. シ ス テ ム 実 装
本 章 で は「 Bank is a raised portion of seabed or sloping ground along the edge of stream, river or lake 」 と い う 文 を 例 と し , 手 動 に よ る 処 理 を 交 え な が ら , 構 文 保 存 , 意 味 保 存 お よ び 文 書 復 元 を 行 う 例 を 説 明 す る . こ の 処 理 を 行 う に 当 た っ て , 文 章 の 作 成 者 は 英 語 を 母 国 語 と し , 閲 覧 者 は 日 本 語 を 母 国 語 と す る と 想 定 す る . こ の 文 を Google 翻 訳 を 用 い て 日 本 語 に 翻 訳 し た 場 合 ,「 銀 行 が 流 れ 、 川 や 湖 の 縁 に 沿 っ て 海 底 や 傾 斜 地 の 隆 起 部 で す 。」 と い う 結 果 が 得 ら れ る 。 Google 翻 訳 に よ る 翻 訳 結 果 を シ ス テ ム に よ る 処 理 の 比 較 対 象 と す る . ま ず ,構 文 解 析 を 行 う .構 文 解 析 に は APP(Apple Pie Parser)[4]を 用 い た . 解 析 結 果 は 図 10 で あ る . こ の 解 析 で は ,基 本 構 文 は SVC と な り ,C は「 a raised portion」 を「 of seabed or sloping ground」が 修 飾 し た 名 詞 句 で あ る .さ ら に ,C に 対 し M「 along the edge of a stream, river or lake」 が 修 飾 と し て か か っ て い る .
次 に , 構 文 の 修 正 を 手 動 で 行 う . APP に よ る 解 析 で は 「 a raised portion of seabed or slopping ground」 と 「 along the edge of a stream, river or lake」 に 分 か れ る . し か し ,正 確 に は「 a raised portion of seabed」と「 sloping ground along the edge of stream, river or lake」 が 「 or」 に よ っ て 並 列 関 係 と な っ て い る と な る べ き で あ る . そ こ で , C と M の 関 係 を 修 正 し , 図 11 の よ う に 2 つ の 名 詞 句 の 並 列 関 係 全 体 が C と な る よ う に 修 正 し ,構 文 情 報 と し て 保 存 す る . 図 9 文 書 復 元 の 例 図 8 概 念 を 用 い た 曖 昧 性 の 解 消 図 7 「 He works for a local bank.」 と 「 彼 は 地 元 の 銀 行 に 勤 め て い る 。」 の 構 文 保 存 ,
意 味 保 存 結 果 の 比 較 図 6 「 He works for a local bank.」 の
続 い て , ワ ー ド ID デ ー タ ベ ー ス を 参 照 し , 各 語 に 対 し 意 味 ID の 付 与 を 行 う . そ の 結 果 が 図 12 で あ る . 次 に , 意 味 の 修 正 を 手 動 で 行 う .「 Bank」 と い う 語 は「 銀 行 」意 味 す る ID「 157850」が 付 与 さ れ た が ,こ の 文 で の 「 Bank」 は 「 土 手 」 を 意 味 す る . そ こ で 、 ワ ー ド ID デ ー タ ベ ー ス の 「 Bank」 の 他 の 意 味 候 補 を 参 照 し ,図 13 の よ う に「 土 手 」を 意 味 す る ID「 157833」 に 修 正 し , こ の 結 果 を 意 味 情 報 と し て 保 存 す る . 最 後 に , こ の 文 章 を 日 本 語 に 復 元 す る . 復 元 に は Google 翻 訳 を 用 い ,日 本 語 の 文 章 で は 各 語 が ど の よ う な 構 造 を と る の か と い う 情 報 を 得 る . 長 い 文 章 を そ の ま ま 翻 訳 す る と , 誤 訳 や 間 違 っ た 構 造 の 文 が 得 ら れ て し ま う . し か し , 文 章 が 短 く , 単 純 で あ れ ば 、 あ る 程 度 機 械 翻 訳 の 精 度 は 良 く な る . そ こ で , 修 飾 情 報 を 伴 わ な い 基 本 文「 Bank is a raised portion or sloping ground」 の み を 翻 訳 し , そ の 結 果 に 対 し て 修 飾 語 を 補 う と い う 手 法 を 提 案 す る .こ の 結 果 ,「 銀 行 は 、隆 起 部 や 傾 斜 地 で す 。」と い う 文 章 が 得 ら れ る .し か し ,こ の 結 果 で は 「 銀 行 」と い う 誤 訳 が 含 ま れ て い る せ い で ,「 土 手 」を 意 味 す る ID「 157833」が ど こ に 位 置 す べ き な の か が 判 断 で き な い . そ こ で 文 章 を さ ら に 抽 象 化 し , S 全 体 を 「 S」, 全 体 を 「 C」 と い う 1 文 字 で 置 き 換 え , 翻 訳 を 行 う .こ の 結 果「 S は C で す 」と い う 文 章 が 得 ら れ る . よ っ て 日 本 語 で は ,SCV と い う 文 の 構 造 に な る と わ か り , こ れ か ら ワ ー ド ID デ ー タ ベ ー ス を 元 に 基 本 文 の 意 味 を 復 元 す る と 「 土 手 高 く し た 部 分 か 傾 斜 し た 地 面 で す 」 と な る . さ ら に 各 語 に 対 し て そ れ ぞ れ の 修 飾 語 を 付 与 す る と , 最 終 的 な 結 果 と し て 「 土 手 海 底 の 高 く し た 部 分 か 小 川 、 川 か 湖 の 端 に 沿 っ て 傾 斜 し た 地 面 で す 。」 と い う 翻 訳 結 果 を 得 ら れ る . こ の 文 章 は Google 翻 訳 に 比 べ , 作 成 者 の 意 図 を よ り 自 然 で 正 し く 反 映 し た 翻 訳 に な っ て い る と 言 え る .
5. お わ り に
本 論 文 で は ,Web ペ ー ジ の 作 成 段 階 で 文 の 構 文 お よ び 単 語 の 意 味 を 指 定 す る こ と に よ り ,Web ペ ー ジ の 多 言 語 化 を 支 援 す る 手 法 を 提 案 し た . し か し ,本 手 法 を 実 装 し た 場 合 の メ リ ッ ト は Web ペ ー ジ の 多 言 語 化 の 実 装 を 補 助 す る だ け で は な い . Web ペ ー ジ そ の も の が 特 定 の 言 語 に 依 存 し な い 形 で 保 存 さ れ て い る た め ,言 語 横 断 検 索 が 可 能 で あ る .例 え ば「 銀 行 」 に 関 す る 文 書 を 複 数 の 言 語 で 書 か れ た 文 書 群 か ら 探 す 場 合 , 日 本 語 な ら 「 銀 行 」 , 英 語 な ら 「 bank」 , イ タ リ ア 語 な ら 「 banca」 , フ ラ ン ス 語 な ら 「 banque」 と , 対 象 と す る 言 語 数 だ け 検 索 ク エ リ が 必 要 と な る . 一 方 ,本 手 法 で 必 要 な ク エ リ は 1 つ で あ る .な ぜ な ら , も と も と 「 銀 行 」 と 記 述 さ れ て い た 場 合 も , 「 bank」 と 記 述 さ れ て い た 場 合 も , 意 味 保 存 の 段 階 で 同 じ イ ン 図 13 意 味 ID 修 正 結 果 図 12 意 味 ID 付 与 結 果 図 11 構 文 修 正 結 果 図 10 APP に よ る 構 文 解 析 結 果デ ッ ク ス , 表 1 の ワ ー ド ID デ ー タ ベ ー ス を 使 用 し た と す る と 「 157850」 に 書 き か え ら れ て 保 存 さ れ て い る た め で あ る .こ の 結 果 ,ユ ー ザ の 母 国 語 の ク エ リ か ら , 各 言 語 で「 銀 行 」を 意 味 す る 意 味 ID「 157850」に 変 換 し 検 索 す る だ け で , 言 語 横 断 検 索 が 可 能 と な る . さ ら に ,本 手 法 は Web ペ ー ジ 以 外 の 多 言 語 化 へ の 応 用 も 可 能 で あ る . メ ー ル や 論 文 な ど , 作 成 者 と 閲 覧 者 の 使 用 言 語 が 異 な る 場 合 が あ る 文 書 に 対 し て は , Web ペ ー ジ 同 様 に 有 用 で あ る と 推 測 さ れ る . ま た , 構 文 を 保 存 す る こ と で 構 文 情 報 を 考 慮 し た 検 索 も 可 能 と な る . 今 ま で は 検 索 ク エ リ が 文 章 中 で ど の よ う な 使 わ れ 方 を し て い る か を 指 定 す る こ と が で き な か っ た . し か し 本 手 法 で は , 検 索 ク エ リ が 主 語 と し て 使 わ れ て い る 文 章 を 探 す と い っ た 検 索 も 可 能 で あ る . さ ら に , 2 語 以 上 の 検 索 ク エ リ を 使 用 し て 検 索 を 行 う 場 合 に , 語 と 語 の 関 係 性 を 指 定 し た 検 索 方 法 も 考 え ら れ る . こ れ に よ り , 質 問 応 答 シ ス テ ム な ど の 自 然 言 語 処 理 の 分 野 に お い て も 応 用 が 期 待 さ れ る . そ の 他 に も ,構 文 情 報 や 意 味 情 報 を 利 用 で き る よ う に な る こ と か ら ,コ ン ピ ュ ー タ が Web ペ ー ジ の 内 容 を 解 析 で き る セ マ ン テ ィ ッ ク Web の 実 現 へ の 寄 与 も 期 待 で き る . こ の 応 用 を よ り 有 効 に 利 用 す る た め に , デ ー タ ベ ー ス に 意 味 ID と そ れ に 対 応 す る 各 言 語 で の 単 語 の 他 に , そ の 語 が 何 を 表 す 語 な の か を メ タ デ ー タ と し て 付 与 す る と ,よ り 良 い 結 果 が 得 ら れ る と 考 え ら れ る .
参 考 文 献
[1] 浦 江 宏 志 , 手 塚 太 郎 , 木 村 文 則 , 前 田 亮 , 構 文・意 味 保 存 に よ る 多 言 語 Web ペ ー ジ の 作 成 , 第 18 回 Web イ ン テ リ ジ ェ ン ス と イ ン タ ラ ク シ ョ ン 研 究 会 , pp.13-14, 2010-9. [2] 増 市 博 , 大 熊 智 子 , 鷹 合 基 行 , Lexical Functional Grammar に 基 づ く 言 語 解 析 の 現 状 と そ の 応 用 , 電 子 情 報 通 信 学 会 技 術 研 究 報 告 , NLC, 言 語 理 解 と コ ミ ュ ニ ケ ー シ ョ ン 106(299), 1-8, 2006-10-13. [3] R. M. Kaplan, and J. Bresnan, Lexical -FunctionalGrammar : A formal s ystem for grammatical repres entation, in The Mental Repres entation of Grammatical Relations, pp.173 -281, The MIT p ress, 1982.
[4] Proteus Project - Apple Pie Parser (Corpus based Parser), http://nlp.cs.nyu.edu/app/ , 2011-2-14