• 検索結果がありません。

ウイグル語—日本語機械翻訳に関するGIZA++の実験

N/A
N/A
Protected

Academic year: 2021

シェア "ウイグル語—日本語機械翻訳に関するGIZA++の実験"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

ウイグル語―日本語機械翻訳に関する GIZA++の実験

マヒムットジャン.ママットジャン 岡本 紘昭 朝日大学経営学研究科 GIZA++は,統計的機械翻訳で用いることを前提に作られ、翻訳モデルの部分で単語対応 のアライメントを行うツールである。GIZA++は IBM モデル 1~5 を学習し,単語の対応関係 の確率値を計算する。 今回の研究では小規模のウイグル語―日本語コーパスを作成して、実験をし、言語モデ ル、翻訳モデルを構築して、統計的機械翻訳でのウイグル語―日本語統計的機械翻訳シス テムの可能性を検討する。 1. 道具の準備

1) Linux システムのインストール。今回使ったのは Linux の Ubuntu 10.10 バージョ ン。

2) GIZA++ は一番新しいバージョン giza-pp-v1.0.4 を使った。

3) ウイグル語―日本語コーパス。今回は 1000 組程度の実験用コーパスを作成した。 4) 言語モデル作成ツール CMU(Cambridge Statistical Language Modeling Toolkit v2)

を使った。 2.ウイグル語―日本語コーパスの作成 今までウイグル語―日本語コーパスがなかったため、小規模実験用コーパスを作成した。 利用可能な言語資源としては 1) 中国人民日報のネットバージョン「人民綱」の日本語バージョン及びウイグル語バ ージョンを利用した。 2) ウイグル語から日本語に訳されたウイグル語文学作品等を利用した。 3) 日本にいるウイグル人のボランティアたちが提供したウイグル語―日本語対訳例 文を利用した。 これらの資料を集め、コーパス作成道具を利用してコーパスを作成した。 3.Linux システムをウイグル語の入出力できるように設定した。 4.言語モデルの作成 必要となるソフトをインストールしてから、日本語のテキストを利用して、日本語言語 コーパスを作成する。ウイグル語―日本語コーパスの 1000 の日本語文章及び日本語言語コ ーパスを使って言語モデルを作成する。 5.翻訳モデルの作成 翻訳モデルは mkcls 及び GIZA++を利用して作成する。先ず、クラスタリングツール mkcls を使ってウイグル語―日本語コーパスが含んだ単語をクラスタリングする。そして、GIZA++ を使ってウイグル語、日本語単語の位置情報、統計情報を取る。 6.デコーダについて

Copyright(C) 2011 The Association for Natural Language Processing. All Rights Reserved.                    ― 681 ―

言語処理学会 第 17 回年次大会 発表論文集 (2011 年 3 月)

(2)

統計的ウイグル語―日本語機械翻訳のデコーダとは、ウイグル語を受け取り、その翻訳 である日本語訳を出力するシステムである。デコーダはたくさん作り出された翻訳候補の 日本語文に翻訳モデルと言語モデルで確率を与え、その値が最も大きくなったものを翻訳 として出力する。 7.実験結果 ウイグル語と日本語は文法的構造、語の形態的構造及び格助詞の対応など多くの面で共 通の特徴があったため、自然言語処理学会の前回の年次大会で発表した「逐語訳によるウ イグル語―日本語機械翻訳」の方法と同様に、統計的の機械翻訳の方法でも質の良いウイ グル語―日本語機械翻訳システムが実行出来る。

Copyright(C) 2011 The Association for Natural Language Processing. All Rights Reserved.                    ― 682 ―

参照

関連したドキュメント

注⑴ Labov (1972: 359-360)は, “narrative” を, “one method of recapitulating past experience by matching a verbal sequence of clauses to the sequence of events which

日本語教育に携わる中で、日本語学習者(以下、学習者)から「 A と B

高等教育機関の日本語教育に関しては、まず、その代表となる「ドイツ語圏大学日本語 教育研究会( Japanisch an Hochschulen :以下 JaH ) 」 2 を紹介する。

 さて,日本語として定着しつつある「ポスト真実」の原語は,英語の 'post- truth' である。この語が英語で市民権を得ることになったのは,2016年

友人同士による会話での CN と JP との「ダロウ」の使用状況を比較した結果、20 名の JP 全員が全部で 202 例の「ダロウ」文を使用しており、20 名の CN

始めに山崎庸一郎訳(2005)では中学校で学ぶ常用漢字が149字あり、そのうちの2%しかル

日本の生活習慣・伝統文化に触れ,日本語の理解を深める

この 文書 はコンピューターによって 英語 から 自動的 に 翻訳 されているため、 言語 が 不明瞭 になる 可能性 があります。.. このドキュメントは、 元 のドキュメントに 比 べて