• 検索結果がありません。

Mongolian to Japanese machine translation using ChaSen

N/A
N/A
Protected

Academic year: 2021

シェア "Mongolian to Japanese machine translation using ChaSen"

Copied!
28
0
0

読み込み中.... (全文を見る)

全文

(1)

Mongolian to Japanese Machine

Translation System

EHARA Terumasa*

HAYATA Suzushi** KIMURA Nobuyuki***

* Tokyo University of Science, Suwa

eharate@rs.suwa.tus.ac.jp

http://www.rs.suwa.tus.ac.jp/eharate

** University of Tokyo

(2)

2

Distribution of languages in the two dimensional word order space

Ehara, Terumasa: Relation among word order parameters analyzed by multi-dimensional scaling,

Proc. of the first annual meeting of the Association for Natural Language Processing,

(3)

morphological analysis

source text

target language generation

(minor) structural transfer

lexical transfer

target text

(a) Our system

morphological analysis

target language generation

structural transfer

lexical transfer

target text

syntactic analysis

(4)

Morphological analysis phase

using ChaSen

・Grammar table (grammar.cha)

・Conjugate type table (ctypes.cha)

・Conjugate form table (cforms.cha)

・Connection matrix (connect.cha)

・Content word dictionary

(5)

Grammar hierarchy

(part of speech hierarchy)

verb

verb without stem conjugation

n ou n

n ou n without ste m conju gation

adjec tive

adverb

c on ju n c tion

interjection

postposition

verb ending

noun ending

u n known word

word spac e

sentence finals

c omma

opened parenthesis

Top level

masculine а

masculine о

femin ine э

femin ine θ

neuter

Second level

vowel final

sonolant con sonant fin al

hidden consonant final

unsonolant consonant final

4th level

f re e f orm

affixe s

Third level

vowel

son olan t м

son olan t н

son olan t г

son olan t л

son olan t б

son olan t в

son olan t р

h idde n н

h idde n г

u n sonolan t т

u n sonolan t з

u n sonolan t ц

u n sonolan t х

u n sonolan t ф

u n sonolan t д

u n sonolan t с

u n sonolan t к

u n sonolan t п

5th level

(6)

Conjugation type and

conjugation form table

* : no character

conjugation type base form

c-form1

c-form2 conjugation type

base form

c-form1

c-form2 conjugation type

base form

c-form1

c-form2 conjugation type

base form c-form1 c-form2

hidden θн * н θн sonolant л л л * vowel v v * unsonolant из из з hidden ан * н ан sonolant н н н * vowel θ θ * unsonolant ис ис с hidden г * г sonolant об об б vowel а а * unsonolant ит ит т hidden ин * н ин sonolant ов ов в vowel и и * unsonolant их их с hidden н * н н sonolant ог ог г vowel о о * unsonolant иц иц ц hidden он * н он sonolant ол ол л о vowel у у * unsonolant ич ич ч hidden эн * н эн sonolant ом ом м vowel э э * unsonolant иш иш ш sonolant vб vб б sonolant он он н о vowel ий ий и * unsonolant од од д * sonolant vв vв в sonolant ор ор р о unsonolant vд vд д * unsonolant ож ож ж sonolant vг vг г sonolant р р р * unsonolant vж vж ж unsonolant оз оз з sonolant vл vл л v sonolant уб уб б unsonolant vз vз з unsonolant ос ос с sonolant vм vм м sonolant ув ув в unsonolant vс vс с unsonolant от от т sonolant vн vн н v sonolant уг уг г unsonolant vт vт т unsonolant оц оц ц sonolant vр vр р v sonolant ул ул л у unsonolant vц vц ц unsonolant оч оч ч sonolant θб θб б sonolant ум ум м unsonolant vч vч ч unsonolant ош ош ш sonolant θв θв в sonolant ун ун н у unsonolant vш vш ш unsonolant уд уд д * sonolant θг θг г sonolant ур ур р у unsonolant θд θд д * unsonolant уж уж ж sonolant θл θл л θ sonolant эб эб б unsonolant θж θж ж unsonolant уз уз з sonolant θм θм м sonolant эв эв в unsonolant θз θз з unsonolant ус ус с sonolant θн θн н θ sonolant эг эг г unsonolant θс θс с unsonolant ут ут т sonolant θр θр р θ sonolant эл эл л э unsonolant θт θт т unsonolant уц уц ц sonolant аб аб б sonolant эм эм м unsonolant θц θц ц unsonolant уч уч ч sonolant ав ав в sonolant эн эн н э unsonolant θч θч ч unsonolant уш уш ш sonolant аг аг г sonolant эр эр р э unsonolant θш θш ш unsonolant эд эд д * sonolant ал ал л а vowel vй vй v * unsonolant ад ад д * unsonolant эж эж ж sonolant ам ам м vowel θй θй θ * unsonolant аж аж ж unsonolant эз эз з sonolant ан ан н а vowel ай ай а * unsonolant аз аз з unsonolant эс эс с sonolant ар ар р а vowel ей ей е * unsonolant ас ас с unsonolant эт эт т sonolant иб иб б vowel ёй ёй ё * unsonolant ат ат т unsonolant эц эц ц sonolant ив ив в vowel ой ой о * unsonolant ац ац ц unsonolant эч эч ч sonolant иг иг г vowel уй уй у * unsonolant ач ач ч unsonolant эш эш ш sonolant ил ил л и vowel эй эй э * unsonolant аш аш ш

(7)

((( ((“verb” “masculineа” “free form”)))

(((“verb” “masculineа” “verb to verb affix”)))) 300)

((( ((“verb” “masculineа” “free form”)))

(((“verb without stem conjugation” “masculineа” “verb to verb affix”)))) 300)

((( ((“verb” “masculineа” “free form”)))

(((“noun” “masculineа” “verb to noun affix”)))) 300)

A sample of connection table data

Connection matrix table

(8)

・base form (entry)

・grammar categories (i.e. part-of-speech, from top to 5th level)

・conjugation type (only for verb and noun)

・Japanese translation (semantic information field)

・morpheme cost for the morphological analysis

dictionary items

Dictionaries

Content word dictionary* : 9,467 entries

Function word dictionary : 1,635 entries

* Shimizu, Mikio: Electronic Japanese Mongolian word index (dictionary), 2001.

(9)

(“pos” (“noun” “feminineэ” “free form”

“sonolant consonant final”))

((“entry” (vзэг 1000))

(“conjugation type” “sonolant consonantэг”)

(“semantic information” {ペン/ボールペン}) )

(“pos” (“verb without stem conjugation” “feminineэ”

“free form” “unsonolant consonant final” “unsonolantс”))

((“entry” (vvс 1000))

(“semantic information” {生まれる/生じる/成り立つ/発生する}) )

(10)

(“pos” (“noun ending” “feminineθ”))

((“entry” (ийг 100))

(“semantic information” {〈普通格変化対格〉/【を】}) )

(“pos” (“verb ending” “masculineо”))

((“entry” (ох 100))

(“semantic information” {〈形動詞形_連体現在と未来〉/【】}) )

(11)

• minor word order change

• number of rules : 7

• example

verb+past_tense+negation

⇒ verb+negation+past_tense

мэд(know) +сэн(PAST) +гvй(not)

⇒ 知る(know)+ない(not)+た(PAST)

(12)

• Compound word translation

8 rules

example

verb+ж(CONJ)+эхлэх(begin)

⇒ verb+て(CONJ)+はじめる(begin)

• Zero elements complementation

14 rules

example

noun+zero_case_marker

⇒ noun+{〈格助詞〉/【】/【の】/【と】/【が】/

【は】/【を】/【に】/【で】}

(13)

• translation selection

statistical method

translation model

language model

• conjugation form selection

expansion and selection

(14)

Translation selection (1)

• Statistical Model

m

: Input Mongolian sentence

J

: All Japanese sentences

j

: Selected Japanese sentence

)

|

(

max

arg

ˆ

j

P

j

m

J

j

=

(15)

Translation selection (2)

)

(

/

)

|

(

)

(

max

arg

ˆ

j

P

j

P

j

m

P

j

J

j

×

=

)}

(

/

)

|

(

)

(

{

max

arg

ˆ

1

1

)

(

1

1

i

i

i

n

i

n

J

J

j

j

j

P

m

j

P

j

j

P

j

n

n

=

×

×

×

=

 

L

L

L

(16)

Language Model

• Bunsetsu bigram model

• Bunsetsu dependency model

(learned from 10 years Japanese newspaper)

=

+

=

1

1

1

2

1

)

(

)

(

|

)

(

n

i

i

i

n

n

P

j

P

j

j

j

j

j

P

L

=

=

1

1

2

1

)

(

)

(

|

)

(

n

i

k

i

n

n

P

j

P

j

j

i

j

j

j

P

L

(17)

Experiment

• Test sentences and reference

translations:

182 sentences from Ozawa’s text book

(closed test)

OZAWA Shigeo : Mongolian language in four

weeks, Daigaku Shorin, 1986 (in Japanse)

(18)

Distribution of the number of

translations for each Mongolian word

(token counts)

0

100

200

300

400

500

600

700

800

900

1000

1

3

5

7

9

11

日本語訳語数

度 

 

(19)

<Input>

ахынхаа_ирснийг_мэдсэнгvй

<Output of the morphological analysis phase>

morpheme form|base form|POS|c-type|c-form|Japanese translation|cost|total cost

ах|ах|名詞不変 男性а 自立 非共鳴子音語幹 х語幹|||兄|1000|1500

ын|ын|名詞語尾 男性а|||{〈普通格変化_属格〉/【の】}|100|1700

хаа|хаа|名詞語尾 男性а|||{〈非人称再帰所有格変化_属格〉/自分【の】}|100|1900

_|_|空白|||_|1000|3000

ир|ир|動詞 女性э 自立 共鳴子音語幹|共鳴子音р|基本形|{来る/見える}|1000|4500

сн|с|名詞 女性э 動詞-名詞接辞 隠れ子音語幹|隠れэн|活用形1|

{〈結果сан〉/【たもの】/【だもの】/【たこと】/【だこと】}|500|5100

ийг|ийг|名詞語尾 女性э|||{〈普通格変化_対格〉/【を】}|100|5300

_|_|空白|||_|1000|6400

мэд|мэд|動詞 女性э 自立 非共鳴子音語幹|非共鳴子音д|基本形|

{感じる/知る【ている】/知る/解る}|1000|7900

сэн|сэн|動詞語尾 女性э|||{〈形動詞形_連体過去〉/【た】/【だ】}|100|8100

Experimental results

(20)

<Output of the transfer phase>

|S|

|P|

|M|хаа|хаа|名詞語尾 男性а|||{〈非人称再帰所有格変化_属格〉/自分【の】}|100|1900|/M|

|/P|

|P|

|M|ах|ах|名詞不変 男性а 自立 非共鳴子音語幹 х語幹|||兄|1000|1500|/M|

|M|ын|ын|名詞語尾 男性а|||{〈普通格変化_属格〉/【の】}|100|1700|/M|

|/P|

|P|

|M|ир|ир|動詞 女性э 自立 共鳴子音語幹|共鳴子音р|基本形|{来る/見える}|1000|4500|/M|

|M|сн|с|名詞 女性э 動詞-名詞接辞 隠れ子音語幹|隠れэн|活用形1|

{〈結果сан〉/【たもの】/【だもの】/【たこと】/【だこと】}|500|5100|/M|

|M|ийг|ийг|名詞語尾 女性э|||{〈普通格変化_対格〉/【を】}|100|5300|/M|

|/P|

|P|

|M|мэд|мэд|動詞 女性э 自立 非共鳴子音語幹|非共鳴子音д|基本形|

{感じる/知る【ている】/知る/解る}|1000|7900|/M|

|M|гvй|гvй|動詞語尾 女性э|||{〈形動詞形_連体否定〉/【ない】}|100|8300|/M|

|M|сэн|сэн|動詞語尾 女性э|||{〈形動詞形_連体過去〉/【た】/【だ】}|100|8100|/M|

|/P|

|/S|

(21)

<Output of the translation selection phase>

|S|

|P| 0| 3|

|M|хаа|хаа|名詞語尾 男性а|||自分【の】|〈非人称再帰所有格変化_属格〉|/M|

|/P|

|P| 1| 3|

|M|ах|ах|名詞不変 男性а 自立 非共鳴子音語幹 х語幹|||兄||/M|

|M|ын|ын|名詞語尾 男性а|||【の】|〈普通格変化_属格〉|/M|

|/P|

|P| 2| 3|

|M|ир|ир|動詞 女性э 自立 共鳴子音語幹|共鳴子音р|基本形|来る||/M|

|M|сн|с|名詞 女性э 動詞-名詞接辞 隠れ子音語幹|隠れэн|活用形1|【たもの】|〈結果сан〉|/M|

|M|ийг|ийг|名詞語尾 女性э|||【を】|〈普通格変化_対格〉|/M|

|/P|

|P| 3|-1| 0|

|M|мэд|мэд|動詞 女性э 自立 非共鳴子音語幹|非共鳴子音д|基本形|知る【ている】||/M|

|M|гvй|гvй|動詞語尾 女性э|||【ない】|〈形動詞形_連体否定〉|/M|

|M|сэн|сэн|動詞語尾 女性э|||【た】|〈形動詞形_連体過去〉|/M|

|/P|

|/S|

<Output of the generation phase>

(22)

22

Translation examples

No. Source Mongolian Sentences Translation Results to Japanese Reference Translations 4 Θвс,гэрлийн хv чээр ургана. 草,明かりの力で実る. 草は光のおがげで育つ。 5 Θвс чийгийн хv чээр ургана. 草湿気の力で実る. 草は湿気の力で育つ。 6 Θвс газрын шимээр ургана. 草が大地の栄養で生える. 草は土地の栄養によって育つ。 7 Мал θвсθθр амьдарна. 家畜草で暮らす. 家畜は草によって生活する。 8 Монгол хvн, малаар амьдарна. モンゴルの人が,家畜で暮らす. モンゴル人は家畜によって生活す る。 9 Сар гарав. 月は出た. 月が出た。 10 Од ч гарав. スターも出た. 星も出た。 11 Vхэр мθθрнθ. 牛がモーと鳴く. 牛がモーと鳴く。 12 Хонь майлна. 羊がメーと鳴く. 羊がメーと鳴く。 13 Эгч дээл хувцас оёж байна. 姉服を服を縫っている. 姉が着物を縫っています。 14 Хавар болов. 春になった. 春になった。 15 Шувуу донгодно. 鳥がさえずる. 鳥が囀ります。 16 Тунгалаг гол урсаж байна. 清らかな河が流れている. きれいな河が流れています。 17 Нvvр,гараа сайн угаа! 顔を,スタートがよく洗いなさい! 顔と手をよく洗いなさい。 18 Уул тал цасаар хучигдав. 山草原で白くなりながらおおわれ た. 山野が雪で蔽われた。 19 Би vзгээр vсэг бичнэ. 私はペンで字を書く. 私はペンで文字を書く。 20 Дорноговь аймгийн Дэлгэрхэн сумын нутагт чоно ховор учир,энэ сумын хэдэн анчин Хэнтий,Сvхбаатар аймгийн нутаг руу ドルノゴビ県のデルゲルヘン郡の地 方に狼が珍しい理由に,この郡の若 干猟師ヘンティ,スフバートル県の 土地の方へらくだで行って狼が狩っ た. ドルノゴビ県のデルゲルヘン郡の遊 牧地には、狼が少ないので、この郡 の数人の猟師は、ヘンティー、スフ バートル県の遊牧地の方へ駱駝で 行って、狼を狩った。

(23)

Accuracy

Language Model

BLEU

Dependency

0.217

(24)

Present the structure of the translation system

from Mongolian to Japanese which is based on

Japanese morphological analyzer ChaSen.

Some translation results are also presented.

(25)

・Construction of a large scale dictionary

・Using Mongolian Japanese bilingual corpus

to brush up the translation selection part

・Extension the method to other languages

which have similar word order

(26)
(27)

Turkish

Bengali

Hungarian

Quechua

Languages that have similar word order

with Japanese

(28)

Japanese

Korean

Mongolian

Bengali

Hindi

Turkish

Hungarian

Aymara

Quechua

Thank you for your attention

参照

関連したドキュメント

関係委員会のお力で次第に盛り上がりを見せ ているが,その時だけのお祭りで終わらせて

Changes in the Designated Security Plan Article 5 If the owner of the designated Japanese vessel certified as set forth under paragraph 1 of the preceding Article hereinafter

 発表では作文教育とそれの実践報告がかなりのウエイトを占めているよ

 ASEAN 域内の関税については引き下げが進んでおり,先発の ASEAN 原加盟国では,2010 年には域内関税がすべて撤廃されるという段階まで

 人権宣言の草案作成プロセスが始まったのは2011年 7 月であるが,手順として は AICHR によって設けられた起草グループがまず草案を作成し,それを2012年

The aim of this study is to improve the quality of machine-translated Japanese from an English source by optimizing the source content using a machine translation (MT) engine.. We

Our proposed method is to improve the trans- lation performance of NMT models by converting only Sino-Korean words into corresponding Chinese characters in Korean sentences using

い政に育の 拶全 伏 たのご成皆枚申体枚見 だ各尽や様方し会方隆 い般力安に市上議市で てにい全は青げの青す おわたで、少ま開少。 年 年