• 検索結果がありません。

多国間法律の比較と統計分析のための多言語機械翻訳

N/A
N/A
Protected

Academic year: 2021

シェア "多国間法律の比較と統計分析のための多言語機械翻訳"

Copied!
3
0
0

読み込み中.... (全文を見る)

全文

(1)Vol.2019-CH-119 No.8 2019/2/16. 情報処理学会研究報告 IPSJ SIG Technical Report. 多国間法律の比較と統計分析のための多言語機械翻訳 Chenhui Chu1,a). 梶原 智之1,b). 中島 悠太1,c). 長原 一1,d). 渡辺 理和2,e). 大久保 規子2,f). 概要:環境法の参加指標を作成するために、対象国の法律を翻訳した上比較と統計分析を行う必要がある。 対象国の法律の数は膨大であり、翻訳するには多言語機械翻訳システムの導入が望ましい。本研究では高 精度な法律ドメインの多言語機械翻訳システムの実現を目指し、法律ドメイン対訳コーパスの構築やロー リソース言語対への適応を行い、その有効性を検証した。. 1. はじめに 環境法の参加原則は、情報アクセス権、政策決定への参 加権、司法アクセス権という 3 つの柱から成り立っている が、その具体的制度は国によりさまざまであり、実効性を 評価するための法的手法が模索されている [1]。本研究は、. のみならず、このシステムを判例の翻訳にも活用できれば, 法令の運用実態の解明にもつながることが期待される。. 2. 法律ドメイン機械翻訳システムの開発 2.1 機械翻訳の仕組み 機械翻訳は対訳コーパス(文単位の対訳テキスト)から. 環境法の参加原則に関する国際的な法的評価指標を検討す. 翻訳知識を獲得するため、大規模な(数十万から数百万文. ることにより、日本の参加法制の強みと弱みを比較法的な. 対)対訳コーパスが不可欠である [2]。図 1 に機械翻訳の仕. 観点から分析し、環境民主主義の確立に向けた提言を行う. 組みを示す。. ことを目的とする。 参加指標の作成を目的に、これまで対象国の法律の分析 を進めてきたが、アジアと他地域との比較を進めるために は、新たに参加条約を交渉中の中南米の分析が重要である ことが明らかになってきた。これに伴い、新たに当該地域. «5©`J) Zh:. !"#$!"#$%&'()*+ !%#$,-./012345678!65698:;<=+ !&#$>?'@ABCD:EFGHIJKLMNOPQ@ :$@IRS !'#$TUVWXY(Z[\:]^_`3+ !(#$abVcde3Efghijk+ !)#$lmnopqrstuvwx:yz{+ !*#$|I}:}~•w€o•O‚ƒ„}… †††. 9:;<=>?@A0BC&3D 9E;<FGHIJKLMNO(PQRSTRQRUV?WXYD 9Z;<[\]^+*_`Kab?cdefIghijklmn op\?@\hqr 9s;<t?3uvw"xyz?{0|}&3~?(•a€3Q 9•;<‚3ƒ„?c…†‡?|ˆ~‰€3DQ 9Š;<‹Œ•Ž(••‘’“”•–?—˜™š›œD 9•;<žŸ ? ¡¢•£Ž¤n¥¦§¨IH` QQQ. Ja:. の主な法令についても検討が必要となったが、その数は膨 大であり、人手で日本語または英語に翻訳するにはコスト が高く時間もかかるため、コストを抑えつつ素早く翻訳で. !"#$%& B‡ˆ2‰Š‹Œ (•Ž. 45678. '$%#$%& !"#$%&'( )*+,-.+/0123. 7©`ª. きるようにするために機械翻訳システムを活用できれば研 究を一層推進することができる。しかし、既存の機械翻訳. 図 1 機械翻訳の仕組み. システムは法律ドメインにフォーカスしていないため十分 な精度が期待できない。 法律ドメインの機械翻訳システムを導入し、より多くの 法令の分析を進めたい。本研究では高精度な機械翻訳シス テムを実現するまたに、対訳コーパスの構築やローリソー ス言語対への適応を行い、その有効性を検証する。それに より、現在の指標の充実を図ることができ、さらに、法令 1 2 a) b) c) d) e) f). 大阪大学データビリティフロンティア機構 大阪大学法学研究科 [email protected] [email protected] [email protected] [email protected] [email protected] [email protected]. ⓒ 2019 Information Processing Society of Japan. 2.2 インドネシア語-英語法律ドメイン対訳コーパスの 構築 対象言語であるインドネシア語-英語では法律ドメイン の対訳コーパスが存在しない。そのため、インドネシア語英語の法律ドメインの対訳コーパスの構築に取り込んで いる。具体的には今まで収集した文書単位のインドネシア 語-英語の法律文書対から半自動で文単位の対訳コーパス を作成する。図 2 に対訳コーパスの構築の手法を示す。現 状 5,000 文対ほど揃ったが対訳コーパスとしては規模が極 めて小さい。そのようなローリソースな設定で、従来の技 術では高精度な機械翻訳を実現するのは困難である。. 1.

(2) Vol.2019-CH-119 No.8 2019/2/16. 情報処理学会研究報告 IPSJ SIG Technical Report. !!!. !". relativo a la aplicación, a las instituciones y a los organismos comunitarios, de las disposiciones del Convenio de Aarhus sobre el acceso a la información, la participación del público en la toma de decisiones y el acceso a la justicia en materia de medio ambiente. #$ %& (1-5). '(). on the application of the provisions of the Aarhus Convention on Access to Information, Public Participation in Decision-making and Access to Justice in Environmental Matters to Community institutions and bodies. -. *+,-./0. On the implementation of the provisions of the Aarhus Convention on Access to Information, Public Participation in Decision-making and Access to Justice in Environmental Matters to community institutions and agencies. 5. 1223456). concerning the application, to institutions and Community bodies, of the provisions of the Aarhus Convention on access to information, public participation in decision-making and access to justice in the field of the environment. 3. "#$%&' ()*+,,,-"./0%12%' Id:. #1: UNDANG-UNDANG REPUBLIK INDONESIA NOMOR 39 TAHUN 2014 #2: TENTANG PERKEBUNAN #3: DENGAN RAHMAT TUHAN YANG MAHA ESA #4: Mengingat : Pasal 20, Pasal 20A ayat (1), Pasal 21, dan Pasal 33 Undang-Undang Dasar Negara Republik Indonesia Tahun 1945; #5: Dengan Persetujuan Bersama !!!. #1: LAW OF THE REPUBLIC OF INDONESIA NUMBER 39 YEAR 2014 #2: ABOUT PLANTATIONS #3: BY THE GRACE OF GOD ALMIGHTY #4: Given: Article 20, Article 20A paragraph (1), Article 21, and Article 33 of the Constitution of the Republic of Indonesia Year 1945; #5: With agreement between !!!. En:. 図 4 図 2. スペイン語-英語の法律翻訳結果例. 対訳コーパスの構築. ALT-JE は in-domain のタスクで、訓練データは 18k 文対 2.3 ローリソース言語対への適応. しかなくローリソース設定である。. インドネシア語-英語の法律ドメインの対訳コーパスは 表 1 コーパス. ないものの、スペイン語-英語などの他の言語対なら大量に 入手できる。また、単言語のコーパスは億文単位でウェブ. マルチリソース適応実験データ(文対) 訓練 開発 テスト. ALT-JE (Wiki ニュースドメイン). から入手できる。それらの豊富なマルチリソースをローリ ソース言語対へ適応することによって、ローリソース言語 対翻訳の精度向上を図る。図 3 にマルチリソース適応の手. 18k. 1,000. 1,018. KFTT-JE (Wiki 京都ドメイン). 440k. 1,166. 1,160. IWSLT-JE (対話ドメイン). 223k. 871. 1,549. IWSLT-CE (対話ドメイン). 209k. 887. 1,570. 法 [3] を示す。. 5>#$)*+),%.#$ (15M) Source-Target (resource rich). #": Undang-undang ini #$%&'()*+) mulai berlaku pada tanggal ,-%.#$ (5k) diundangkan. Source-Target (low resource). 1 /01. 3 2345 $%&'( )*+, (9.8B). NMT!". 67. 2. /01234567 89#$%&'()* +),-%.#$ :;<=0. !": This law shall come into force as from the date of promulgation.. 表 2 にマルチリソース適応実験の翻訳結果を示す。評価 には BLEU スコア [6] を用いた。BLEU スコアは参照訳と の一致度合いを表す自動評価尺度であり、高い方が良い。 表 2 に翻訳結果を示す。太字は最も良いシステムとそれら と統計的有意差がないシステムを表している。表 2 の通 り、適応することによって in-domain タスクの ALT-JE の. BLEU スコアが 8 ポイントから 24 ポイントまで大幅くに 上がった。BLEU スコア 8 ポイントは人手 5 段階評価中の. 図 3. マルチリソース適応によるローリソース機械翻訳. 1ぐらいで、24 ポイントは 5 段階評価中の3ぐらいである。 さらに、out-of-domain タスクの KFTT-JE と IWSLT-JE. 3. 翻訳実験 対訳コーパスが大量に入手できるスペイン語-英語の法 律ドメインの翻訳実験とローリソース言語対への適応実験 を行った。. の翻訳精度も向上したことがわかる。. 4. おわりに 本研究では高精度な法律ドメインの多言語機械翻訳シス テムを実現するために、インドネシア語-英語法律ドメイン 対訳コーパスを構築し、ローリソース言語対へのマルチリ. 3.1 スペイン語-英語の翻訳実験 スペイン語-英語の法律ドメイン翻訳実験では大規模な (1,500 万文対)の対訳コーパス [4] と最先端のニューラル 機械翻訳技術 [5] を用いて翻訳システムを構築した。その 結果、Google 翻訳より精度の高い翻訳システムを実現でき. ソース適応を行った。実験によりマルチリソース適応手法 の有効性を示した。今後、マルチリソース適応の手法をイ ンドネシア語-英語法律翻訳へ適用する予定である。 謝辞 本研究は、科研費#26220501、#17H06822 の助成 を受けたものである。. た。図 4 にスペイン語-英語の法律翻訳結果例を示す。我々 のシステムの翻訳が Google 翻訳より人手評価のスコアが 高いことがわかる。. 3.2 ローリソース言語対への適応実験 マルチリソース適応の有効性を検証するために、翻訳 実験を行った。表 1 に実験で用いたデータを示す。なお、 ⓒ 2019 Information Processing Society of Japan. 参考文献 [1]. [2] [3]. 規子大久保:環境民主主義指標 (EDI) の意義と課題 (小特 集環境民主主義の指標をつくる),環境と公害, Vol. 46, No. 3, pp. 38–43 (2017). Koehn, P.: Statistical Machine Translation, Cambridge University Press, New York, NY, USA, 1st edition (2010). Chu, C. and Dabre, R.: Multilingual and Multi-Domain. 2.

(3) Vol.2019-CH-119 No.8 2019/2/16. 情報処理学会研究報告 IPSJ SIG Technical Report 表 2 システム. マルチリソース適応実験結果(BLEU スコア) ALT-JE KFTT-JE IWSLT-JE. ALT-JE NMT. 8.47. (1.66). (1.75). (0.28). KFTT-JE NMT. (5.44). 18.70. (2.15). (0.00). IWSLT-JE NMT. (10.65). (2.30). 11.09. (0.62). IWSLT-CE NMT. (0.21). (0.32). (0.46). 16.89. KFTT-JE-IWSLT-JE. 24.29. 25.33. 12.33. (0.51). IWSLT-JE-IWSLT-CE. 19.35. (1.70). 10.91. 14.89. 24.04. 26.00. 11.77. 16.40. KFTT-JE-IWSLT-JE-IWSLT-CE. [4]. [5]. [6]. IWSLT-CE. Adaptation for Neural Machine Translation, Proceedings of the 24st Annual Meeting of the Association for Natural Language Processing (NLP 2018), Okayama, Japan, pp. 909–912 (2018). Ziemski, M., Junczys-Dowmunt, M. and Pouliquen, B.: The United Nations Parallel Corpus v1.0, Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Paris, France, European Language Resources Association (ELRA) (2016). Bahdanau, D., Cho, K. and Bengio, Y.: Neural Machine Translation by Jointly Learning to Align and Translate, In Proceedings of the 3rd International Conference on Learning Representations (ICLR 2015), San Diego, USA, International Conference on Learning Representations (2015). Papineni, K., Roukos, S., Ward, T. and Zhu, W.J.: BLEU: A Method for Automatic Evaluation of Machine Translation, Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, ACL ’02, Stroudsburg, PA, USA, Association for Computational Linguistics, pp. 311–318 (online), DOI: 10.3115/1073083.1073135 (2002).. ⓒ 2019 Information Processing Society of Japan. 3.

(4)

表 2 マルチリソース適応実験結果( BLEU スコア)

参照

関連したドキュメント

The Mathematical Society of Japan (MSJ) inaugurated the Takagi Lectures as prestigious research survey lectures.. The Takagi Lectures are the first series of the MSJ official

I give a proof of the theorem over any separably closed field F using ℓ-adic perverse sheaves.. My proof is different from the one of Mirkovi´c

Keywords: continuous time random walk, Brownian motion, collision time, skew Young tableaux, tandem queue.. AMS 2000 Subject Classification: Primary:

Then it follows immediately from a suitable version of “Hensel’s Lemma” [cf., e.g., the argument of [4], Lemma 2.1] that S may be obtained, as the notation suggests, as the m A

Variational iteration method is a powerful and efficient technique in finding exact and approximate solutions for one-dimensional fractional hyperbolic partial differential equations..

This paper presents an investigation into the mechanics of this specific problem and develops an analytical approach that accounts for the effects of geometrical and material data on

The object of this paper is the uniqueness for a d -dimensional Fokker-Planck type equation with inhomogeneous (possibly degenerated) measurable not necessarily bounded

In the paper we derive rational solutions for the lattice potential modified Korteweg–de Vries equation, and Q2, Q1(δ), H3(δ), H2 and H1 in the Adler–Bobenko–Suris list.. B¨