未解読言語の解析技術

(1)

1．は　じ　め　に

古代の文字の中には，一度は使う者がいなくなり，後世になってその文字を記した遺物が発見されて，解読が試みられるものがある．そうした文字の中には，解読されたといえるほどに解明が進んでいるものもあれば，未解読のまま残されているものもある． 1990年代から盛んに研究されるようになった統計的自然言語処理は，文書データをもとに言語現象の解析を行うもので，対象とする言語の辞書や文法を使わないという特徴があり，さまざまな言語に適用できる数多くの手法を生み出してきた．著者が未解読言語の解析に興味をもったきっかけは，どんな言語にも使える手法であれば未解読言語にも使えるのではないかと，ごく素朴に思ったことにある．しかし当然ながら，それほど単純な話ではない．多くの統計的自然言語処理の手法では，確率的な言語モデルを仮定する．個々の対象言語において良いパフォーマンスを得るには，その言語モデルのパラメータを対象言語に依存して適切に設定する必要がある．もし，そのパラメータを機械学習によって得ようとすれば，訓練データが必要となる．訓練データは対象とする問題の正解そのものといえるが，未解読言語の場合，なにしろ未解読なのであるから，どのような問題にせよ正解はわからない．したがって，訓練データを用意することができない．さらに，何らかの手法を未解読言語に適用したとしても，正解がわからないために，再現率や適合率といった正解と比較した定量的な評価は得られない．そこで計算機を用いた未解読言語を対象とする研究においては，取り組んでいる問題と本質的には同じ問題を，既知の言語などを使って設定し，その正解がわかっている問題を使って，手法そのものを評価するといった研究方法が使われることがある．もちろん，未知の言語といっても，全くわからないというものでもなく，地理的・時代的背景などからわかっていることや推定できることがある場合には，そうした知識をモデル化するという研究もある．

2．未解読文字

矢島 [矢島 99] は，未解読の文字の双璧として，インダス文字とファイストスの円盤をあげている．また同書で，古代文字（言語）の解読においては次のような場合があり得ると述べている．（1）文字と使用言語が，ともに不明な場合（2）文字は不明だが，使用言語は推定できる場合（3）文字は判明しているが，使用言語が不明の場合これまでに解読された古代文字の多くは，これらのうちの（2）に当たる．ただし，使用言語の推定の確からしさの度合いはさまざまであって，（1）と（2）の境界は曖昧である．（3）の場合とは，他の言語（既知のもの）の文字を用いている場合が考えられる．この場合は，連続して出現する記号のどこからどこまでが一つの文字なのか，似た記号が同じ文字なのか異なる文字なのか，といった知見がすでにあるだけでなく，それぞれの文字をどのように読むか（文字の音価という）がわかっている．しかし，日本語を知らない英語圏の人がローマ字表記された日本語文を読む状況に似て，書かれている内容は（よく知られた固有名詞を除いて）理解できないという場合である．現在，未解読文字といわれているものを，いくつか以下にあげる．これらの中には，解読の試みが発表されているものもあるが，多くの研究者の同意が得られているとは言い難い．インダス文字はインダス川中流のモヘンジョ・ダロやその周辺で発見された印章に刻まれた文字である．凍石製の印章のほかに粘土板や石板に刻まれたものもあるが，長いもので 17 文字で，5 ∼ 6 文字の短いものが多い．紀元前 26 ∼ 15 世紀頃のものと考えられている．線文字 A は，クレタ─ミケーネ文明の印章や土器・装飾品類に見られる記号である．出土数が少なく未解読である．同じ文明の遺物である粘土書板などにある線文

未解読言語の解析技術

Analysing Undeciphered Languages

山口　文彦

長崎県立大学

Fumihiko Yamaguchi University of Nagasaki.

[email protected], http://sun.ac.jp/prof/yamagu/

Keywords:

lost languages, natural language processing. 「人工知能と歴史」─歴史を知る─

(2)

字 B と関連が深いものの異なる文字体系と考えられている．なお，線文字 B のほうは多くの粘土板が発見されており解読されている．同じクレタ島で発見されたファイストスの円盤は，文字が渦巻き状にスタンプされた粘土製の円盤である（図 1）．45 種類の文字が 61 のグループに分けられて，241 個刻まれている．このスタンプも未解読文字であるといわれている．エトルリア文字は，古代ローマ以前に現在のイタリアの中央部から北部にかけて居住していたエトルリア人の文字である．エトルリア人はギリシア・フェニキア系の文字を取り入れて使っており，これらの文字に似ているために文字の音価を推定することができる．数万の言語遺物があるが，その多くは類似した墓碑銘であって，どのような言語を用いていたかは不明である．ヴォイニッチ写本は時代が下って，15 世紀以降に書かれた挿絵入りの手稿である．116 枚ほどの羊皮紙が現存しており，両面に絵や多くの記号が書かれているが，それらの記号は文字や暗号の類ではないとする説もある．イェール大学の図書館が画像を公開している [Voynich]．ロンゴロンゴ [Fischer 97] は，イースター島で木片に刻まれた記号の列で，20 数枚の木製品が現存し，中には数千の文字が刻まれている板もある．ポリネシアには他に文字と呼べるものがない．西欧人の到達後に工夫・創造されたともいわれており，そうだとすると成立は 18世紀以降ということになる．なお，ロンゴロンゴとインダス文字が類似しているともいわれ，いわゆる歴史ミステリーの一つだが，両者は地理的にも時代的にもかけ離れており，直接の関係があるとは考えにくい．このように，発見された数が少ない場合（線文字 A など）や，多くても種類が少ない場合（エトルリア文字など），記号列のそれぞれが短い場合（インダス文字など）に，解読が困難である様子がわかる．

3．失われた言語の解析技術

文字を記した膨大な量の遺物が発掘されるなどすれば，それらを整理する必要がある．言語史料の整理および，それに伴うアノテーションや解読といった作業の多くは，従来，人の手で行われてきた．しかし人手による作業では，作業者の熟練度によって質がばらついたり，同じ作業者であっても異なる史料に対して異なる判断をしてしまうという問題が生じ得る．こうした作業を計算機を用いて支援ないし自動化することで，質のばらつきや判断の揺れを低減できると期待できる．一方，解読そのものを計算機を用いて行おうとする研究もある．人の手による古代文字の解読では対訳コーパスが大きな役割を果たすことがある．有名な例では，古代エジプトの神聖文字の解読の手掛かりとなったロゼッタストーンがある．ロゼッタストーンは，神聖文字・民衆文字・ギリシア文字の 3 種類の文字で文章が刻まれた石碑である．しかし，このような対訳コーパスが発見されることはまれである． Knight ら [Knight 99] は，対訳コーパスのような関係はないが同じ言語のコーパスから文字の音価を見つけている．この研究では，文字の並びであるコーパスと音韻を表す発音記号の並びであるコーパスを用意し，音の並びを文字に置き換える確率的モデルをつくり，そのパラメータを期待値最大化法を用いて求めている．この研究は使用言語が推定できて文字が未知であるような未解読言語に対して有効であるとしながらも，特定の未解読言語には適用せず，3 種類の既知の言語を用いた実験を報告している．その 3 種類とは，スペイン語，日本語の仮名，中国語であり，それぞれ音素文字，音節文字，表意文字についての実験であると位置付けている．その結果，良い精度で文字の音価を特定できている．この研究も踏まえ，Knight ら [Knight 06] は，古代文字に限らずに，換字暗号や文字コードの変換など，解読と捉えることのできるさまざまな問題を，計算機を用いて解決する方法について概観している．

Snyder ら [Snyder 10a] は，確率的モデルを使った形態素への分割・part-of-speech タグ付け・構文解析の三つの自然言語処理手法について概観し，さらに対訳テキストがない場合についての，失われた言語の解読について触れている．この中で，計算論的なモデルによって（解読に必要な）論理と直観が多少なりとも捉えられると述べている．さらに Snyder ら [Snyder 10b] は，ウガリットと呼ばれる楔形文字とヘブライ語のコーパスから，同じ語源をもつ語（同根語）の対を見つけている．ここでウガリットを未知，ヘブライ語を既知とすれば，同根語対を見つけることで，ウガリットの解読を進めたといえる．ウガリットとヘブライ語は地理的にも時代的に近い言語であって，いずれもセム語系列の言語であり，関連が深いと考えられる．この研究では，未知言語に現れる各単語が語頭・語幹・語尾から成るとし，活用による語尾の変化などを手掛かりとできるよう，言語のもつ性質を用い図 1　ファイストスの円盤：A 面 [Wikipedia]

(3)

Sproat [Sproat 10]は，コーパスのサイズが小さいことなどを理由に，文字であることの十分な証拠とはいえないとしている．これに対し，[Rao 10] は，インダス文字は 4 000 文字見つかっているいることなどをあげたうえで，比較対象としたものは DNA や，タンパク質中のアミノ酸配列，Fortran のコードであり，Sproat のいうランダムに生成された列を含む単純な実験が誤解であると反論している．また [Lee 10b] は，unigram だけでなく bigram（Lee は digram と書いている）についてもエントロピーが小さくなることを示すなどして反論している．

4．文字クラスへの分類

テキストデータを対象とする自然言語処理は文字の列を入力とする．もちろん，古代の文字であれば文字コードが付いていない場合が多い（しばしば失われた言語の文字を UTF に登録しようとする動きが見られるのだが）ので，コード化することから始めなければならない．しかし未解読の文字の場合，似た記号が同じ文字を表しているか否かはわからない．例えばイースター島のロンゴロンゴは図 2 にあるような自然の事物を象形したと思われる記号の列だが，ここには魚の形の記号にえらが描かれているものと描かれていないものがあって，これらが言語を記述するうえで同じ文字なのか区別されるべきなのかは簡単に結論付けることができない．ファイストスの円盤のようにスタンプであれば同定が容易だと思われるが，多くの古代文字は人の手によって書かれており，表記に揺れがあるため，これを読み取ってコードにする必要がある．言語によっては考古学者の努力によって，記号にコードが付されている．ロンゴロンゴの場合には，Barthel が記号をその形状によって分類し 3 桁の数字からなるコードを付けている [Barthel 58]．しかし，これは文字の異なりによって分類しているわけではないことに注意が必要である．すなわち，同じ文字に異なるコードが付いていたり，違う文字に同じコードが付いている可能性を否定しきれないのである．このようなコードを文字であると仮定して文書全体に何らかの言語モデルを当てはめようとしても，うまくいくとは思えない．このような問題点を踏まえ，著者は記号の画像を文字クラスに分類する作業を支援ないし自動化しようと試みている [山口 15]．もちろん同じ文字であれば，画像として似ていると考えられるが，どの程度似ていれば同じ文字であるかの基準がないことが問題である．この研究では，手書き文字認識の手法を用いて文字画像の間に類似度を定め，その類似度と文書中の出現頻度が Zipf 則に従う度合いによって非階層的クラスタリングをしようとした．しかし結果として得られた分類を見る限り，文字ごとに分けられているとは思えないものであった．もちろん未解読の文字に対しては結果の評価ができないのている．二つの言語の形態素のペアの確率分布から，形態素が繰り返し現れるパターンに基づく確率が得られるというノンパラメトリックベイズモデルを用いている．データとしては，Cunchillos らによるウガリットの電子的データと，ヘブライ語の聖書を用いている．対訳コーパスがないならば，探すという方向性もあり得る．著者ら [山口 12] は，ロンゴロンゴが歌を記憶する補助としてつくり出された音節文字であるとする説に基づいて，イースター島の歌の音節とロンゴロンゴ記号を表す符号の出現順序を比較した．この研究では符号として Barthel による符号化 [Barthel 58] を用いている．符号の付けられた文字が音価をもつとすれば歌詞に登場する音節と同じ順序で符号が並ぶものと仮定し，（後述するように Barthel 符号が詳細すぎる場合や，ロンゴロンゴ文字が複数の音節から成る読みをもつ場合を考慮して）複数の符号が同じ音価をもち得るとしたうえで，ロンゴロンゴの各行と歌詞を比較した．この研究ではロンゴロンゴ 83 行と歌詞 372 編を比較したが，その全組合せ 30 876 通りのうち，対応する可能性のあるものが 618 通りと結論した．なお，同じ方法を日本語の漢字仮名混じり文と片仮名文に対して適用すると，対応するものをよく見つける一方，二度以上出現する文字の種類数が少ないほど対応していないものを対応していると誤判定しやすいことがわかった．そこでロンゴロンゴと歌詞についても，二度以上出現する符号の数が多いものに限定して調査してみたところ，ロンゴロンゴの行と歌詞の対応は 1 対 1 ではなく，単純に対訳コーパスが見付けられたとは結論できなかった．このように直接解読に結び付く結論ではないものの，いくつかの歌詞とロンゴロンゴの行が対応する可能性があることはわかった．単一のコーパスだけを用いる研究としては，未解読言語に適用した研究報告ではないものの，持橋ら [持橋 09] が文字のみのコーパスから，単語への分割を見つける教 師なし学習を示している．この研究では，単語の n グラ ムは n−1 グラムから生成され，単語の unigram はそ の綴りの文字 n グラムから生成されるという言語モデル を提案している．サンプリングにはマルコフ連鎖モンテカルロ法を用いる．これによって中国語，日本語，日本語の話し言葉，古文，および空白を削除した英文について，比較的小さなコーパスであるにもかからず単語分割が得られることを示した．未解読な文字とされているものについては，そもそも言語の記述に用いられる記号の列という意味での文字なのか否かも問題となる．インダス文字について，Rao ら [Rao 09] は，条件付きエントロピーを用い，他の自然言語や，言語的でない系と比較して，インダス文字が言語の記述である文字である可能性が高まったと結論付けた．Lee ら [Lee 10a] は，ピクト人が石碑に残した記号について，情報エントロピーを用いて，文字としての性質をもつと結論付けた．なお，これらの結果について

(4)

で，既知の言語を用いた実験によって手法そのものを評価する必要がある．この文書中に出現する各記号の画像を文字ごとに分類する問題は，同じ文字であるという同値関係による商集合を求める問題であるといえる．既知言語であれば，正解となる商集合を定めることができるので，記号の画像を文字クラスに分類する手法を評価するために，その手法が出力する商集合と正解との類似度を測る方法を考えた [山口 16]．そのうえで，前述の Zipf 則を用いた方法を日本語の手書き文字に対して適用してみたが，現在のところ良い結果は得られていない．

5．まとめと今後の課題

本稿では代表的な未解読言語の紹介と，未解読言語を対象とした，ないしは適用可能とされる自然言語処理研究について概観した．残念ながら現在までのところ，未解読言語を対象に人工知能の技術を用いて得られた結果が，考古学上の新発見につながった事例を著者は知らない．しかし，Snyder らによるウガリットの解読のように，人間の考古学者による発見を計算機を用いて模倣することは行われている．そして，そのような人工知能をつくることで，今後，同種の発見がなされることを期待してもよいように思う．例えば，1949 年に Kudrjatsev らはロンゴロンゴが彫られた三つの遺物に同じ記号列が含まれることを発見した（それによって，これらの遺物が近い内容を記したものであると推定される）が，この事実を Sproat [Sproat]は suffix-array を用いて確認している．それによると Kudrjatsev らが発見したものほど長い共通した符号列の出現は，他には見当たらない．ここで Sproat は Barthel 符号を用いている．Barthel の符号化は文字への分割よりも詳細であるといわれていることから，同じ文字に異なる符号を付けている可能性があり，そのため同じ符号列の出現が見つけられないのかもしれない．文字への分割が正しければ，他にも共通した文字列を含む遺物を特定できるかもしれないのである．失われた文字を扱う研究においては，言語情報のアノテーションとともに，遺物の写真，特に文字の画像のデータが必要である．また，何らかの機械学習を行おうとするならば，電子的に整備されたデータが重要となるのは当然である．しかし，それらが十分に整備されているとは言い難い．そうした古代文字のデータベースを整備しようとする試みの一つとして，エジプト神官文字写本を対象とする永井ら [永井 12] の研究があげられる．データベースが公開されることで，研究者間の議論が進むことが期待される．なお，神官文字について永井は，ある程度の内容は理解できるものの，言語研究の立場から見れば，文法の解明が十全に達成されていない言語である，と述べており，これも程度の差こそあれ未解読言語といえるかもしれない．古代の文字を対象とするとき，いくつか留意すべき点が考えられる．史料の破損や劣化などによって，文書の一部が欠けたり，文字の識別が困難になることがある．欠けた箇所にあった文字の個数は，ある程度推測できるものの，こうした欠損に対応できる計算言語的な手法も少なそうである．また，エジプトの文字のように長い期間にわたって使われた文字の場合，文字や文法が時代によって変化することがある．そうした言語では史料の年代に留意しなければならない．なお，計算機を用いた古代文字研究で，文字の変遷を扱っているものは少ないようだ．そして何より，文字史料の総数が少ないことがあげられる．史料の発見はすべて，考古学者達の地道な発掘作業に負うている．データが少ないことは，しばしば問題となる．なお，解読の歴史を見ると，既存の史料をもとに提案された解読方法が，新たな史料が発見されたときに同じ方法でもっともらしく解読できることによって，初めて多くの研究者の賛同を得られたということが少なくない．最後に，未解読文字の研究に計算機を用いることの意義について述べたい．もちろん，膨大な計算をこなすことで可能となる解析手法があるし，計算機を有効活用した新しい解析の方法を考案することが今後の研究の主眼となるだろう．しかし，計算機の利点は膨大な量の計算ができるだけでなく，同じ計算（作業）を同じように遂行できることにもあると考える．そのことによって，違う対象（例えば既知言語）に同じ手法を適用することで，手法そのものの評価が可能となるものと思われる．また，当然のことながら，発見される古代の文字は，当時の人々が書き残したものである．人が書いたものであるから，同じ文字と思われる記号であっても，一つ一つ微妙に異なるし，ときには書き損じもある．人手による解読の試みの中には，記号のコーディングや書き損じを，解読の方法に都合良く解釈しているように思われるものもあって，そうしたものは他の研究者の賛同を得られにくい．ここで，計算機を用いて解読という作業を行うことができるならば，解読者の判断の揺れや恣意が入る余地が減り，解読が進むのではないかと期待している．

図 2 Great Petersburg と名付けられたロンゴロンゴ板 V 面 7 行目の後半 [Kohaumotu]

(5)

◇　参　考　文　献　◇

[Barthel 58] Barthel, T. S.: Talking boards of Easter Island,

Scientific American, Vol. 198, pp. 61-68（1958）

[Fischer 97] Fischer, S. R.: Rongorongo̶the Easter Island Script ̶, Clarendon Press（1997）

[Knight 99] Knight, K. and Yamada, K.: A computational approach to deciphering unknown scripts, ACL Workshop on

Unsupervised Learning in Natural Language Processing, pp.

37-44（1999）

[Knight 06] Knight, K., Nair, A., Rathod, N. and Yamada, K.: Unsupervised analysis for decipherment problems, Proc.

COLING/ACL, pp. 499-506（2006）

[Kohaumotu] Kohaumotu.org: http://kohaumotu.org/（last accessed: 2016/09/10）

[Lee 10a] Lee, R., Jonathan, P. and Ziman, P.: Pictish symbols revealed as a written language through application of Shannon entropy, Proc. Royal Society A: Mathematical,

Physical & Engineering Sciences, pp. 1-16（2010）

[Lee 10b] Lee, R., Jonathan, P. and Ziman, P.: A Response to Richard Sproat on random systems, writing, and entropy,

Computational Linguistics, Vol. 36, No. 4, pp. 791-794（2010） [持橋 09] 持橋大地，山田武士，上田修功：ベイズ階層言語モデルによる教師なし形態素解析，情処学研報自然言語処理，Vol. 36, 2009-NL-190（2009） [永井 12] 永井正勝，和氣愛仁：古代エジプト神官文字写本を対象とした言語情報表示システムの試作，人文科学とコンピュータシンポジウム 2012, C31, pp. 225-230（2012）

[Rao 09] Rao, R. P., Yadav, N., Vahia, M. N., Joglekar, H., Adhikari, R. and Mahadevan, I.: Entropic evidence for linguistic structure in the Indus Script, Science, Vol. 324, No. 5931, p. 1165（2009）

[Rao 10] Rao, R. P., Yadav, N., Vahia, M. N., Joglekar, H., Adhikari, R. and Mahadevan, I.: Entropy, the Indus Script, and language: A reply to R. Sproat, Computational Linguistics, Vol. 36, No. 4, pp. 795-805（2010）

[Snyder 10a] Snyder, B. and Barzilay, R.: Climbing the Tower of Babel: Undupervised multilingual learning, Proc. 27th Int.

Conf. on Machine Learning, Haifa, Israel（2010）

[Snyder 10b] Snyder, B., Barzilay, R. and Knight, K.: A Statistical model for lost language decipherment, Proc. 48th Annual

Meeting of the Association for Computational Linguistics, pp.

1048-1057（2010）

[Sproat] Sproat, R.: Rongorongo: Approximate String Matches: http://rws.xoba.com/ror/（last accessed: 2016/09/23） [Sproat 10] Sproat, R.: Ancient symbols, computational

linguistics, and the review practices of the general science journals, Computational Linguistics, Vol. 36, No. 3, pp. 585-594 （2010）

[Voynich] Voynich Manuscript̶Beinecke Rare Book & Manuscript Library: http://beinecke.library.yale. edu/digitallibrary/voynich.html（last accessed: 2016/09/10）

[Wikipedia] Wikipedia: Phaistos Disc -Wikipedia, the free encyclopedia: https://en.wikipedia.org/wiki/ Phaistos Disc（last accessed: 2016/09/25）

[山口 12] 山口文彦，中川正樹：ロンゴロンゴとイースター島の古謡のシラブル列との統語論的対応づけ，情報考古学会誌，Vol. 18, No. 1・2（合併号），pp. 25-37（2012） [山口 15] 山口文彦：Zipf 則を指標とするロンゴロンゴ記号の分類，日本情報考古学会第 35 回大会講演論文集，pp. 80-85（2015） [山口 16] 山口文彦：文字画像分類手法の評価指標の提案，日本情報考古学会第 36 回大会講演論文集，pp. 60-65（2016） [矢島 99] 矢島文夫：解読古代文字，ちくま文芸文庫（1999） 2016年 9 月 25 日受理

著　者　紹　介

山口　文彦（正会員） 2001年慶應義塾大学大学院理工学研究科計算機科学専攻後期博士課程単位取得退学，博士（工学）， 2015年より長崎県立大学教授，情報処理学会，情報考古学会各会員．

未解読言語の解析技術

1．は じ め に

2．未 解 読 文 字

未解読言語の解析技術

Analysing Undeciphered Languages

山口 文彦

Keywords:

3．失われた言語の解析技術

4．文字クラスへの分類

5．まとめと今後の課題

◇ 参 考 文 献 ◇

著 者 紹 介

1．は　じ　め　に

2．未解読文字

山口　文彦

◇　参　考　文　献　◇

著　者　紹　介