1.は じ め に
古代の文字の中には,一度は使う者がいなくなり,後 世になってその文字を記した遺物が発見されて,解読が 試みられるものがある.そうした文字の中には,解読さ れたといえるほどに解明が進んでいるものもあれば,未 解読のまま残されているものもある. 1990年代から盛んに研究されるようになった統計的 自然言語処理は,文書データをもとに言語現象の解析を 行うもので,対象とする言語の辞書や文法を使わないと いう特徴があり,さまざまな言語に適用できる数多くの 手法を生み出してきた.著者が未解読言語の解析に興味 をもったきっかけは,どんな言語にも使える手法であれ ば未解読言語にも使えるのではないかと,ごく素朴に 思ったことにある.しかし当然ながら,それほど単純な 話ではない.多くの統計的自然言語処理の手法では,確 率的な言語モデルを仮定する.個々の対象言語において 良いパフォーマンスを得るには,その言語モデルのパ ラメータを対象言語に依存して適切に設定する必要があ る.もし,そのパラメータを機械学習によって得ようと すれば,訓練データが必要となる.訓練データは対象と する問題の正解そのものといえるが,未解読言語の場合, なにしろ未解読なのであるから,どのような問題にせよ 正解はわからない.したがって,訓練データを用意する ことができない.さらに,何らかの手法を未解読言語に 適用したとしても,正解がわからないために,再現率や 適合率といった正解と比較した定量的な評価は得られな い. そこで計算機を用いた未解読言語を対象とする研究に おいては,取り組んでいる問題と本質的には同じ問題を, 既知の言語などを使って設定し,その正解がわかってい る問題を使って,手法そのものを評価するといった研究 方法が使われることがある.もちろん,未知の言語といっ ても,全くわからないというものでもなく,地理的・時 代的背景などからわかっていることや推定できることが ある場合には,そうした知識をモデル化するという研究 もある.2.未 解 読 文 字
矢島 [矢島 99] は,未解読の文字の双璧として,イン ダス文字とファイストスの円盤をあげている.また同書 で,古代文字(言語)の解読においては次のような場合 があり得ると述べている. (1)文字と使用言語が,ともに不明な場合 (2)文字は不明だが,使用言語は推定できる場合 (3)文字は判明しているが,使用言語が不明の場合 これまでに解読された古代文字の多くは,これらのう ちの(2)に当たる.ただし,使用言語の推定の確から しさの度合いはさまざまであって,(1)と(2)の境界 は曖昧である.(3)の場合とは,他の言語(既知のもの) の文字を用いている場合が考えられる.この場合は,連 続して出現する記号のどこからどこまでが一つの文字な のか,似た記号が同じ文字なのか異なる文字なのか,と いった知見がすでにあるだけでなく,それぞれの文字を どのように読むか(文字の音価という)がわかっている. しかし,日本語を知らない英語圏の人がローマ字表記さ れた日本語文を読む状況に似て,書かれている内容は(よ く知られた固有名詞を除いて)理解できないという場合 である. 現在,未解読文字といわれているものを,いくつか以 下にあげる.これらの中には,解読の試みが発表されて いるものもあるが,多くの研究者の同意が得られている とは言い難い. インダス文字はインダス川中流のモヘンジョ・ダロ やその周辺で発見された印章に刻まれた文字である.凍 石製の印章のほかに粘土板や石板に刻まれたものもある が,長いもので 17 文字で,5 ∼ 6 文字の短いものが多い. 紀元前 26 ∼ 15 世紀頃のものと考えられている. 線文字 A は,クレタ─ミケーネ文明の印章や土器・装 飾品類に見られる記号である.出土数が少なく未解読で ある.同じ文明の遺物である粘土書板などにある線文未解読言語の解析技術
Analysing Undeciphered Languages
山口 文彦
長崎県立大学Fumihiko Yamaguchi University of Nagasaki.
[email protected], http://sun.ac.jp/prof/yamagu/
Keywords:
lost languages, natural language processing. 「人工知能と歴史」─歴史を知る─字 B と関連が深いものの異なる文字体系と考えられてい る.なお,線文字 B のほうは多くの粘土板が発見されて おり解読されている.同じクレタ島で発見されたファイ ストスの円盤は,文字が渦巻き状にスタンプされた粘土 製の円盤である(図 1).45 種類の文字が 61 のグループ に分けられて,241 個刻まれている.このスタンプも未 解読文字であるといわれている. エトルリア文字は,古代ローマ以前に現在のイタリア の中央部から北部にかけて居住していたエトルリア人の 文字である.エトルリア人はギリシア・フェニキア系の 文字を取り入れて使っており,これらの文字に似ている ために文字の音価を推定することができる.数万の言語 遺物があるが,その多くは類似した墓碑銘であって,ど のような言語を用いていたかは不明である. ヴォイニッチ写本は時代が下って,15 世紀以降に書 かれた挿絵入りの手稿である.116 枚ほどの羊皮紙が 現存しており,両面に絵や多くの記号が書かれている が,それらの記号は文字や暗号の類ではないとする説 もある.イェール大学の図書館が画像を公開している [Voynich]. ロンゴロンゴ [Fischer 97] は,イースター島で木片に 刻まれた記号の列で,20 数枚の木製品が現存し,中に は数千の文字が刻まれている板もある.ポリネシアには 他に文字と呼べるものがない.西欧人の到達後に工夫・ 創造されたともいわれており,そうだとすると成立は 18世紀以降ということになる.なお,ロンゴロンゴと インダス文字が類似しているともいわれ,いわゆる歴史 ミステリーの一つだが,両者は地理的にも時代的にもか け離れており,直接の関係があるとは考えにくい. このように,発見された数が少ない場合(線文字 A な ど)や,多くても種類が少ない場合(エトルリア文字な ど),記号列のそれぞれが短い場合(インダス文字など) に,解読が困難である様子がわかる.
3.失われた言語の解析技術
文字を記した膨大な量の遺物が発掘されるなどすれ ば,それらを整理する必要がある.言語史料の整理およ び,それに伴うアノテーションや解読といった作業の多 くは,従来,人の手で行われてきた.しかし人手による 作業では,作業者の熟練度によって質がばらついたり, 同じ作業者であっても異なる史料に対して異なる判断を してしまうという問題が生じ得る.こうした作業を計算 機を用いて支援ないし自動化することで,質のばらつき や判断の揺れを低減できると期待できる. 一方,解読そのものを計算機を用いて行おうとする研 究もある.人の手による古代文字の解読では対訳コーパ スが大きな役割を果たすことがある.有名な例では,古 代エジプトの神聖文字の解読の手掛かりとなったロゼッ タストーンがある.ロゼッタストーンは,神聖文字・民 衆文字・ギリシア文字の 3 種類の文字で文章が刻まれた 石碑である.しかし,このような対訳コーパスが発見さ れることはまれである. Knight ら [Knight 99] は,対訳コーパスのような関係 はないが同じ言語のコーパスから文字の音価を見つけて いる.この研究では,文字の並びであるコーパスと音韻 を表す発音記号の並びであるコーパスを用意し,音の並 びを文字に置き換える確率的モデルをつくり,そのパラ メータを期待値最大化法を用いて求めている.この研究 は使用言語が推定できて文字が未知であるような未解読 言語に対して有効であるとしながらも,特定の未解読言 語には適用せず,3 種類の既知の言語を用いた実験を報 告している.その 3 種類とは,スペイン語,日本語の仮 名,中国語であり,それぞれ音素文字,音節文字,表意 文字についての実験であると位置付けている.その結果, 良い精度で文字の音価を特定できている. この研究も踏まえ,Knight ら [Knight 06] は,古代文 字に限らずに,換字暗号や文字コードの変換など,解読 と捉えることのできるさまざまな問題を,計算機を用い て解決する方法について概観している.Snyder ら [Snyder 10a] は,確率的モデルを使った形 態素への分割・part-of-speech タグ付け・構文解析の三 つの自然言語処理手法について概観し,さらに対訳テキ ストがない場合についての,失われた言語の解読につい て触れている.この中で,計算論的なモデルによって(解 読に必要な)論理と直観が多少なりとも捉えられると述 べている. さらに Snyder ら [Snyder 10b] は,ウガリットと呼ば れる楔形文字とヘブライ語のコーパスから,同じ語源を もつ語(同根語)の対を見つけている.ここでウガリッ トを未知,ヘブライ語を既知とすれば,同根語対を見つ けることで,ウガリットの解読を進めたといえる.ウガ リットとヘブライ語は地理的にも時代的に近い言語で あって,いずれもセム語系列の言語であり,関連が深い と考えられる.この研究では,未知言語に現れる各単語 が語頭・語幹・語尾から成るとし,活用による語尾の変 化などを手掛かりとできるよう,言語のもつ性質を用い 図 1 ファイストスの円盤:A 面 [Wikipedia]
Sproat [Sproat 10]は,コーパスのサイズが小さいこと などを理由に,文字であることの十分な証拠とはいえな いとしている.これに対し,[Rao 10] は,インダス文字 は 4 000 文字見つかっているいることなどをあげたうえ で,比較対象としたものは DNA や,タンパク質中のア ミノ酸配列,Fortran のコードであり,Sproat のいうラ ンダムに生成された列を含む単純な実験が誤解であると 反論している.また [Lee 10b] は,unigram だけでなく bigram(Lee は digram と書いている)についてもエント ロピーが小さくなることを示すなどして反論している.
4.文字クラスへの分類
テキストデータを対象とする自然言語処理は文字の列 を入力とする.もちろん,古代の文字であれば文字コー ドが付いていない場合が多い(しばしば失われた言語の 文字を UTF に登録しようとする動きが見られるのだが) ので,コード化することから始めなければならない.し かし未解読の文字の場合,似た記号が同じ文字を表して いるか否かはわからない.例えばイースター島のロンゴ ロンゴは図 2 にあるような自然の事物を象形したと思わ れる記号の列だが,ここには魚の形の記号にえらが描か れているものと描かれていないものがあって,これらが 言語を記述するうえで同じ文字なのか区別されるべきな のかは簡単に結論付けることができない. ファイストスの円盤のようにスタンプであれば同定が 容易だと思われるが,多くの古代文字は人の手によって 書かれており,表記に揺れがあるため,これを読み取っ てコードにする必要がある.言語によっては考古学者の 努力によって,記号にコードが付されている.ロンゴロ ンゴの場合には,Barthel が記号をその形状によって分 類し 3 桁の数字からなるコードを付けている [Barthel 58].しかし,これは文字の異なりによって分類してい るわけではないことに注意が必要である.すなわち,同 じ文字に異なるコードが付いていたり,違う文字に同じ コードが付いている可能性を否定しきれないのである. このようなコードを文字であると仮定して文書全体に何 らかの言語モデルを当てはめようとしても,うまくいく とは思えない. このような問題点を踏まえ,著者は記号の画像を文字 クラスに分類する作業を支援ないし自動化しようと試み ている [山口 15].もちろん同じ文字であれば,画像と して似ていると考えられるが,どの程度似ていれば同じ 文字であるかの基準がないことが問題である.この研究 では,手書き文字認識の手法を用いて文字画像の間に類 似度を定め,その類似度と文書中の出現頻度が Zipf 則 に従う度合いによって非階層的クラスタリングをしよう とした.しかし結果として得られた分類を見る限り,文 字ごとに分けられているとは思えないものであった.も ちろん未解読の文字に対しては結果の評価ができないの ている.二つの言語の形態素のペアの確率分布から,形 態素が繰り返し現れるパターンに基づく確率が得られる というノンパラメトリックベイズモデルを用いている. データとしては,Cunchillos らによるウガリットの電子 的データと,ヘブライ語の聖書を用いている. 対訳コーパスがないならば,探すという方向性もあり 得る.著者ら [山口 12] は,ロンゴロンゴが歌を記憶す る補助としてつくり出された音節文字であるとする説に 基づいて,イースター島の歌の音節とロンゴロンゴ記号 を表す符号の出現順序を比較した.この研究では符号と して Barthel による符号化 [Barthel 58] を用いている. 符号の付けられた文字が音価をもつとすれば歌詞に登場 する音節と同じ順序で符号が並ぶものと仮定し,(後述 するように Barthel 符号が詳細すぎる場合や,ロンゴロ ンゴ文字が複数の音節から成る読みをもつ場合を考慮し て)複数の符号が同じ音価をもち得るとしたうえで,ロ ンゴロンゴの各行と歌詞を比較した.この研究ではロ ンゴロンゴ 83 行と歌詞 372 編を比較したが,その全組 合せ 30 876 通りのうち,対応する可能性のあるものが 618 通りと結論した.なお,同じ方法を日本語の漢字仮 名混じり文と片仮名文に対して適用すると,対応するも のをよく見つける一方,二度以上出現する文字の種類数 が少ないほど対応していないものを対応していると誤判 定しやすいことがわかった.そこでロンゴロンゴと歌詞 についても,二度以上出現する符号の数が多いものに限 定して調査してみたところ,ロンゴロンゴの行と歌詞の 対応は 1 対 1 ではなく,単純に対訳コーパスが見付けら れたとは結論できなかった.このように直接解読に結び 付く結論ではないものの,いくつかの歌詞とロンゴロン ゴの行が対応する可能性があることはわかった. 単一のコーパスだけを用いる研究としては,未解読言 語に適用した研究報告ではないものの,持橋ら [持橋 09] が文字のみのコーパスから,単語への分割を見つける教 師なし学習を示している.この研究では,単語の n グラ ムは n−1 グラムから生成され,単語の unigram はそ の綴りの文字 n グラムから生成されるという言語モデル を提案している.サンプリングにはマルコフ連鎖モンテ カルロ法を用いる.これによって中国語,日本語,日本 語の話し言葉,古文,および空白を削除した英文につい て,比較的小さなコーパスであるにもかからず単語分割 が得られることを示した. 未解読な文字とされているものについては,そもそ も言語の記述に用いられる記号の列という意味での文字 なのか否かも問題となる.インダス文字について,Rao ら [Rao 09] は,条件付きエントロピーを用い,他の自 然言語や,言語的でない系と比較して,インダス文字が 言語の記述である文字である可能性が高まったと結論付 けた.Lee ら [Lee 10a] は,ピクト人が石碑に残した記 号について,情報エントロピーを用いて,文字としての 性質をもつと結論付けた.なお,これらの結果についてで,既知の言語を用いた実験によって手法そのものを評 価する必要がある.この文書中に出現する各記号の画像 を文字ごとに分類する問題は,同じ文字であるという同 値関係による商集合を求める問題であるといえる.既知 言語であれば,正解となる商集合を定めることができる ので,記号の画像を文字クラスに分類する手法を評価 するために,その手法が出力する商集合と正解との類似 度を測る方法を考えた [山口 16].そのうえで,前述の Zipf 則を用いた方法を日本語の手書き文字に対して適用 してみたが,現在のところ良い結果は得られていない.
5.まとめと今後の課題
本稿では代表的な未解読言語の紹介と,未解読言語を 対象とした,ないしは適用可能とされる自然言語処理研 究について概観した. 残念ながら現在までのところ,未解読言語を対象に人 工知能の技術を用いて得られた結果が,考古学上の新発 見につながった事例を著者は知らない.しかし,Snyder らによるウガリットの解読のように,人間の考古学者に よる発見を計算機を用いて模倣することは行われてい る.そして,そのような人工知能をつくることで,今 後,同種の発見がなされることを期待してもよいように 思う.例えば,1949 年に Kudrjatsev らはロンゴロン ゴが彫られた三つの遺物に同じ記号列が含まれることを 発見した(それによって,これらの遺物が近い内容を記 したものであると推定される)が,この事実を Sproat [Sproat]は suffix-array を用いて確認している.それに よると Kudrjatsev らが発見したものほど長い共通した 符号列の出現は,他には見当たらない.ここで Sproat は Barthel 符号を用いている.Barthel の符号化は文字 への分割よりも詳細であるといわれていることから,同 じ文字に異なる符号を付けている可能性があり,そのた め同じ符号列の出現が見つけられないのかもしれない. 文字への分割が正しければ,他にも共通した文字列を含 む遺物を特定できるかもしれないのである. 失われた文字を扱う研究においては,言語情報のアノ テーションとともに,遺物の写真,特に文字の画像のデー タが必要である.また,何らかの機械学習を行おうとす るならば,電子的に整備されたデータが重要となるのは 当然である.しかし,それらが十分に整備されていると は言い難い.そうした古代文字のデータベースを整備し ようとする試みの一つとして,エジプト神官文字写本を 対象とする永井ら [永井 12] の研究があげられる.デー タベースが公開されることで,研究者間の議論が進むこ とが期待される.なお,神官文字について永井は,ある 程度の内容は理解できるものの,言語研究の立場から見 れば,文法の解明が十全に達成されていない言語である, と述べており,これも程度の差こそあれ未解読言語とい えるかもしれない. 古代の文字を対象とするとき,いくつか留意すべき点 が考えられる.史料の破損や劣化などによって,文書の 一部が欠けたり,文字の識別が困難になることがある. 欠けた箇所にあった文字の個数は,ある程度推測できる ものの,こうした欠損に対応できる計算言語的な手法も 少なそうである.また,エジプトの文字のように長い期 間にわたって使われた文字の場合,文字や文法が時代に よって変化することがある.そうした言語では史料の年 代に留意しなければならない.なお,計算機を用いた古 代文字研究で,文字の変遷を扱っているものは少ないよ うだ.そして何より,文字史料の総数が少ないことがあ げられる.史料の発見はすべて,考古学者達の地道な発 掘作業に負うている.データが少ないことは,しばしば 問題となる.なお,解読の歴史を見ると,既存の史料を もとに提案された解読方法が,新たな史料が発見された ときに同じ方法でもっともらしく解読できることによっ て,初めて多くの研究者の賛同を得られたということが 少なくない. 最後に,未解読文字の研究に計算機を用いることの意 義について述べたい.もちろん,膨大な計算をこなすこ とで可能となる解析手法があるし,計算機を有効活用し た新しい解析の方法を考案することが今後の研究の主眼 となるだろう.しかし,計算機の利点は膨大な量の計算 ができるだけでなく,同じ計算(作業)を同じように遂 行できることにもあると考える.そのことによって,違 う対象(例えば既知言語)に同じ手法を適用することで, 手法そのものの評価が可能となるものと思われる.また, 当然のことながら,発見される古代の文字は,当時の人々 が書き残したものである.人が書いたものであるから, 同じ文字と思われる記号であっても,一つ一つ微妙に異 なるし,ときには書き損じもある.人手による解読の試 みの中には,記号のコーディングや書き損じを,解読の 方法に都合良く解釈しているように思われるものもあっ て,そうしたものは他の研究者の賛同を得られにくい. ここで,計算機を用いて解読という作業を行うことがで きるならば,解読者の判断の揺れや恣意が入る余地が減 り,解読が進むのではないかと期待している.図 2 Great Petersburg と名付けられたロンゴロンゴ板 V 面 7 行目の後半 [Kohaumotu]
◇ 参 考 文 献 ◇
[Barthel 58] Barthel, T. S.: Talking boards of Easter Island,
Scientific American, Vol. 198, pp. 61-68(1958)
[Fischer 97] Fischer, S. R.: Rongorongo̶the Easter Island Script ̶, Clarendon Press(1997)
[Knight 99] Knight, K. and Yamada, K.: A computational approach to deciphering unknown scripts, ACL Workshop on
Unsupervised Learning in Natural Language Processing, pp.
37-44(1999)
[Knight 06] Knight, K., Nair, A., Rathod, N. and Yamada, K.: Unsupervised analysis for decipherment problems, Proc.
COLING/ACL, pp. 499-506(2006)
[Kohaumotu] Kohaumotu.org: http://kohaumotu.org/(last accessed: 2016/09/10)
[Lee 10a] Lee, R., Jonathan, P. and Ziman, P.: Pictish symbols revealed as a written language through application of Shannon entropy, Proc. Royal Society A: Mathematical,
Physical & Engineering Sciences, pp. 1-16(2010)
[Lee 10b] Lee, R., Jonathan, P. and Ziman, P.: A Response to Richard Sproat on random systems, writing, and entropy,
Computational Linguistics, Vol. 36, No. 4, pp. 791-794(2010) [持橋 09] 持橋大地,山田武士,上田修功:ベイズ階層言語モデル による教師なし形態素解析,情処学研報自然言語処理,Vol. 36, 2009-NL-190(2009) [永井 12] 永井正勝,和氣愛仁:古代エジプト神官文字写本を対象 とした言語情報表示システムの試作,人文科学とコンピュータ シンポジウム 2012, C31, pp. 225-230(2012)
[Rao 09] Rao, R. P., Yadav, N., Vahia, M. N., Joglekar, H., Adhikari, R. and Mahadevan, I.: Entropic evidence for linguistic structure in the Indus Script, Science, Vol. 324, No. 5931, p. 1165(2009)
[Rao 10] Rao, R. P., Yadav, N., Vahia, M. N., Joglekar, H., Adhikari, R. and Mahadevan, I.: Entropy, the Indus Script, and language: A reply to R. Sproat, Computational Linguistics, Vol. 36, No. 4, pp. 795-805(2010)
[Snyder 10a] Snyder, B. and Barzilay, R.: Climbing the Tower of Babel: Undupervised multilingual learning, Proc. 27th Int.
Conf. on Machine Learning, Haifa, Israel(2010)
[Snyder 10b] Snyder, B., Barzilay, R. and Knight, K.: A Statistical model for lost language decipherment, Proc. 48th Annual
Meeting of the Association for Computational Linguistics, pp.
1048-1057(2010)
[Sproat] Sproat, R.: Rongorongo: Approximate String Matches: http://rws.xoba.com/ror/(last accessed: 2016/09/23) [Sproat 10] Sproat, R.: Ancient symbols, computational
linguistics, and the review practices of the general science journals, Computational Linguistics, Vol. 36, No. 3, pp. 585-594 (2010)
[Voynich] Voynich Manuscript̶Beinecke Rare Book & Manuscript Library: http://beinecke.library.yale. edu/digitallibrary/voynich.html(last accessed: 2016/09/10)
[Wikipedia] Wikipedia: Phaistos Disc -Wikipedia, the free encyclopedia: https://en.wikipedia.org/wiki/ Phaistos Disc(last accessed: 2016/09/25)
[山口 12] 山口文彦,中川正樹:ロンゴロンゴとイースター島の古 謡のシラブル列との統語論的対応づけ,情報考古学会誌,Vol. 18, No. 1・2(合併号),pp. 25-37(2012) [山口 15] 山口文彦:Zipf 則を指標とするロンゴロンゴ記号の分類, 日本情報考古学会第 35 回大会講演論文集,pp. 80-85(2015) [山口 16] 山口文彦:文字画像分類手法の評価指標の提案,日本情 報考古学会第 36 回大会講演論文集,pp. 60-65(2016) [矢島 99] 矢島文夫:解読古代文字,ちくま文芸文庫(1999) 2016年 9 月 25 日 受理