中央学術研究所紀要　第41号 035笠松直・西康友・逢坂雄美「中期インド・アーリヤ語聖典のパーソナルコンピュータによる自動解析Ⅲ」

(1)

これまで我々はJavaを用いて、中期インド・アーリヤ語（パーリ、アルダ・マガダ）及びサンスクリットの諸語の古文献を系統的に解析できるツールを構築してきた。最近、従来のツールに実行時エラーの処理を組み込んでより使い易く改良した。これらのツールはマッキントッシュOSX、ウインドウズXP、リナックスの３つの異なるプラットフォーム上で動作する。我々の解析システムはフォント、エディタ、解析ツール（テキストデータ、韻律解析、索引作成）の３部からなる。これらの解析システムは全て下記ホームページにて公開している（http://hirose.sendai-nct.ac.jp/~ousaka）。独自の特殊フォント系 Pali96（通常のローマ字フォント＋拡張アスキーコード上の特殊フォントからなる）をもとに作成したテキストデータを入力ファイルとしてこの計算機リソースを使用することにより、韻律解析・詩脚索引作成・語彙索引作成が可能となる。たとえば詩脚索引作成には、各詩偈を手作業で詩脚に分解する必要があるが、韻律解析結果の援用により大幅にその作業を軽減できる。これらのツールを有機的に使用す

パーソナルコンピュータによる自動解析Ⅲ

―― ジャバによる実行形式 Jar ファイル ――

笠松直

西康友

坂雄美

１．序論２．フォントの特性と２つのテキスト形式 2.1．フォントの特性 2.2．主として韻文からなるテキスト形式 2.3．主として散文からなるテキスト形式３．主として韻文から成るテキスト解析 3.1．ニューロ法による韻律解析ツール 3.2．詩脚の正順索引作成ツールと逆順索引作成ツール 3.3．正順語彙索引作成ツール４．散文からなるテキストの解析 −語彙索引作成− ５．討議

(2)

ることで、当該古文献研究をより一層効果的に推進できる。本論文では、最初に解析に使用されるテキスト形式について議論し、次いで韻文主体のテキストに適用可能なツールの種類とその活用法について述べ、最後に散文主体のテキストについても同じ議論を展開した。この論文展開によりツールの全体構成を理解して効率的に活用できるようになると期待される。

１．序論

我々の解析ツールの基盤は、フォント、エディタ、解析ツール（テキストデータ、韻律解析、索引作成）からなる。解析ツールはインド学者自身がその使用に抵抗のないようにダイアログ形式にしてあり、Java が使用できる環境で問題なく動作する。この研究については、中央学術研究所から刊行されているPhilologoca Asiatica Seriesの第 21巻等で発表している［１］。当該研究ではインド学者自身が解析ツールを使用できるように入出力ファイルの指定法等を工夫していたが、実行時エラー明示等は殆どなされていなかったために、その使い勝手は極めて悪いものであった。実行時エラーメッセージ等を表示することで、解析ツールの使い勝手は格段に改善した。本論文では、実例に沿って詳細に解説する。本ツール使用に当たってまず注意すべきことは、入力テキストの書式である。もし、書式が所定の形式に違反している場合には、各プログラムはその形式違反の位置で解析を停止するようになっている。この点、従前のプログラムではプログラム停止に関する何らのメッセージも出さなかったので、使用者はその停止の理由を把握し、その対策を取ることが困難であった。今回は読み込みに関するエラーが発生した際に、その発生箇所を特定できる情報を出力ファイルに書き込むように改善した。解析の観点から見ると、テキストは二つの形式に分かれる。一つは主として韻文からなるテキストであり、もう一つは主として散文からなるものである。主として韻文からなるテキスト解析には次のツールを準備している：⑴ニューロ法（ニューラルネットワーク）による韻律解析ツール；⑵パターンマッチングを活用した韻律解析ツール；⑶正順詩脚索引作成ツール；⑷逆順詩脚作成ツール；⑸正順語彙作成ツール；⑹逆順語彙作成ツール。主として散文からなるテキスト解析には次のツールを準備している：⑺正順語彙作成ツール；⑻逆順語彙作成ツール。上記ツールはアルダ・マガダ語、パーリ語とサンスクリット語に対して適用できる。各言語の解析アルゴリズムは殆ど同じであり［１］、基準となるアルファベットを変更するだけで各ツールを作成できる。解析ツールは、我々の作成した特殊フォントPali96. ttfに準拠している。第２節ではこのフォントのまとめと、これを使用して作成する２

(3)

種類のテキスト形式について記述する。

ここで本解析ツール活用の環境について簡単にまとめておく。まず特殊フォント Pali96.ttfをインストールする必要がある。このフォントは我々のホームページ（http:// hirose.sendai-nct.ac.jp/~ousaka/EngH.html）より入手出来る。マッキントッシュOSXでは、 Pali96.ttf フォントをアプリケーション／Font Book.app フォルダにドラッグ＆ドロップすることでインストールできる。ウインドウズ XP では Pali96.ttf を C:￥WINDOWS￥ Fontsフォルダにドラッグ＆ドロップすることでインストールできる。リナックスについては相当程度の情報関連知識を必要とするので、その使用法等についてはここでは割愛する。次に JAVA環境を構築する必要がある。マッキントッシュでは、JAVAはプリインストールされているので、その手続は不用である。ウインドウズについては、インターネットで「JAVA 環境構築」等のキーワードで検索し、当該環境構築に必要なサイトにアクセスし、その指示に従って処理されたい。特殊フォントを簡単に入力できるエディタの存在は本解析ツール使用に当たって必要不可欠な事項である。なぜなら、解析ツールは、特殊フォントの１バイトコードを正確に保持したプレーンテキスト形式（いわゆる *.txt形式、又はMacRoman形式ファイル）の入力ファイルに適用することを前提にしているからである。マッキントッシュではファイル作成に必要なエディタとして、バンドルされた TextEdit の他、Jedit X または Nisus Writer Pro 等がある。マッキントッシュでは、殆どのワープロソフトを使って、簡単に特殊フォントをキー入力できる。一方、ウインドウズXPではMS Word等で、特殊フォントのショートカットキー入力法を指定できる。しかし、MS Word等で作成されたファイルはヘッダー情報のために、解析ツール用の入力ファイルとしては使用できない。このため簡素なエディタ Edisan5.0を開発した。このエディタでは、特殊フォントに対するショートカットキーが定義されており、特殊フォントを簡単に入力できる。このエディタはJAR（Java Archive Runnable）ファイルとして作成されており、Java 環境がインストールされた各プラットフォームで同等に動作する。この操作法は通常のエディタと殆ど同じである。ただし市販のエディタに比べてその機能が制限されている［１］。以下、第２節では、フォントの特性と２つのテキスト形式について述べる。第３節では、主として韻文からなるテキストの解析について議論する。第４節では、主として散文からなるテキスト解析について述べる。最後に、第５節では問題点等について議論する。

(4)

２．フォントの特性とテキスト

　形式

まずフォントの特性について記述し、次いで我々の解析ツールで採用するテキスト形式について記述する。計算機解析は、我々の作成したフォント Pali96.ttf に基づくローマ字化テキストのみを入力ファイルとして処理する。従って当該テキストの正確な作成が計算機解析の信頼度を規定する重要な因子となる。我々は、主として韻文からなるテキストと主として散文からなるテキストを解析するが、韻文テキストについては韻律解析・詩脚索引作成・語彙索引作成をする。散文のテキストは語彙索引作成に使用される。各解析ツールには、サンプルテキストを添付しているので、参考にされたい。 2.1．フォントの特性アルダ・マガダ、パーリ、サンスクリットの諸語のアルファベットを表１、２、３にまとめてある。表４にはキー入力とアスキーコードをまとめてある。特殊文字“ ā ”は Option（ウインドウズ PC では Alt）key と正規の文字“ a ”を同時に押すことによりタイプできる。同様にして他の特殊文字 “m4”、“kh”等を打つことができる。特殊文字“ ī ”は Option key と正規の文字“ i ”を同時に押した後で引続き文字“ i ”を打つことによりタイプできる。同様にして“ ū ”を打つことができる。最後に、特殊文字“t4h”は３つ表１　アルダ・マガダ語アルファベット表２　パーリ語アルファベット表３　サンスクリット語アルファベット

(5)

のキー、Option、Shift key、正規の文字 “y”を同時に押すことによりタイプできる。表４の最後９個の文字のうち、４個の特殊記号（ / 、// 、| 、’）は解析のための入力テキスト作成に重要であるので注意しておく（残り５個は韻律解析の出力に使用されるのみなので、その説明を省略する）。前の３個は韻文解析用テキストで使用され（第2.2小節参照）、最後の１個は prodelison 処理用の記号として使用される。これまでの Pali96フォントに対して以下の追加・変更を加えたので注意しておく。サンスクリット語では、母音の３文字（r 99、r999、l 99）の字形を通常使用される形に変更した。２文字“ r 99、r999”は従来のフォントの字形を変えただけであり、他の情報（キー入力、アスキーコード）はそのままである。最後の１文字“ l 99”は新たに追加してあり、パーリ語の子音“ l49”と区別することとした。 2.2．主として韻文からなるテキスト我々は、校正の便宜のためにも、出来るだけ原本のテキストスタイルを残すよう考慮した。但し、自動解析に不可欠な情報を各行に付加する。韻律解析プログラムでは、この付加情報に準拠して韻文と散文を自動的に判定し、韻文の部分だけの韻律解析を行う。初めて作成したテキストには、付加情報が欠落しがちであるので、慎重にその情報付加をチェックされたい。図１を例に取り、韻文テキストの形式について述べる。ａ．まず一行目にセクションマーク“§”と適当な識別子（この例では詩脚索引の出現箇所引用に必要な記号［1］8.）を付加し、その後に特別な終了記号“ / ”（表４に記載している）を付ける。当該行の特別終了記号後にある残りのデータは計算解析では無視される。“§”は１バイトコード（半角英字モード）でのセクションマークであり、マッキントッシュでは option キーと数字の６を同時に押すことにより入力できる。ｂ．次の行は散文であり、行末には必ず特別に用意された終了記号、//*1// を付ける。２個の“ // ”中の記号＊と数字は、この行が散文であることと、この行が現れたテ表４　Pali96フォントの文字、キー入力とアスキーコード

(6)

キスト内の行番号が１であることを表す。なお、特別に用意した記号“ // ”については、表４を参照のこと。これらの特殊記号は、キーボードに準備されている通常の“／”（スラッシュ）では代用できないことに留意されたい。ｃ．番号 //*9// の散文に続く２行に示されているように、韻文は基本的にテキスト２行分で１詩偈を構成する。１行目と２行目、つまり第１半詩偈と第２半詩偈の終わりに特殊記号“ / ”と“ // ”を各々付ける。第２半詩偈の終わりの記号“ // ”で挟まれた数字は、詩偈の通し番号を表す。もし、１詩偈が３行で構成されているときには、第１、２行の行末に特殊記号“ / ”を付加し、第３行の行末には“ // ”を付せばよい。 2.3．主として散文からなるテキスト以下では、図２を例に取り、散文テキストの作成形式について述べる。このテキスト形態は語彙の索引作成に使用する。付加情報としては、テキストのページを明示するマークが必要である。これには、 “§”をページの表示情報として採用した。たとえば“§1”は第１ページ目のテキストであることを示す。韻文を主とするテキストと異なり、散文テキストでは“§”だけが付加情報として必要である。プログラムでは、これらの情報を基にして、行の自動カウントを行う。なお、行末のハイフンの処置については特別の注意を要する。プログラムでは行中のハイフンを複合語の切れ目として使用している。複合語を構成する語は、それぞれ別個の語として処理される。従ってもし複合語を１語として取り扱いたい場合には、図１　韻文テキストのサンプル

(7)

このハイフンを消去すればよい。一方、行末のものはただ単に単語が繋がっていることを示している（通常の行末ハイフン処理）だけであり、複合語としての処理をしないようにしている。プログラムでは、この２種類のハイフンを識別できないので、複合語の切れ目が行末にある場合には、そのハイフンを人手により除去する必要がある。最後にハイフンに関して、もう一つの注意事項がある。プログラム処理上、ページの最後の行の行末にハイフンを置くことを禁止している。従って、このような場合には、手作業でハイフンを外す処理、つまり次ページの最初の語を当該ページの最後にペーストする必要がある。

３．主として韻文からなるテキスト解析

我々の構築した言語処理システム、つまり韻律解析ツールと索引作成ツールとは、アルダ・マガダ語、パーリ語とサンスクリット語の文献に対して適用可能である。各言語のツールでは基準とするアルファベットが異なっている（表１、２、３参照）が、言語毎にプログラムに取り込んでいる。従って、各テキストの言語と目的とする解析に応じて適切なツール（表５参照）を選択して適用することにより、目的とする解析結果を得ることが出来る。表５では、サンスクリット語テキストの解析ツールについて記載している。他の言語、パーリ語、アルダ・マガダ語についても類似のツールを整備している。第２節の形式に準拠した電子化テキスト作成では、不可避的にミスタイプ等に起因する様々な誤植が入ってくる。その間違いを直して正確な電子化テキストを作成する図２　散文テキストのサンプル

(8)

ことが、計算機解析の精度を高めるために重要である。最初に人手により電子化テキストをチェックしてある程度ミスを修正した後で、以下の一連の計算機解析を実行することにより、限りなくミスタイプ等のエラーを軽減できる。 ① （第3.1小節参照）最初に、２種類の韻律解析（ニューロ解析法とパターンマッチング法）を実行する。入力エラー等がある場合には、通常、解析結果に異質な韻律パターンが現れる。当該韻文を調べることで、エラーを効率的に発見できる。手作業で詩偈を詩脚に分割することは相当煩雑であるが、この韻律解析結果を活用することにより比較的簡単に分割出来る。詩脚の分割記号（表４の特殊記号のうち“ | ”を割り当てている）をテキストに入力しておくと、次の段階での詩脚索引作成プログラムを実行できる。 ② （第3.2小節参照）次に、前の段階で得られた詩脚分割記号付き電子化テキストを入力ファイルとして解析ツールを使用することにより、正順詩脚索引と逆順詩脚索引を作成できる。この解析結果を吟味することで、電子化テキストのエラーを発見できる。 ③ （第3.3小節参照）最後に、②の段階で得られた電子化テキストに正順語彙索引作成ツールや逆順語彙索引作成ツールを適用することにより、語彙索引を作成できる。これまでと同じく、得られた索引を言語学者が吟味することで、電子化テキストのエラーを発見しやすくなる。 ①②③の一連の手順を繰り返し実行することにより、電子化テキストからミスタイプ等を限りなく少なくすることができる。その結果、信頼性の高い解析結果を得ることができる。表５　サンスクリット語テキストの解析ツール・プログラム名

(9)

上記のことを考慮して、本節ではサンスクリット語テキストを使用して解析ツールの動作法①②③、及び解析結果について順に議論する。 3.1．ニューロ法による韻律解析ツール（プログラム名：SktNeuroMetreAnalNo1. jar）韻律解析処理には２種類ある。パターンマッチング法については、既に philologica Asiatica第21巻等［１］にて議論しているので、もう一方のニューロ法による韻律解析について議論する［２］。この解析処理のためのツールフォルダを図３に示す。このフォルダには入力テキストとともに、韻律解析に必要な基礎データ６個も含まれている。最初に⑴このプログラムの走らせ方について述べ、次いで⑵計算結果の解説をする。 ⑴　プログラムの走らせ方プログラムへの入力テキストファイルを１つ準備しておく。また、一つの出力ファイルが必要である。❶始めに実行形式ファイル SktNeuroMetreAnal-No1.jar をダブルクリックしてプログラムを走らせる。❷すると図４のダイアログボックスが表示される。入力テキストファイル名を直接入力するか、又はInput Fileのボタンを押してフォルダ中の適当なファイルを選択する。この場合、単にファイル名だけでは不十分であり、属性としてのファイルディレクトリ情報も必要であるので、Input File ボタンを押して、必要なファイルが存在するフォルダを指定して、完全なファイル情報を入力した方がよい。 ❸２番目の欄に出力用のファイル名を入力する。この場合にも入力テキストファイルと同じくファイルディレクトリ情報も必要であるので、前の段階で指定した入力ファイル情報を一番目のダイアログボックスからコピーし、その後ファイル名だけをこのファイル名に替えればよい。❹その後、韻律解析図４　ニューロ法による韻律解析プログラムのダイアログボックスと終了ダイアログボックス（プログラム名：SktNeuroMetreAnalNo1. jar）図３　ニューロ法による韻律解析ツールフォルダ

(10)

用の学習済みデータファイルPMNeuroData69.txt（図３のフォルダ中にある）を選択する。この場合も、そのファイルのディレクトリ情報も必要であるので、Select ボタンを押してそれを指定する。❺次いで、使用機種を選択する。❻最後に、Run ボタンを押すとプログラムが自動的に走る。プログラムが終了すると、図４右下のメッセージボックスが表示されるので、OK のボタンを押せばよい。得られた出力結果を図５に示す。出力ファイルは、MacRoman に準拠した１バイトコードが保持された形式のプレーンテキストである。適当なワープロ（序論の議論参照）でファイルを開き、Pali96 フォントを指定することにより見易い形の結果を得ることが出来る。なお、以下のプログラムにおいてもこのツールと同じく、入出力ファイルの指定には、ファイル名だけでなく属性としてのファイルディレクトリ情報も必ず必要であることを注意しておく。以下ではこの説明を省略する。 ⑵　計算結果の解説図５の上２段は第１半詩偈、下３段は第２半詩偈の解析結果を示している。出力結果も入力ファイルと同様に、Pali96フォントで記述されている。この図では、タブ設定機能の使用（図の最上部のタブ設定マーク参照。タブ設定情報は出力結果に組み込まれている。）及び Pali96フォントの指定によって出力結果を見易い形にしている。言語的に重要な情報（データ）は３つある。第一は点線の下に表記してある入力テキスト、第二は“pada1=… pada2=…”の表記結果、第三は各ブロックの最後の行である。残りのデータは解析結果の正当性をチェックするための数値表示であるので、言語学的には不用である。入力テキスト（第１データ）を解析した結果、各半詩偈は第２のデータに示されるように分割され、第３のデータのように分類されることを示している。第一半詩偈の解析結果に、２段のブロック表示があるのは、二種類の詩脚分割についてチェックしていることを示している。２段目のブロックにおける最後の行表示を見ると、第１半詩偈を共にŚloka で分類できることを示している。一方、１段目のブロックにおける最後の行表示を見ると、“Arya1_2” と“None!”が現れている。“None!” の表示は、当該解析では pada2に割り当てできる韻律名が何も無か図５　ニューロ法による韻律解析結果例

(11)

ったことを示している。従って、第一半詩偈は Śloka に分類される可能性が高いことを示している。第二半詩偈について３段のブロック表示があるのは、３種類の詩脚分割を試みていることを示している。二つ目のブロックの韻律表示に現れている ' ' は、この pada の中で二短母音を一長母音に変換した処理をしたことを示している（この変換処理については文献［１］を参照）。第一半詩偈と同じように解析結果を吟味すれば、当該半詩偈では第一又は第二ブロックのようにパーダが分割される可能性が高いことがわかる。これらの結果を基にして言語学者がパーダ分割について検討すればよい。この手法は、パーダ分割を明示する点で、パターンマッチング法に比して優れている。 3.2．詩脚の正順索引作成ツールと逆順索引作成ツール前半に⑴正順詩脚索引について解説し、後半で⑵逆順索引作成について説明する。 ⑴　詩脚の正順索引作成ツール（プログラム名：SktVeSerPadaIndex1.jar　表５参照）このプログラムでは、各詩脚の特定を厳密に判定するので、入力テキストは韻文のテキスト形式に完全に合致する必要がある。テキスト形式に漏れ等があるときはその段階で計算を停止する。最初に、入力テキストに何らかのエラーがある場合の処理について述べる。殆どの場合入力テキストにエラーがあるので、１回目の計算で結果を得るのは無理である。ついで、入力ファイルにエラーが無くなった後の処理について記載する。入力テキストに何らかのエラーがある場合識別記号にエラーがある場合を例に取り説明する。図６に、プログラム始動のためのダイアログボックス、エラーメッセージボックス、入力テキストファイル例、エラー情報を明示するファイル結果、をまとめて示している。この入力テキストは韻文を示しているが、数字の010022番の行の最後に //2// の詩偈識別記号が抜けている。韻文は詩偈の識別マークとして行末に / 又は //2// の付加情報が不可欠である。この情報が抜けている場合、プログラムはその段階で停止する。右下のファイルには実際の入力テキストをそのままコピー表示しており、プログラムが停止した行の情報を最下行に表示している（このファイルは本来出力結果のセーブ用ファイルである）。この最後の行を、韻律テキストフォーマット規約（図１）と参照比較することにより、どの様なエラーによりプログラムが停止したのかを判定できる。このテキストエラーを直して、再度プログラムを実行させる。テキストのフォーマットにエラーがなくなると、最後の終了ダイアログボックス（図４の下の図参照）が表示される。その結果、入力テキスト情報記述の後に、詩脚索引の計算結果が書かれた出力ファイルが得られる。この入力テキスト情報は以下の計算

(12)

で不用であるので、適当なワープロ等を使って削除して、詩脚索引情報のみを含んでいるファイル（図７の左図参照）を作成する。次いで、以下の処理をする。入力エラーが無くなった後の処理の段階を終了した後で、ページ情報等を整理するプログラム（プログラム名： SktVeSerPadaIndexLine2.jar 表５参照）を走らせると、図８のダイアログボックスが現れる。その入力ファイルは、前の結果得られたファイル（図７の左側の結果）であ図６　入力テキストにエラーがあるときの実行例　　　（プログラム名：SktNeuroMetreAnalNo1.jar）図７　正順詩脚索引プログラムの出力結果　　　（左図：SktVeSerPadaIndex1.jar、右図：SktVeSerPadaIndexLine2.jar）

(13)

る。出力ファイルを適当に決めて、Run ボタンをクリックする。その結果、図７の右側の最終結果が得られる（当然のこととして表示用に Pali96フォントを指定する）。 ⑵　詩脚の逆順索引作成ツール（プログラム名： SktVeRevPadaIndex1. jar、SktVeRevPadaIndexLine2.jar、表５参照）逆順詩脚索引も正順索引と同じようにして作成できるので、その使用法についての説明を省略するが、出力結果図９についてコメントする。図から分かるように、詩脚データ部分については後ろ揃えをしており、詩脚番号情報等については左揃えをしている。これらの出力データにはタブ設定して出力しているので、適当なワープロを使って図のようにタブ設定（図の最上部のマーク参照）をすれば、きれいな形で表示できる。当然 Pali96フォントを指定する。 3.3．韻文テキストの正順語彙索引作成ツール（プログラム名：Sk- tVeSerWordIndex1.jar、Skt-VeSerWordIndexLine2.jar、表５参照）正順語彙索引の作成には、２種類のツールを使って、殆どのエラーを除去したテキストを入力ファイルにして最終結果を出力する。それらのダイアログボックスを図10に示す。これらのダイアログボックスの入出力ファイルの関連は図より読み取ることが出来るので、注意されたい。又、各ツールを走らせることにより得られる結果を図11に示している。各図９　逆順詩脚索引プログラムの出力結果　　　（プログラム名：SktVeRevPadaIndex1. jar、SktVeRevPadaIndexLine2.jar）図８　詩脚の正順索引ツール（ページ情報等の整理用）のダイアログボックス（プログラム名：SktVeSerPadaIndexLine2.jar）

(14)

ツールの使用方法等は詩脚索引作成ツールと同じであるので、その説明を省略する。また、当該テキストを使った語彙の逆順索引作成も殆ど同じようにして出来るので、その説明も省略する。但し、最終結果の単語出現情報表示（図11）については注意されたい。テキスト作成の項で説明したページ情報データ“§［1］8.”から“［1］8.”等を抜き出して、単語の出現位置表示に使用している。つまり単語の識別情報として必要な情報を“§”の後に付加すればよい。

４．散文からなるテキストの解析　－語彙索引作成のみ－（正順索引

　作成プログラム名：SktPrSerWordIndex1.jar、SktPrSerWordIndex

　Line2.jar、SktVeRevWordIndexMerge2.ja、表５参照）

主に散文からなる大量のテキスト、例えばジャータカは全６冊からなり、各分冊は数百 Kb の容量がある。これらをまとめて一度に索引を作成するのでは、テキストの準備・構成に手間取ることとなる。それで、我々は分冊毎に索引を作成しエラーをチェック／除去した後で、一冊の索引にまとめることにした。それゆえ、最後の合本操作のためのツールを含めて都合３つの索引作成ツールを作成した。その際の入力テキ図10　韻文テキストの正順語彙作成ツールのダイアログボックス（上図：SktVeSerWordIndex1.jar、下図：SktVeSerWordIndexLine2. jar）図11　韻文テキストの正順語彙作成ツールの出力結果（左図： SktVeSeWordIndex1.jar、右図： SktVeSerPadaIndexLine2.jar）

(15)

ストは第2.3節で説明した散文形式である。下記の説明で、既に説明した事項についての説明（例えばファイル名指定法等）を省略する。正順語彙索引作成プログラム用の３つのダイアログボックス形式の実行画面を図12に示す。これまでと唯一違うのは、第１のダイアログボックスの“… Volume No…”のボックスである。これには、索引作成に使用したテキストの巻番号をギリシャ数字（例えば、 “Ⅱ”）と入れればよい。また、各ツールを使用して得られた出力結果をまとめて図13に示した。左側２つのファイルはこれまで説明してきた他のツールと同じであるので、容易に理解できるであろう。第１のファイルでは上記の巻番号が記載されていることが分かるであろう。第３番目の結果は、合本作成プログラムを使用して作成した合本結果の例を示している。このプログラムのダイアログボックスから分かるように、合本されるファイル名２つとその結果を保存するファイル名の入力が必要である。数冊のテキストの索引を合本したいときには、必要回数だけこのプログラムを使用すればよい。逆順語彙索引作成プログラムの使用法は正順語彙索引作成と同じであるので、その説明を割愛する。最終結果の出力ファイルではタブ設定しているので、図９（逆順詩脚索引）と同じく、適当なワープロを使ってタブ設定をすればきれいな形で表示できることを注意しておく。図12　散文テキストの正順語彙作成ツールのダイアログボックス（上図：SktPrSerWord-Index1.jar、中図：SktPrSeWordIndexLine2. jar、下図：SktPrSerWordIndexMerge3.jar）

(16)

散文テキストには種々の理由で空白行が現れるが、その際の注意事項について説明する。散文テキストの語彙索引作成においては、行番号は自動的に判定される。その空白行に１個でもスペースキーが入っている場合には、我々のプログラム処理では行数にカウントされ、それ以降の行数に１加算されることになる。一方、その空白行に改行キーのみがある場合には行数数にカウントされない。従って、印刷した場合の空白行が改行キーのみであるかどうかは、ワープロ等における非表示文字の表示コマンド等を使って確認する必要がある。

５．討議

本論で指摘したように、我々の開発した解析ツールの入出力ファイルは全て特殊フォント Pali96に準拠している。しかし、ウインドウズ XP では特殊フォントを簡便に入力できず、入力用テキストファイル作成が極めて困難である。又、出力ファイルの図13　散文テキストの正順語彙作成ツールの出力結果（左図：SktPrSerWordIndex1.jar、中図： SktPrSeWordIndexLine2.jar、右図：SktPrSerWordIndexMerge3.jar）

(17)

表示についても同じ困難がある。その対策のために、我々はエディタEdisan5.0を開発した。このエディタは特殊フォント Pali96のキー入力法に強く依存している。最近このフォントに変更を加えた（第２節参照）ので、その変更を取り込むように改良版エディタEdisan5.5を作成中である。Edisan5.5を完成次第我々のホームページに掲載する予定である。第３、４節ではサンスクリット語テキストを使用した解析（表５参照）について記載したが、パーリ語、アルダ・マガダ語テキストについても同等のツールを準備している。パーリ語、アルダ・マガダ語解析プログラムを、表５のプログラム名と類似の表記法で整理している。つまり、SktNeuroMetreAnalNo0.jar、等で“Skt”を“Pali”、 “Aldg”で置き換えると、それぞれパーリ語、アルダ・マガダ語用の解析プログラム名となる。第3.1小節ではニューロ法による韻律解析について記載したが、パターンマッチング法による韻律解析について追加記述をする。この解析法においても、他のツールに対する改良策と同様に、ツール実行時エラーの処理を組み込んでいる（第3.2小節参照）。このプログラムでは、１つの入力ファイルと２つの出力ファイルを使用している。出力ファイルの２番目のものにはプログラムに入力したテキスト情報をそのまま記載している。もし、実行時エラーが発生した場合には、このファイルを参照することにより、エラーの発生箇所を特定でき、その発生源を除去できる。なお、我々の開発したツールはウインドウズVista、windows7で動作することを確認している。謝辞本研究は2011年度日本学術振興会・科学研究費補助金、基盤研究（B）（No.23320014）の助成の下に遂行したことを付記し、感謝致します。参考文献等

［１］ Y. Ousaka, Automatic Analysis of the Canon in Middle Indo-Aryan by Personal Com-puter II：in both Japanese and English, with Jar Files and Their Java Programs by Java for Macintosh OSX, Windows XP, and Linux on CD-ROM, Philologica Asiatica, Mono-graph Series 21（2005）, 85p.

解析のアルゴリズムについては下記の冊子及び引用文献を参照のこと。

Automatic Analysis of the Canon in Middle Indo-Aryan by Personal Computer with Ob-ject Files and Their Programs for Macintosh and Windows OS on CD-ROM, Philologica Asiatica, Monograph Series 19（2002）, 86p.

(18)

［２］ Y. Ousaka, Metre Analysis in Middle Indo-Aryan Based on New Combined Method of Neural Network and Discriminant Analysis, Philologica Asiatica, Monograph Series 26 （2010）, 45p.

中央学術研究所紀要 第41号 035笠松直・西康友・逢坂雄美「中期インド・アーリヤ語聖典のパーソナルコンピュータによる自動解析Ⅲ」

パーソナルコンピュータによる自動解析Ⅲ

―― ジャバによる実行形式 Jar ファイル ――

笠 松 直

西 康 友

坂 雄 美

１．序論

２．フォントの特性とテキスト

形式

３．主として韻文からなるテキスト解析

４．散文からなるテキストの解析 －語彙索引作成のみ－（正順索引

作成プログラム名：SktPrSerWordIndex1.jar、SktPrSerWordIndex

Line2.jar、SktVeRevWordIndexMerge2.ja、表５参照）

５．討議

中央学術研究所紀要　第41号 035笠松直・西康友・逢坂雄美「中期インド・アーリヤ語聖典のパーソナルコンピュータによる自動解析Ⅲ」

笠松直

西康友

坂雄美

　形式

４．散文からなるテキストの解析　－語彙索引作成のみ－（正順索引

　作成プログラム名：SktPrSerWordIndex1.jar、SktPrSerWordIndex

　Line2.jar、SktVeRevWordIndexMerge2.ja、表５参照）