• 検索結果がありません。

中央学術研究所紀要 第41号 035笠松直・西康友・逢坂雄美「中期インド・アーリヤ語聖典のパーソナルコンピュータによる自動解析Ⅲ」

N/A
N/A
Protected

Academic year: 2021

シェア "中央学術研究所紀要 第41号 035笠松直・西康友・逢坂雄美「中期インド・アーリヤ語聖典のパーソナルコンピュータによる自動解析Ⅲ」"

Copied!
18
0
0

読み込み中.... (全文を見る)

全文

(1)

 これまで我々はJavaを用いて、中期インド・アーリヤ語(パーリ、アルダ・マガダ) 及びサンスクリットの諸語の古文献を系統的に解析できるツールを構築してきた。最 近、従来のツールに実行時エラーの処理を組み込んでより使い易く改良した。これら のツールはマッキントッシュOSX、ウインドウズXP、リナックスの3つの異なるプラ ットフォーム上で動作する。我々の解析システムはフォント、エディタ、解析ツール (テキストデータ、韻律解析、索引作成)の3部からなる。これらの解析システムは全 て下記ホームページにて公開している(http://hirose.sendai-nct.ac.jp/~ousaka)。独自の特 殊フォント系 Pali96(通常のローマ字フォント+拡張アスキーコード上の特殊フォン トからなる)をもとに作成したテキストデータを入力ファイルとしてこの計算機リ ソースを使用することにより、韻律解析・詩脚索引作成・語彙索引作成が可能となる。 たとえば詩脚索引作成には、各詩偈を手作業で詩脚に分解する必要があるが、韻律解 析結果の援用により大幅にその作業を軽減できる。これらのツールを有機的に使用す

パーソナルコンピュータによる自動解析Ⅲ

―― ジャバによる実行形式 Jar ファイル ――

笠 松   直

西   康 友

 坂 雄 美

1.序論 2.フォントの特性と2つのテキスト形式  2.1.フォントの特性  2.2.主として韻文からなるテキスト形式  2.3.主として散文からなるテキスト形式 3.主として韻文から成るテキスト解析  3.1.ニューロ法による韻律解析ツール  3.2.詩脚の正順索引作成ツールと逆順索引作成ツール  3.3.正順語彙索引作成ツール 4.散文からなるテキストの解析 −語彙索引作成− 5.討議

(2)

ることで、当該古文献研究をより一層効果的に推進できる。本論文では、最初に解析 に使用されるテキスト形式について議論し、次いで韻文主体のテキストに適用可能な ツールの種類とその活用法について述べ、最後に散文主体のテキストについても同じ 議論を展開した。この論文展開によりツールの全体構成を理解して効率的に活用でき るようになると期待される。

1.序論

 我々の解析ツールの基盤は、フォント、エディタ、解析ツール(テキストデータ、 韻律解析、索引作成)からなる。解析ツールはインド学者自身がその使用に抵抗のな いようにダイアログ形式にしてあり、Java が使用できる環境で問題なく動作する。こ の研究については、中央学術研究所から刊行されているPhilologoca Asiatica Seriesの第 21巻等で発表している[1]。当該研究ではインド学者自身が解析ツールを使用できる ように入出力ファイルの指定法等を工夫していたが、実行時エラー明示等は殆どなさ れていなかったために、その使い勝手は極めて悪いものであった。実行時エラーメッ セージ等を表示することで、解析ツールの使い勝手は格段に改善した。本論文では、 実例に沿って詳細に解説する。  本ツール使用に当たってまず注意すべきことは、入力テキストの書式である。もし、 書式が所定の形式に違反している場合には、各プログラムはその形式違反の位置で解 析を停止するようになっている。この点、従前のプログラムではプログラム停止に関 する何らのメッセージも出さなかったので、使用者はその停止の理由を把握し、その 対策を取ることが困難であった。今回は読み込みに関するエラーが発生した際に、そ の発生箇所を特定できる情報を出力ファイルに書き込むように改善した。  解析の観点から見ると、テキストは二つの形式に分かれる。一つは主として韻文か らなるテキストであり、もう一つは主として散文からなるものである。  主として韻文からなるテキスト解析には次のツールを準備している:⑴ニューロ法 (ニューラルネットワーク)による韻律解析ツール;⑵パターンマッチングを活用した 韻律解析ツール;⑶正順詩脚索引作成ツール;⑷逆順詩脚作成ツール;⑸正順語彙作 成ツール;⑹逆順語彙作成ツール。  主として散文からなるテキスト解析には次のツールを準備している:⑺正順語彙作 成ツール;⑻逆順語彙作成ツール。  上記ツールはアルダ・マガダ語、パーリ語とサンスクリット語に対して適用できる。 各言語の解析アルゴリズムは殆ど同じであり[1]、基準となるアルファベットを変更 するだけで各ツールを作成できる。解析ツールは、我々の作成した特殊フォントPali96. ttfに準拠している。第2節ではこのフォントのまとめと、これを使用して作成する2

(3)

種類のテキスト形式について記述する。

 ここで本解析ツール活用の環境について簡単にまとめておく。まず特殊フォント Pali96.ttfをインストールする必要がある。このフォントは我々のホームページ(http:// hirose.sendai-nct.ac.jp/~ousaka/EngH.html)より入手出来る。マッキントッシュOSXでは、 Pali96.ttf フォントをアプリケーション/Font Book.app フォルダにドラッグ&ドロップ することでインストールできる。ウインドウズ XP では Pali96.ttf を C:¥WINDOWS¥ Fontsフォルダにドラッグ&ドロップすることでインストールできる。リナックスにつ いては相当程度の情報関連知識を必要とするので、その使用法等についてはここでは 割愛する。  次に JAVA環境を構築する必要がある。マッキントッシュでは、JAVAはプリインス トールされているので、その手続は不用である。ウインドウズについては、インター ネットで「JAVA 環境構築」等のキーワードで検索し、当該環境構築に必要なサイト にアクセスし、その指示に従って処理されたい。  特殊フォントを簡単に入力できるエディタの存在は本解析ツール使用に当たって必 要不可欠な事項である。なぜなら、解析ツールは、特殊フォントの1バイトコードを 正確に保持したプレーンテキスト形式(いわゆる *.txt形式、又はMacRoman形式ファ イル)の入力ファイルに適用することを前提にしているからである。  マッキントッシュではファイル作成に必要なエディタとして、バンドルされた TextEdit の他、Jedit X または Nisus Writer Pro 等がある。マッキントッシュでは、殆ど のワープロソフトを使って、簡単に特殊フォントをキー入力できる。一方、ウインド ウズXPではMS Word等で、特殊フォントのショートカットキー入力法を指定できる。 しかし、MS Word等で作成されたファイルはヘッダー情報のために、解析ツール用の 入力ファイルとしては使用できない。このため簡素なエディタ Edisan5.0を開発した。 このエディタでは、特殊フォントに対するショートカットキーが定義されており、特 殊フォントを簡単に入力できる。このエディタはJAR(Java Archive Runnable)ファイ ルとして作成されており、Java 環境がインストールされた各プラットフォームで同等 に動作する。この操作法は通常のエディタと殆ど同じである。ただし市販のエディタ に比べてその機能が制限されている[1]。  以下、第2節では、フォントの特性と2つのテキスト形式について述べる。第3節 では、主として韻文からなるテキストの解析について議論する。第4節では、主とし て散文からなるテキスト解析について述べる。最後に、第5節では問題点等について 議論する。

(4)

2.フォントの特性とテキスト

 形式

 まずフォントの特性について記述 し、次いで我々の解析ツールで採用す るテキスト形式について記述する。計 算機解析は、我々の作成したフォント Pali96.ttf に基づくローマ字化テキスト のみを入力ファイルとして処理する。 従って当該テキストの正確な作成が計 算機解析の信頼度を規定する重要な因 子となる。我々は、主として韻文から なるテキストと主として散文からなる テキストを解析するが、韻文テキスト については韻律解析・詩脚索引作成・ 語彙索引作成をする。散文のテキスト は語彙索引作成に使用される。各解析 ツールには、サンプルテキストを添付 しているので、参考にされたい。 2.1.フォントの特性  アルダ・マガダ、パーリ、サンスク リットの諸語のアルファベットを表 1、2、3にまとめてある。表4には キー入力とアスキーコードをまとめて ある。特殊文字“ ā ”は Option(ウイ ンドウズ PC では Alt)key と正規の文 字“ a ”を同時に押すことによりタイ プできる。同様にして他の特殊文字 “m4”、“kh”等を打つことができる。特 殊文字“ ī ”は Option key と正規の文 字“ i ”を同時に押した後で引続き文 字“ i ”を打つことによりタイプでき る。同様にして“ ū ”を打つことがで きる。最後に、特殊文字“t4h”は3つ 表1 アルダ・マガダ語アルファベット 表2 パーリ語アルファベット 表3 サンスクリット語アルファベット

(5)

のキー、Option、Shift key、正規の文字 “y”を同時に押すことによりタイプでき る。  表4の最後9個の文字のうち、4個の 特殊記号( / 、// 、| 、’)は解析のための 入力テキスト作成に重要であるので注意 しておく(残り5個は韻律解析の出力に 使用されるのみなので、その説明を省略 する)。前の3個は韻文解析用テキストで 使用され(第2.2小節参照)、最後の1個 は prodelison 処理用の記号として使用さ れる。  これまでの Pali96フォントに対して以 下の追加・変更を加えたので注意してお く。サンスクリット語では、母音の3文 字(r 99、r999、l 99)の字形を通常使用される形に変更した。2文字“ r 99、r999”は従来のフォ ントの字形を変えただけであり、他の情報(キー入力、アスキーコード)はそのまま である。最後の1文字“ l 99”は新たに追加してあり、パーリ語の子音“ l49”と区別す ることとした。 2.2.主として韻文からなるテキスト  我々は、校正の便宜のためにも、出来るだけ原本のテキストスタイルを残すよう考 慮した。但し、自動解析に不可欠な情報を各行に付加する。韻律解析プログラムでは、 この付加情報に準拠して韻文と散文を自動的に判定し、韻文の部分だけの韻律解析を 行う。初めて作成したテキストには、付加情報が欠落しがちであるので、慎重にその 情報付加をチェックされたい。  図1を例に取り、韻文テキストの形式について述べる。 a .まず一行目にセクションマーク“§”と適当な識別子(この例では詩脚索引の出 現箇所引用に必要な記号[1]8.)を付加し、その後に特別な終了記号“ / ”(表4に 記載している)を付ける。当該行の特別終了記号後にある残りのデータは計算解析 では無視される。“§”は1バイトコード(半角英字モード)でのセクションマーク であり、マッキントッシュでは option キーと数字の6を同時に押すことにより入力 できる。 b .次の行は散文であり、行末には必ず特別に用意された終了記号、//*1// を付ける。 2個の“ // ”中の記号*と数字は、この行が散文であることと、この行が現れたテ 表4 Pali96フォントの文字、キー入力とアス キーコード

(6)

キスト内の行番号が1であることを表す。なお、特別に用意した記号“ // ”につい ては、表4を参照のこと。これらの特殊記号は、キーボードに準備されている通常 の“/”(スラッシュ)では代用できないことに留意されたい。 c .番号 //*9// の散文に続く2行に示されているように、韻文は基本的にテキスト2 行分で1詩偈を構成する。1行目と2行目、つまり第1半詩偈と第2半詩偈の終わ りに特殊記号“ / ”と“ // ”を各々付ける。第2半詩偈の終わりの記号“ // ”で挟 まれた数字は、詩偈の通し番号を表す。もし、1詩偈が3行で構成されているとき には、第1、2行の行末に特殊記号“ / ”を付加し、第3行の行末には“ // ”を付 せばよい。 2.3.主として散文からなるテキスト  以下では、図2を例に取り、散文テキストの作成形式について述べる。このテキス ト形態は語彙の索引作成に使用する。  付加情報としては、テキストのページを明示するマークが必要である。これには、 “§”をページの表示情報として採用した。たとえば“§1”は第1ページ目のテキス トであることを示す。韻文を主とするテキストと異なり、散文テキストでは“§”だ けが付加情報として必要である。プログラムでは、これらの情報を基にして、行の自 動カウントを行う。  なお、行末のハイフンの処置については特別の注意を要する。プログラムでは行中 のハイフンを複合語の切れ目として使用している。複合語を構成する語は、それぞれ 別個の語として処理される。従ってもし複合語を1語として取り扱いたい場合には、 図1 韻文テキストのサンプル

(7)

このハイフンを消去すればよい。一方、行末のものはただ単に単語が繋がっているこ とを示している(通常の行末ハイフン処理)だけであり、複合語としての処理をしな いようにしている。プログラムでは、この2種類のハイフンを識別できないので、複 合語の切れ目が行末にある場合には、そのハイフンを人手により除去する必要がある。 最後にハイフンに関して、もう一つの注意事項がある。プログラム処理上、ページの 最後の行の行末にハイフンを置くことを禁止している。従って、このような場合には、 手作業でハイフンを外す処理、つまり次ページの最初の語を当該ページの最後にペー ストする必要がある。

3.主として韻文からなるテキスト解析

 我々の構築した言語処理システム、つまり韻律解析ツールと索引作成ツールとは、 アルダ・マガダ語、パーリ語とサンスクリット語の文献に対して適用可能である。各 言語のツールでは基準とするアルファベットが異なっている(表1、2、3参照)が、 言語毎にプログラムに取り込んでいる。従って、各テキストの言語と目的とする解析 に応じて適切なツール(表5参照)を選択して適用することにより、目的とする解析 結果を得ることが出来る。表5では、サンスクリット語テキストの解析ツールについ て記載している。他の言語、パーリ語、アルダ・マガダ語についても類似のツールを 整備している。  第2節の形式に準拠した電子化テキスト作成では、不可避的にミスタイプ等に起因 する様々な誤植が入ってくる。その間違いを直して正確な電子化テキストを作成する 図2 散文テキストのサンプル

(8)

ことが、計算機解析の精度を高めるために重要である。最初に人手により電子化テキ ストをチェックしてある程度ミスを修正した後で、以下の一連の計算機解析を実行す ることにより、限りなくミスタイプ等のエラーを軽減できる。  ①  (第3.1小節参照)最初に、2種類の韻律解析(ニューロ解析法とパターンマッ チング法)を実行する。入力エラー等がある場合には、通常、解析結果に異質な 韻律パターンが現れる。当該韻文を調べることで、エラーを効率的に発見できる。 手作業で詩偈を詩脚に分割することは相当煩雑であるが、この韻律解析結果を活 用することにより比較的簡単に分割出来る。詩脚の分割記号(表4の特殊記号の うち“ | ”を割り当てている)をテキストに入力しておくと、次の段階での詩脚 索引作成プログラムを実行できる。  ②  (第3.2小節参照)次に、前の段階で得られた詩脚分割記号付き電子化テキスト を入力ファイルとして解析ツールを使用することにより、正順詩脚索引と逆順詩 脚索引を作成できる。この解析結果を吟味することで、電子化テキストのエラー を発見できる。  ③  (第3.3小節参照)最後に、②の段階で得られた電子化テキストに正順語彙索引 作成ツールや逆順語彙索引作成ツールを適用することにより、語彙索引を作成で きる。これまでと同じく、得られた索引を言語学者が吟味することで、電子化テ キストのエラーを発見しやすくなる。  ①②③の一連の手順を繰り返し実行することにより、電子化テキストからミスタイ プ等を限りなく少なくすることができる。その結果、信頼性の高い解析結果を得るこ とができる。 表5 サンスクリット語テキストの解析ツール・プログラム名

(9)

 上記のことを考慮して、本節ではサンスクリット語テキストを使用して解析ツール の動作法①②③、及び解析結果について順に議論する。 3.1.ニューロ法による韻律解析ツール(プログラム名:SktNeuroMetreAnalNo1. jar)  韻律解析処理には2種類ある。パターンマッチング法については、既に philologica Asiatica第21巻等[1]にて議論しているので、もう一方のニューロ法による韻律解析 について議論する[2]。この解析処理のためのツールフォルダを図3に示す。このフ ォルダには入力テキストとともに、韻律解析に必要な基礎データ6個も含まれている。 最初に⑴このプログラムの走らせ方について述べ、次いで⑵計算結果の解説をする。 ⑴ プログラムの走らせ方  プログラムへの入力テキストファイ ルを1つ準備しておく。また、一つの 出力ファイルが必要である。❶始めに 実行形式ファイル SktNeuroMetreAnal-No1.jar をダブルクリックしてプログ ラムを走らせる。❷すると図4のダイ アログボックスが表示される。入力テ キストファイル名を直接入力するか、 又はInput Fileのボタンを押してフォル ダ中の適当なファイルを選択する。こ の場合、単にファイル名だけでは不十 分であり、属性としてのファイルディ レクトリ情報も必要であるので、Input File ボタンを押して、必要なファイル が存在するフォルダを指定して、完全 なファイル情報を入力した方がよい。 ❸2番目の欄に出力用のファイル名を 入力する。この場合にも入力テキスト ファイルと同じくファイルディレクト リ情報も必要であるので、前の段階で 指定した入力ファイル情報を一番目の ダイアログボックスからコピーし、そ の後ファイル名だけをこのファイル名 に替えればよい。❹その後、韻律解析 図4 ニューロ法による韻律解析プログラムのダ イアログボックスと終了ダイアログボック ス(プログラム名:SktNeuroMetreAnalNo1. jar) 図3 ニューロ法による韻律解析ツールフォルダ

(10)

用の学習済みデータファイルPMNeuroData69.txt(図3のフォルダ中にある)を選択す る。この場合も、そのファイルのディレクトリ情報も必要であるので、Select ボタン を押してそれを指定する。❺次いで、使用機種を選択する。❻最後に、Run ボタンを 押すとプログラムが自動的に走る。プログラムが終了すると、図4右下のメッセージ ボックスが表示されるので、OK のボタンを押せばよい。得られた出力結果を図5に 示す。出力ファイルは、MacRoman に準拠した1バイトコードが保持された形式のプ レーンテキストである。適当なワープロ(序論の議論参照)でファイルを開き、Pali96 フォントを指定することにより見易い形の結果を得ることが出来る。  なお、以下のプログラムにおいてもこのツールと同じく、入出力ファイルの指定に は、ファイル名だけでなく属性としてのファイルディレクトリ情報も必ず必要である ことを注意しておく。以下ではこの説明を省略する。 ⑵ 計算結果の解説  図5の上2段は第1半詩偈、下3段は第2半詩偈の解析結果を示している。出力結 果も入力ファイルと同様に、Pali96フォントで記述されている。この図では、タブ設 定機能の使用(図の最上部のタブ設定マーク参照。タブ設定情報は出力結果に組み込 まれている。)及び Pali96フォントの指定によって出力結果を見易い形にしている。  言語的に重要な情報(データ)は3つある。第一は点線の下に表記してある入力テ キスト、第二は“pada1=… pada2=…”の表記結果、第三は各ブロックの最後の行で ある。残りのデータは解析結果の正当性をチェックするための数値表示であるので、 言語学的には不用である。入力テキスト(第1データ)を解析した結果、各半詩偈は 第2のデータに示されるように分 割され、第3のデータのように分 類されることを示している。  第一半詩偈の解析結果に、2段 のブロック表示があるのは、二種 類の詩脚分割についてチェックし ていることを示している。2段目 のブロックにおける最後の行表示 を見ると、第1半詩偈を共にŚloka で分類できることを示している。 一方、1段目のブロックにおける 最後の行表示を見ると、“Arya1_2” と“None!”が現れている。“None!” の表示は、当該解析では pada2に 割り当てできる韻律名が何も無か 図5 ニューロ法による韻律解析結果例

(11)

ったことを示している。従って、第一半詩偈は Śloka に分類される可能性が高いこと を示している。  第二半詩偈について3段のブロック表示があるのは、3種類の詩脚分割を試みてい ることを示している。二つ目のブロックの韻律表示に現れている ' ' は、この pada の 中で二短母音を一長母音に変換した処理をしたことを示している(この変換処理につ いては文献[1]を参照)。第一半詩偈と同じように解析結果を吟味すれば、当該半詩 偈では第一又は第二ブロックのようにパーダが分割される可能性が高いことがわか る。  これらの結果を基にして言語学者がパーダ分割について検討すればよい。この手法 は、パーダ分割を明示する点で、パターンマッチング法に比して優れている。 3.2.詩脚の正順索引作成ツールと逆順索引作成ツール  前半に⑴正順詩脚索引について解説し、後半で⑵逆順索引作成について説明する。 ⑴ 詩脚の正順索引作成ツール(プログラム名:SktVeSerPadaIndex1.jar 表5参照)  このプログラムでは、各詩脚の特定を厳密に判定するので、入力テキストは韻文の テキスト形式に完全に合致する必要がある。テキスト形式に漏れ等があるときはその 段階で計算を停止する。最初に、 入力テキストに何らかのエラーがある場合の処理 について述べる。殆どの場合入力テキストにエラーがあるので、1回目の計算で結果 を得るのは無理である。ついで、 入力ファイルにエラーが無くなった後の処理につ いて記載する。  入力テキストに何らかのエラーがある場合  識別記号にエラーがある場合を例に取り説明する。図6に、プログラム始動のため のダイアログボックス、エラーメッセージボックス、入力テキストファイル例、エラー 情報を明示するファイル結果、をまとめて示している。この入力テキストは韻文を示 しているが、数字の010022番の行の最後に //2// の詩偈識別記号が抜けている。韻文は 詩偈の識別マークとして行末に / 又は //2// の付加情報が不可欠である。この情報が抜 けている場合、プログラムはその段階で停止する。右下のファイルには実際の入力テ キストをそのままコピー表示しており、プログラムが停止した行の情報を最下行に表 示している(このファイルは本来出力結果のセーブ用ファイルである)。この最後の行 を、韻律テキストフォーマット規約(図1)と参照比較することにより、どの様なエ ラーによりプログラムが停止したのかを判定できる。このテキストエラーを直して、 再度プログラムを実行させる。  テキストのフォーマットにエラーがなくなると、最後の終了ダイアログボックス(図 4の下の図参照)が表示される。その結果、入力テキスト情報記述の後に、詩脚索引 の計算結果が書かれた出力ファイルが得られる。この入力テキスト情報は以下の計算

(12)

で不用であるので、適当なワープロ等を使って削除して、詩脚索引情報のみを含んで いるファイル(図7の左図参照)を作成する。次いで、以下の処理をする。  入力エラーが無くなった後の処理   の段階を終了した後で、ページ情報等を整理するプログラム(プログラム名: SktVeSerPadaIndexLine2.jar 表5参照)を走らせると、図8のダイアログボックスが 現れる。その入力ファイルは、前の結果得られたファイル(図7の左側の結果)であ 図6 入力テキストにエラーがあるときの実行例    (プログラム名:SktNeuroMetreAnalNo1.jar) 図7 正順詩脚索引プログラムの出力結果    (左図:SktVeSerPadaIndex1.jar、右図:SktVeSerPadaIndexLine2.jar)

(13)

る。出力ファイルを適当に決めて、Run ボタンをクリックする。その結果、図 7の右側の最終結果が得られる(当然 のこととして表示用に Pali96フォント を指定する)。 ⑵ 詩脚の逆順索引作成ツール(プロ グ ラ ム 名 : SktVeRevPadaIndex1. jar、SktVeRevPadaIndexLine2.jar、 表5参照)  逆順詩脚索引も正順索引と同じよう にして作成できるので、その使用法に ついての説明を省略するが、出力結果 図9についてコメントする。図から分 かるように、詩脚データ部分について は後ろ揃えをしており、詩脚番号情報 等については左揃えをしている。これ らの出力データにはタブ設定して出力 しているので、適当なワープロを使っ て図のようにタブ設定(図の最上部の マーク参照)をすれば、きれいな形で 表示できる。当然 Pali96フォントを指 定する。 3.3.韻文テキストの正順語彙索引 作成ツール(プログラム名:Sk- tVeSerWordIndex1.jar、Skt-VeSerWordIndexLine2.jar、表5 参照)  正順語彙索引の作成には、2種類の ツールを使って、殆どのエラーを除去 したテキストを入力ファイルにして最 終結果を出力する。それらのダイアロ グボックスを図10に示す。これらのダ イアログボックスの入出力ファイルの関連は図より読み取ることが出来るので、注意 されたい。又、各ツールを走らせることにより得られる結果を図11に示している。各 図9 逆順詩脚索引プログラムの出力結果    (プログラム名:SktVeRevPadaIndex1. jar、SktVeRevPadaIndexLine2.jar) 図8 詩脚の正順索引ツール(ページ情報等の整 理用)のダイアログボックス(プログラム 名:SktVeSerPadaIndexLine2.jar)

(14)

ツールの使用方法等は詩脚索引作成ツールと同じであるので、その説明を省略する。  また、当該テキストを使った語彙の逆順索引作成も殆ど同じようにして出来るので、 その説明も省略する。  但し、最終結果の単語出現情報表示(図11)については注意されたい。テキスト作 成の項で説明したページ情報データ“§[1]8.”から“[1]8.”等を抜き出して、単語の 出現位置表示に使用している。つまり単語の識別情報として必要な情報を“§”の後 に付加すればよい。

4.散文からなるテキストの解析 -語彙索引作成のみ-(正順索引

 作成プログラム名:SktPrSerWordIndex1.jar、SktPrSerWordIndex

 Line2.jar、SktVeRevWordIndexMerge2.ja、表5参照)

 主に散文からなる大量のテキスト、例えばジャータカは全6冊からなり、各分冊は 数百 Kb の容量がある。これらをまとめて一度に索引を作成するのでは、テキストの 準備・構成に手間取ることとなる。それで、我々は分冊毎に索引を作成しエラーをチ ェック/除去した後で、一冊の索引にまとめることにした。それゆえ、最後の合本操 作のためのツールを含めて都合3つの索引作成ツールを作成した。その際の入力テキ 図10 韻 文 テ キ ス ト の 正 順 語 彙 作 成 ツールのダイアログボックス(上 図:SktVeSerWordIndex1.jar、下 図:SktVeSerWordIndexLine2. jar) 図11 韻文テキストの正順語彙作成ツールの出力結 果(左 図 : SktVeSeWordIndex1.jar、右 図 : SktVeSerPadaIndexLine2.jar)

(15)

ストは第2.3節で説明した散文形式で ある。下記の説明で、既に説明した事 項についての説明(例えばファイル名 指定法等)を省略する。  正順語彙索引作成プログラム用の3 つのダイアログボックス形式の実行画 面を図12に示す。これまでと唯一違う のは、第1のダイアログボックスの“… Volume No…”のボックスである。こ れには、索引作成に使用したテキスト の巻番号をギリシャ数字(例えば、 “Ⅱ”)と入れればよい。また、各ツー ルを使用して得られた出力結果をまと めて図13に示した。左側2つのファイ ルはこれまで説明してきた他のツール と同じであるので、容易に理解できる であろう。第1のファイルでは上記の 巻番号が記載されていることが分かる であろう。第3番目の結果は、合本作 成プログラムを使用して作成した合本 結果の例を示している。このプログラ ムのダイアログボックスから分かるよ うに、合本されるファイル名2つとそ の結果を保存するファイル名の入力が 必要である。数冊のテキストの索引を 合本したいときには、必要回数だけこ のプログラムを使用すればよい。  逆順語彙索引作成プログラムの使用 法は正順語彙索引作成と同じであるの で、その説明を割愛する。最終結果の 出力ファイルではタブ設定しているの で、図9(逆順詩脚索引)と同じく、 適当なワープロを使ってタブ設定をす ればきれいな形で表示できることを注 意しておく。 図12 散文テキストの正順語彙作成ツールのダ イアログボックス(上図:SktPrSerWord-Index1.jar、中図:SktPrSeWordIndexLine2. jar、下図:SktPrSerWordIndexMerge3.jar)

(16)

 散文テキストには種々の理由で空白行が現れるが、その際の注意事項について説明 する。散文テキストの語彙索引作成においては、行番号は自動的に判定される。その 空白行に1個でもスペースキーが入っている場合には、我々のプログラム処理では行 数にカウントされ、それ以降の行数に1加算されることになる。一方、その空白行に 改行キーのみがある場合には行数数にカウントされない。従って、印刷した場合の空 白行が改行キーのみであるかどうかは、ワープロ等における非表示文字の表示コマン ド等を使って確認する必要がある。

5.討議

 本論で指摘したように、我々の開発した解析ツールの入出力ファイルは全て特殊フ ォント Pali96に準拠している。しかし、ウインドウズ XP では特殊フォントを簡便に 入力できず、入力用テキストファイル作成が極めて困難である。又、出力ファイルの 図13 散文テキストの正順語彙作成ツールの出力結果(左図:SktPrSerWordIndex1.jar、中図: SktPrSeWordIndexLine2.jar、右図:SktPrSerWordIndexMerge3.jar)

(17)

表示についても同じ困難がある。その対策のために、我々はエディタEdisan5.0を開発 した。このエディタは特殊フォント Pali96のキー入力法に強く依存している。最近こ のフォントに変更を加えた(第2節参照)ので、その変更を取り込むように改良版エデ ィタEdisan5.5を作成中である。Edisan5.5を完成次第我々のホームページに掲載する予 定である。  第3、4節ではサンスクリット語テキストを使用した解析(表5参照)について記 載したが、パーリ語、アルダ・マガダ語テキストについても同等のツールを準備して いる。パーリ語、アルダ・マガダ語解析プログラムを、表5のプログラム名と類似の 表記法で整理している。つまり、SktNeuroMetreAnalNo0.jar、等で“Skt”を“Pali”、 “Aldg”で置き換えると、それぞれパーリ語、アルダ・マガダ語用の解析プログラム名 となる。  第3.1小節ではニューロ法による韻律解析について記載したが、パターンマッチング 法による韻律解析について追加記述をする。この解析法においても、他のツールに対 する改良策と同様に、ツール実行時エラーの処理を組み込んでいる(第3.2小節参照)。 このプログラムでは、1つの入力ファイルと2つの出力ファイルを使用している。出 力ファイルの2番目のものにはプログラムに入力したテキスト情報をそのまま記載し ている。もし、実行時エラーが発生した場合には、このファイルを参照することによ り、エラーの発生箇所を特定でき、その発生源を除去できる。  なお、我々の開発したツールはウインドウズVista、windows7で動作することを確認 している。 謝辞  本研究は2011年度日本学術振興会・科学研究費補助金、基盤研究(B)(No.23320014) の助成の下に遂行したことを付記し、感謝致します。 参考文献等

[1] Y. Ousaka, Automatic Analysis of the Canon in Middle Indo-Aryan by Personal Com-puter II:in both Japanese and English, with Jar Files and Their Java Programs by Java for Macintosh OSX, Windows XP, and Linux on CD-ROM, Philologica Asiatica, Mono-graph Series 21(2005), 85p.

   解析のアルゴリズムについては下記の冊子及び引用文献を参照のこと。

   Automatic Analysis of the Canon in Middle Indo-Aryan by Personal Computer with Ob-ject Files and Their Programs for Macintosh and Windows OS on CD-ROM, Philologica Asiatica, Monograph Series 19(2002), 86p.

(18)

[2] Y. Ousaka, Metre Analysis in Middle Indo-Aryan Based on New Combined Method of Neural Network and Discriminant Analysis, Philologica Asiatica, Monograph Series 26 (2010), 45p.

参照

関連したドキュメント

人口 10 万人あたりの寺院数がもっとも多いのが北陸 (161.8 ヶ寺) で、以下、甲信越 (112.9 ヶ寺) ・ 中国 (87.8 ヶ寺) ・東海 (82.3 ヶ寺) ・近畿 (80.0

雑誌名 金沢大学日本史学研究室紀要: Bulletin of the Department of Japanese History Faculty of Letters Kanazawa University.

The analysis presented in this article has been motivated by numerical studies obtained by the model both for the case of curve dynamics in the plane (see [8], and [10]), and for

The commutative case is treated in chapter I, where we recall the notions of a privileged exponent of a polynomial or a power series with respect to a convenient ordering,

In this diagram, there are the following objects: myFrame of the Frame class, myVal of the Validator class, factory of the VerifierFactory class, out of the PrintStream class,

We formulate Wolfe-type dual and Mond-Weir- type dual problems for our nonsmooth multiobjective problems and establish duality theorems for weak Pareto-optimal solutions

The hypothesis of Hawkins & Hattori 2006 does not predict the failure of the successive cyclic wh-movement like 13; the [uFoc*] feature in the left periphery of an embedded

knowledge and production of two types of Japanese VVCs, this paper examines the use of syntactic VVCs and lexical VVCs by English, Chinese, and Korean native speakers with