• 検索結果がありません。

ψ φ

φ

 季大会予稿集調日本語学会)

山下達夫(2000)「用語解説(Suffix Aray>」(「人口知能学会  論文誌』VoL15 No.16,}142頁)

82 [第1部 設甜

命一〇        や        ○        ←        ゆ        や        や        ぐ        ゆ        ゆ        ウ        φ        ◇        や        や        ゆ        ◇

防聯 祓訂]

構造化テキストを直接利用するアプリケーション

〜『プワズム』と『たんぽぽis〜

       小木曽智信

翻はじめ1こ

 『太陽コーパスgにはXMLでSE述した『太陽xの構造化テキ ストを直接利用するアプリケーションとして,変換・情報抽出騰 アプリケーション『プリズム』と各種のXSLTスタイルシート,

そして検索用アプリケーションVたんぽぽ』が収録されている。

いずれも簡易なプPグラム言藷で記述されたものなので,利誉者 側で手を加えて利用することもできるようになっている。

 XSLTスタイルシーートとは, XML文書(XMLで記述された構 造化テキスト)の形式を変換するための規則を記述した簡単なプ Wグラムのようなものである(注三)。『プリズムsを使って『太

陽2のXML文書に各種のXSLTスタイルシートを組み合わせる

ことによって,構造化テキストを他の形式に変換したり,そこか ら必要な情報だけを抜き出したりすることが可能になる。

 検索用の『たんぽぽsは,『ひまわり』とは違って構造化テキ ストを直接検索するプUグラムであるため,検索に時間がかかる ものの,フリガナを本文と見なしたり,踊り字を展開したりとい った小照iりのきく検索が可能になっている。

圏 利用のための条件と注意事項

 アプリケーションはどちらも工nternet Explorer 6以降がイン ストールされたWindQws環境で動作する。快適に使うために必 要なパソコンの性能の目安は次の通りである。

◇         ◇         や         ◇         や一専         ,         ←         ?         や         ゆ         や         や         ◎         や         φ         命         や

{第1部 設計/ 83

φ        ◇        φ        φ        9        ◇一φ        や        ←        や        や        命        やpmψ        ◎        ◇        o{ウ        や        今

表1 『プリズム』『たんぼぼsの動作環境

OS Windows 98/Me/2000/XP

ブラウザ Internet Explorer 6以降

iXMLの処理にMSXML3以降を利用する)

CPU

Pentium(互換)プロセッサ・300MHz以.ヒ

メモリ

64MB以上

モニタ

256色以上,800x600以上の解像度

 『プリズムsと『たんぽぽsはインストール作業を行う必要は なく,cr)一ROM上でそのまま利用することができるため,ハー

ドディスクの空きは特に必要としない。ただし,データとともに ハードディスクにコピーして使用したほうが動作は速くなる。

 この2つのアプリケーションは手軽に利用できるように

JavaScript (Jscript)とHTMLアプリケーション(HTA)と いうWeb関連技術を利用して作られている。ところが,一一部の ウイルス対策ソフトはファイル操作を行うHTA形式を一律に危 険なスクリプトとして判定するため,これらのアプリケーション も危険なものとして誤判定される場合がある。しかしウイルスな どの悪意あるコードが混入しているわけではない。

 なお,ここで紹介するアプリケーションは,いずれもテキスト エディタで開くことでソースを見ることができる。したがって,

これを改造して利用臨的にあったアプリケーションを作成するこ とも可能であるが,改造したものの再配布については著作権に関 する規定に従う必要がある。

形式変換と情報抽出

 ここでは駄陽コーパスg付属のXSLTスタイルシーートと,ス タイルシーートを用いて形式変換や情報抽出を簡単に行うためのア プリケーション「プリズムsについて説明する。

3.1 XSLTスタイルシ・・一・ 5

 『太陽コーパス2には表2に示すXSLTスタイルシートが収録 されている(表の丸付き数字は2.1.1,2.1.2における説明と対応

や         やbe十         φ         ◎         ◎         ,         φ         φ         や         十         ◎         や一←         や         ◎         ゆ一帝         や         ◇

84 [第1部 設計]

F        や        ◇        ←        ◇        ◎        ゆ        や        ←        や        φ        φ        φ        や        ◎        φ        φ        や        φ        や         レ

韻痘猟テ艇ストZ直1購1糠ヲbTフりフーシコン

している)。

表2 『太陽コーパス2付属スタイルシートー覧

本文一DHTM乱

tx2dhtm.xsl

Web閲覧用

iHTML> 本文一DHTML(行番号) tx2dh毛m2.xsl ②

本文一シンプルなHTML

tx2htmLxs1 形式変換 テキスト 本文一プレーンテキスト tx2text.xsl ④ iTXT> 本文一プレーンテキスト (行番号) tx2text2.xsl

本文一pLaTeX本文

tx21atex。xsI ⑥ 印届糊

iLaTeX) 本文一pLaTeX本文(行番号) tx21atex2。xs玉 ⑦ 外字一覧くコード順)HTML htm_gaili.xsl ⑧ 外字一覧(出現順)HTML htm−gallic.xsl

Web閲覧用

iHTML)

記事情報RTML

htm note.xsl   

注情報HTML

htm−kilLXS1 ⑫

情報撫駐

引用情報HTML

htm−quO宅.xsl

記事情報CSV htm note.xsl  一

⑪ 表形式

eキスト iCSV)

注情報CSV

htm−kili.xs1 ⑬ 引二士報CSV ht耽quot.xsl

HTML形式に変換して閲覧するための共通書式 i他のスタイルシートから呼び出す)

html mod。xsl  一 3.L3

関連したドキュメント