◇
一
や, や ゆ ψ や や や φ
◇ ゆ
← や や や
φ
季大会予稿集調日本語学会)
山下達夫(2000)「用語解説(Suffix Aray>」(「人口知能学会 論文誌』VoL15 No.16,}142頁)
82 [第1部 設甜
命一〇 や ○ ← ゆ や や ぐ ゆ ゆ ウ φ ◇ や や ゆ ◇
防聯 祓訂]
構造化テキストを直接利用するアプリケーション
〜『プワズム』と『たんぽぽis〜
小木曽智信
翻はじめ1こ
『太陽コーパスgにはXMLでSE述した『太陽xの構造化テキ ストを直接利用するアプリケーションとして,変換・情報抽出騰 アプリケーション『プリズム』と各種のXSLTスタイルシート,
そして検索用アプリケーションVたんぽぽ』が収録されている。
いずれも簡易なプPグラム言藷で記述されたものなので,利誉者 側で手を加えて利用することもできるようになっている。
XSLTスタイルシーートとは, XML文書(XMLで記述された構 造化テキスト)の形式を変換するための規則を記述した簡単なプ Wグラムのようなものである(注三)。『プリズムsを使って『太
陽2のXML文書に各種のXSLTスタイルシートを組み合わせる
ことによって,構造化テキストを他の形式に変換したり,そこか ら必要な情報だけを抜き出したりすることが可能になる。検索用の『たんぽぽsは,『ひまわり』とは違って構造化テキ ストを直接検索するプUグラムであるため,検索に時間がかかる ものの,フリガナを本文と見なしたり,踊り字を展開したりとい った小照iりのきく検索が可能になっている。
圏 利用のための条件と注意事項
アプリケーションはどちらも工nternet Explorer 6以降がイン ストールされたWindQws環境で動作する。快適に使うために必 要なパソコンの性能の目安は次の通りである。
◇ ◇ や ◇ や一専 , ← ? や ゆ や や ◎ や φ 命 や
{第1部 設計/ 83
φ ◇ φ φ 9 ◇一φ や ← や や 命 やpmψ ◎ ◇ o{ウ や 今
表1 『プリズム』『たんぼぼsの動作環境
OS Windows 98/Me/2000/XP
ブラウザ Internet Explorer 6以降
iXMLの処理にMSXML3以降を利用する)
CPU
Pentium(互換)プロセッサ・300MHz以.ヒメモリ
64MB以上
モニタ
256色以上,800x600以上の解像度
『プリズムsと『たんぽぽsはインストール作業を行う必要は なく,cr)一ROM上でそのまま利用することができるため,ハー
ドディスクの空きは特に必要としない。ただし,データとともに ハードディスクにコピーして使用したほうが動作は速くなる。
この2つのアプリケーションは手軽に利用できるように
JavaScript (Jscript)とHTMLアプリケーション(HTA)と いうWeb関連技術を利用して作られている。ところが,一一部の ウイルス対策ソフトはファイル操作を行うHTA形式を一律に危 険なスクリプトとして判定するため,これらのアプリケーション も危険なものとして誤判定される場合がある。しかしウイルスな どの悪意あるコードが混入しているわけではない。なお,ここで紹介するアプリケーションは,いずれもテキスト エディタで開くことでソースを見ることができる。したがって,
これを改造して利用臨的にあったアプリケーションを作成するこ とも可能であるが,改造したものの再配布については著作権に関 する規定に従う必要がある。
躍 形式変換と情報抽出
ここでは駄陽コーパスg付属のXSLTスタイルシーートと,ス タイルシーートを用いて形式変換や情報抽出を簡単に行うためのア プリケーション「プリズムsについて説明する。
3.1 XSLTスタイルシ・・一・ 5
『太陽コーパス2には表2に示すXSLTスタイルシートが収録 されている(表の丸付き数字は2.1.1,2.1.2における説明と対応
や やbe十 φ ◎ ◎ , φ φ や 十 ◎ や一← や ◎ ゆ一帝 や ◇
84 [第1部 設計]
F や ◇ ← ◇ ◎ ゆ や ← や φ φ φ や ◎ φ φ や φ や レ
韻痘猟テ艇ストZ直1購1糠ヲbTフりフーシコン
している)。
表2 『太陽コーパス2付属スタイルシートー覧
本文一DHTM乱
tx2dhtm.xsl①
Web閲覧用
iHTML> 本文一DHTML(行番号) tx2dh毛m2.xsl ②
本文一シンプルなHTML
tx2htmLxs1 ③ 形式変換 テキスト 本文一プレーンテキスト tx2text.xsl ④ iTXT> 本文一プレーンテキスト (行番号) tx2text2.xsl ⑤本文一pLaTeX本文
tx21atex。xsI ⑥ 印届糊iLaTeX) 本文一pLaTeX本文(行番号) tx21atex2。xs玉 ⑦ 外字一覧くコード順)HTML htm_gaili.xsl ⑧ 外字一覧(出現順)HTML htm−gallic.xsl ⑨
Web閲覧用
iHTML)
記事情報RTML
htm note.xsl⑩
注情報HTML
htm−kilLXS1 ⑫情報撫駐
引用情報HTML
htm−quO宅.xsl⑭
記事情報CSV htm note.xsl 一
⑪ 表形式
eキスト iCSV)
注情報CSV
htm−kili.xs1 ⑬ 引二士報CSV ht耽quot.xsl⑮
HTML形式に変換して閲覧するための共通書式 i他のスタイルシートから呼び出す)
html mod。xsl 一 3.L3