シェルスクリプトを活用した英語語彙分析プログラムの拡張
岩崎洋一
(人文学系)Extension of Computer Programs for English Vocabulary Analysis
Using Shell Script
IWASAKI Youichi
(Liberal Arts Division) Abstract: The author has proposed and developed computer programs which make it possible to analyze English corpus and to make word lists from those corpus. The purposes of this study were to develop a new computer program that measures the range of words used in different types of corpus, to improve the computer programs, which had been developed in the earlier study, in order to deal with corpus with part-of-speech (POS) tags and to measure the processing time to judge whether these programs were useful or not. In this study, two kinds of RANGE program were newly developed and six programs of the previous study were revised. Five programs out of six could be considered to be useful, however, one program was not sufficient and needed to take some measures.Keywords: computer programs, vocabulary analysis, shell script, corpus, range
1. はじめに
1950 年代後半,コンピュータを利用した外国語 教育はアメリカにおいてその研究が開始されたと 言 わ れ ( 田 崎 他 , 1995 )1), Computer-Assisted Instruction(CAI)と呼ばれた。その後,ICT 技術 の目覚ましい発展とともに,コンピュータは身近な ものとなり,外国語教育の分野でも広く取り入れら れるようになった。現在では,Computer Assisted Language Learning(CALL)や e ラーニング等と呼 ばれ,その研究や実践が広く行われている。 コンピュータを外国語教育で活用することの利 点は様々あるが,その一つにコーパスの利用が挙げ られる。コーパスとは,ある目的のために組織的に 集められた大量のテキストをコンピュータで処理 できるように電子化・整備したものであるが,コン ピュータ技術の発展や普及に伴い,英語教員や英語 の研究者が身近に扱うことのできるものとなって きた(望月他,2003)2)。 コーパスを利用することにより,コンピュータを 利用して英語語彙を分析することが可能となるが, 齊藤他(1998)3)は,コーパス利用者は利用者自身 がテキスト処理のプログラムを書くことを推奨し ている。また,英語語彙分析を行う上で最も初期段 階と言える語彙頻度表の作成について,その精密度 が最も粗い「表記語の頻度表」から「基底語の頻度 表」,「レンマの頻度表」,「語彙項目の頻度表」,そ して最も精密な「意味別語彙頻度表」の5段階に分 類し,それぞれの特徴や問題点を説明している。現 在のところ,コンピュータを用いて完全に見出し語 化(lemmatization)を自動化してレンマの頻度表 を作成できる目処はついておらず,多くの課題が残されていると言える。 筆者はこれまで英語コーパスを利用して語彙リ ストを作成,分析する 10 種類の語彙分析用プログ ラムや5種類の教材作成支援プログラム及び英語 コ ー パ ス の 語 彙 統 計 量 を 算 出 す る た め の コ ン ピュータ・プログラムを開発し(岩崎,2010;岩崎, 2011)4,5),英語教育を実践する中で活用してきた(岩 崎,2013)6)。そして,これらの実践を通して,複 数の語彙リストを比較し,それぞれの語がどの語彙 リストに含まれるかを示すレンジ(range)を算出 するプログラムの必要性を感じるようになった。レ ンジは,様々な分野の語彙リストを比較する際,そ れぞれの単語がどの語彙リストまたはいくつの語 彙リストに含まれるかを示す値であり,数値が大き ければ様々な分野で広く使用される単語であるこ とを示し,数値が小さければ特定の分野に特徴的に 使用される可能性のある単語であることを示す。本 研究では,先行研究で開発した英語語彙分析プログ ラム群にレンジを算出するプログラムを新たに加 え,より幅広い英語語彙分析を可能とすることを目 指した。 また,先行研究で開発したプログラムを用いて語 彙リストの作成を行う場合,完全に自動化して作成 できる語彙リストは,齊藤他(1998)3)の分類によ る「基底語の頻度表」までであり,「レンマの頻度 表」については手動による見出し語化が必要となり, 自動化が十分な訳ではない。これは先行研究で開発 した英語語彙分析プログラムは平テキスト・コーパ ス(plain text corpus)の語彙リスト作成を前提 に開発したものであり,英語の同綴異義語を同一の 単語と見なしてしまうため,分析の完全自動化の妨 げとなっているためである。コーパスは標識付き コーパス(tagged corpus)と平テキスト・コーパ スに分けられるが,標識付きコーパスの中でも品詞 標識(part-of-speech (POS) tag)が付与されたコー パスを分析対象とすれば,同綴異義語はそれぞれ別 の語として扱われることとなり,より正確な語彙リ ストを作成することが可能となる。自動で品詞標識 を付けるプログラムには様々あるが,本研究ではラ ンカスター大学がインターネット上で提供してい る自動品詞標識付けプログラム,Free CLAWS WWW tagger注 1)によって作成される品詞標識付きコーパ スを分析可能な英語語彙分析プログラムを開発す ることとした。そして品詞標識付きコーパスから語 彙リストを作成するプログラムを開発することに より,これまでの英語語彙分析プログラム群の拡張 を図った。
2. 研究の目的
本研究はこれまでに先行研究で開発してきた シェルスクリプトを活用した英語語彙分析プログ ラム群に新しいプログラムを追加するとともに,品 詞標識付きコーパスにも対応できるように拡張す ることにより,より幅広い英語語彙分析を可能とす ることを目指して行った。具体的には以下の3点を 目的として研究を行った。 (1) レンジ(range)情報を付加した語彙リスト作 成する英語語彙分析プログラムを開発するこ と。 (2) 既に開発されている6種類の英語語彙分析プ ログラムの機能を拡張し,品詞標識付きのコー パスの分析に対応させること。 (3) 上記(2)で開発したプログラムと先行研究で開 発したプログラムの処理速度を比較し,実用性 の検討を行うこと。3. プログラムの開発
本研究でプログラムの開発及び動作検証のため に使用したコンピュータ環境は表1に示した通り である。シェルスクリプトは Linux 環境で動作する 言語であるが,本研究では Windows® operating system で動作するエミュレータである VMware® Player で Linux 環境を仮想化して構築した。そし て,Linux 環境で標準的に装備されているコマンド を組み合わせることにより,英語語彙分析プログラムを開発した。
表1 プログラムの開発環境 コンピュータ DELL vostro 420
CPU Intel® Core™ 2 Quad CPU Q9550 2.83GHz メモリ 1006.3MB OS CentOS 6.7 3.1 RANGE プログラムの開発 Linux 環境で標準的に装備されているコマンドを 組み合わせて RANGE プログラムを開発した。入力 ファイルとなる語彙リストは,先行研究で開発され た ALP で作成されたものを使用する。品詞標識付き の語彙リストを使用する場合は,3.2 で後述する ALP2 で作成されたリストを使用する。これらのプ ログラムはそれぞれ RANGE 及び RANGE2 と名付けら れた。動作内容等は以下の通りである。 動作内容: 複数の語彙リスト(入力ファイル)を比較し,そ れぞれの語彙リストの単語が含まれるファイル の数を算出する。算出した値をレンジとし,単語 とともに出力ファイルに出力する。-f オプショ ンを付けると,ファイル名を指定することができ る。このオプションを付けない場合のファイル名 は「range_yymmddHHMM.拡張子」となる。ファイ ル名に含まれる「yymmddHH」はプログラムを実行 した年月日時分を表す。また,-a オプションを 付けるとそれぞれの単語が含まれる すべての ファイル名を併せて出力する。入力ファイルは複 数とし,各ファイルをスペースで区切って入力す る。 使用法:
$ /bin/sh range(2).sh [-f] [-a]↲
Inputfilename? :ファイル 1␣ファイル 2␣…↲ 使用した主なコマンド:
awk,cat,grep,paste,sed,sort,uniq
3.2 英語語彙分析プログラムの拡張
Free CLAWS WWW tagger により品詞標識付きコー パスを作成すると,各単語の後ろにアンダースコア ( _ ) に 続 け て 品 詞 標 識 が 付 与 さ れ る ( 例 : science_NN1,English_JJ 等)。本研究では,先行 研究で開発されたプログラムを,この形式で品詞標 識付けされたコーパスを語彙リスト化できるよう 改良した。具体的には WRD,ALP,FRQ,DIF,INT, UNI 注 3)の6種類のプログラムを改良し,それぞれ WRD2,ALP2,FRQ2,DIF2,INT2,UNI2 と名付けた。 先行研究で開発したプログラムでも品詞標識付 きコーパスを分析することは可能であるが,その場 合,品詞標識が付加された単語を品詞標識まで含め て1語と数えるため,アルファベット順に並べ替え る場合や自動で見出し語化する場合等に不具合が 生じる可能性がある。また,出力結果から単語のみ を抽出して利用する場合を想定し,本研究では単語 部分と品詞標識部分をタブ記号で分割して語彙リ ストを作成し,出力するようプログラムを構築した。 本研究で開発したプログラムは先行研究で開発 したプログラムに新しい処理を加えたため,処理速 度がより長くなることが予想された。そこで,同一 の英文コーパスを分析することにより,両プログラ ム群の処理速度を比較することとした。分析に用い た英文コーパスは,先行研究で用いたものに品詞標 識を付加したものであり,内容は以下の通りである。 (1) 英文コーパスA 2005 年1月から 12 月に放送されたニュースの トランスクリプトで 67,738 語の英文コーパス。 Free CLAWS WWW tagger により品詞標識を付加し た。 (2) 英文コーパスB 2005 年1月から 2008 年 12 月までに放送され たニュースのトランスクリプトとインターネッ トサイト Project Gutenberg 注 2)で提供されてい るアーサー・コナン・ドイルの7作品(A Study in
Scarlet, The Sign of Four, The hound of the Baskervilles, The Valley of Fear, The
Adventures of Sherlock Holmes, The Memoirs of Sherlock Holmes, The Return of Sherlock
Holmes)を一つのファイルに纏めたもの。820,389
語の英文コーパス。Free CLAWS WWW tagger によ り品詞標識を付加した。
(3) 英文コーパスC
2,570 語の語彙リスト。旧学習指導要領の中学校 英語検定教科書で使用された全語彙をリストに したもの。Free CLAWS WWW tagger により品詞標 識を付加した。 一つの英文コーパスを分析対象とするプログラ ム(WRD,WRD2,ALP,ALP2,FRQ,FRQ2)について は英文コーパスA,Bそれぞれの処理時間を計測し た。一方,二つの英文コーパスを分析対象とするプ ログラム(DIF,DIF2,INT,INT2,UNI,UNI2)に ついては,英文コーパスA,Bそれぞれと英文コー パスCを処理する時間を計測した。処理速度の計測 には,Linux の time コマンドを利用し,実際にプ ログラムが CPU を利用した時間であるユーザ CPU 利 用時間を計測した。
4. 結果と考察
4.1 RANGE プログラムによる出力結果 本研究で開発した英語語彙分析プログラム RANGE 及び RANGE2 で分析した出力例を,紙面の都合上付 録1及び付録2に示した。付録1が示すように RANGE による出力結果は左から「レンジ,単語,単 語,単語が含まれるファイル名」の順となる。また, 付録2が示すように RANGE2 による出力結果は左か ら「レンジ,単語,品詞,単語が含まれるファイル 名」の順となる。様々な分野のコーパスを用意した 上でこれらのプログラムを活用することにより,幅 広い分野で使用される英単語の抽出やある特定の 分野で特徴的に使用される英単語の抽出が可能と なる。 4.2 拡張プログラムの処理速度 本研究で開発した拡張プログラムの処理速度を 検証するため,ファイルサイズの異なる英文コーパ スを用意し,それらを処理する速度を Linux の time コマンドで計測した。また,計測時間を比較するた め,先行研究で開発したプログラム群でも同じ英文 コーパスを処理した。なお,計測する時のコン ピュータの状態により time コマンドの計測結果に 多少の誤差が生じるため,本研究では,同じ計測を 3回行い,その平均値を各プログラムの処理時間と して比較した。表2に各プログラムの処理時間を示 す。 表2 英語語彙分析プログラムの処理時間の比較 (単位は秒) プログ ラム名 英文コーパスの処理時間 英文 コーパスA 英文 コーパスB B-A WRD 0.874 8.006 +7.132 WRD2 0.936 8.279 +7.343 差 +0.062 +0.273 ALP 1.193 11.875 +10.682 ALP2 3.429 20.382 +16.953 差 +2.236 +8.506 FRQ 1.272 11.759 +10.488 FRQ2 1.311 12.428 +11.117 差 +0.039 +0.668 DIF 32.695 47.366 +14.671 DIF2 43.826 69.066 +25.240 差 +11.131 +21.700 INT 0.060 0.088 +0.028 INT2 0.081 0.259 +0.178 差 +0.021 +0.171 UNI 0.115 0.424 +0.309 UNI2 0.133 0.500 +0.366 差 +0.018 +0.076表2が示す通り,本研究で開発したすべてのプロ グラム(WRD2,ALP2,FRQ2,DIF2,INT2,UNI2)の 処理時間は,先行研究のプログラムより処理時間が 長くかかっている。これは,より複雑な処理をして いることを考慮すれば当然予測できる結果である が,ALP と ALP2,DIF と DIF2 の処理速度の差以外 は1秒未満であり,ほとんど差がないと言える。ALP と ALP2 の処理時間の差については,英文コーパス Aの処理で 2.236 秒,英文コーパスBの処理で 8.506 秒それぞれ ALP2 の方が長く処理時間がか かっている。また,他のプログラムの処理時間と比 較すると,ファイルファイズの大きなコーパスを処 理する場合に ALP 及び ALP2 の処理は,DIF,DIF2 以外のプログラムより長く時間がかかっているこ とが分かる。これらの処理時間の差はそれほど大き いとは言えないが,ALP 及び ALP2 での処理には多 少時間がかかる可能性があることを念頭に入れて 使用する必要があると言える。DIF 及び DIF2 につ いては,処理時間の差が英文コーパスAの処理で 11.131 秒,英文コーパスBの処理で 21.700 秒と他 のプログラムと比べるとかなり大きな差が生じる 結果となった。また,処理時間全体を見ても,他の プログラムよりもより長い処理時間を要している ことが分かる。これは,プログラムを実行してから 結果が出力されるまでにコンピュータからユーザ に対する反応が何もない状態がかなり長い時間続 くことを意味し,あまり実用的であるとは言えない。 この点については,プログラム実行から終了するま での間の進捗状況を出力する等の工夫をし,改善す る必要があると言える。
5. まとめ
本研究は,岩崎(2010)4)で開発されたシェルス クリプトを利用した英語語彙分析プログラム群に 語彙のレンジを算出する新しいプログラムを加え るとともに,より精度の高い英語語彙分析を可能と するために品詞標識の付いたコーパスを分析可能 なプログラム群に拡張することを目的として行わ れた。その結果,複数コーパスを比較して語彙のレ ンジを算出するプログラム RANGE,RANGE2 を開発し た。これにより多様な分野で使用される英語のコー パスを用意した上で,これらのプログラムを使用し て分析することで,語彙の頻度だけではなく使用域 の幅広さを分析することが可能となる。また,6種 類のプログラム WRD,ALP,FRQ,DIF,INT,UNI の プログラムの機能を拡張した WRD2,ALP2,FRQ2, DIF2,INT2,UNI2 を開発し,それらの処理速度の 観点から実用性について検討した。その結果,UNI2 を除く5種類のプログラムについては,英語語彙分 析を行う上でほとんど問題なく使用可能であると いう結論に至った。しかし UNI2 については,処理 時間が長くかかる一方,処理が継続中であることを 表示する機能等を有しておらず,実用性に多少欠け ると言わざるを得ない結果となった。 今後は本研究で明らかとなったプログラムの問 題点を改善するとともに,更に精度の高い語彙分析 が可能となるよう改良を重ね,開発したプログラム 群を英語教育の場で活用したいと考えている。注
注 1) ランカスター大学の University Centre for Computer Corpus Research on Language が インターネット上で提供している自動品詞 標識付けプログラム。一度に利用できる語数 が 100,000 語までという制限はあるが,無料 で利用できる品詞標識付けプログラムであ る。http://ucrel.lancs.ac.uk/claws/trial .html を参照。 注 2) Project Gutenbergについては http://www. gutenberg.org/wiki/Main_Page を参照。 注 3) 先行研究(岩崎,2010)で開発した6種類の プログラム WRD,ALP,FRQ,DIF,INT,UNI の概要は以下の通りである。 WRD:英文コーパスから単語単位の語彙リス トを作成し,出力する。 ALP:英文コーパスから単語と出現頻度から
なる語彙リストを作成し,アルファ ベット順に出力する。 FRQ:英文コーパスから単語と出現頻度から なる語彙リストを作成し,頻度が高い 順に出力する。 DIF:語彙リストから別の語彙リストを差し 引いた差集合の語彙リストを作成し, 出力する。 INT:二つの語彙リストに共通する積集合の 語彙リストを作成し,出力する。 UNI:二つの語彙リストを結合して和集合の 語彙リストを作成し,出力する。
参考文献
1) 田崎清忠編:『現代英語教授法総覧』,大修館書 店,1995 2) 望月正道,相澤一美,投野由紀夫:『英語語彙 の指導マニュアル』,大修館書店,2003 3) 齊藤俊雄,中村純作,赤野一郎編,『英語コー パス言語学―基礎と実践―』,研究社,1998 4) 岩崎洋一:「シェルスクリプトを活用した英語 語彙分析プラグラムの開発」,木更津工業高等 専門学校紀要,第43 号,pp.25-34,2010 5) 岩崎洋一:「シェルスクリプトを活用した英語 語彙統計量算出プログラムの開発」,木更津工 業高等専門学校紀要,第 44 号,pp.33-38,2011 6) 岩崎洋一:「英語検定教科書語彙のカバー率」, 論文集「高専教育」,第 36 号,pp.357-362,2013 付録1 RANGE による分析結果の出力例 ␣␣2␣ (¥t) A (¥t)(¥t) A␣TEXT1_alp.txt(¥t)␣TEXT2_alp.txt(¥t) ␣␣1␣ (¥t) A-BOMB (¥t)(¥t) A-BOMB␣TEXT2_alp.txt(¥t) ␣␣1␣ (¥t) A-BOMBED (¥t)(¥t) A-BOMBED␣TEXT2_alp.txt(¥t) ␣␣1␣ (¥t) ABILITY (¥t)(¥t) ABILITY␣TEXT1_alp.txt(¥t) ␣␣1␣ (¥t) ABLE (¥t)(¥t) ABLE␣TEXT2_alp.txt(¥t)␣␣2␣ (¥t) ABOUT (¥t)(¥t) ABOUT␣TEXT1_alp.txt(¥t)␣TEXT2_alp.txt(¥t)
␣␣1␣ (¥t) ABOVE (¥t)(¥t) ABOVE␣TEXT1_alp.txt(¥t)
␣␣1␣ (¥t) ABROAD (¥t)(¥t) ABROAD␣TEXT2_alp.txt(¥t)
␣␣1␣ (¥t) ACCEPTED (¥t)(¥t) ACCEPTED␣TEXT1_alp.txt(¥t)
␣␣2␣ (¥t) ACCIDENT (¥t)(¥t) ACCIDENT␣TEXT1_alp.txt(¥t)␣TEXT2_alp.txt(¥t)
␣␣1␣ (¥t) ACCORDING (¥t)(¥t) ACCORDING␣TEXT2_alp.txt(¥t)
␣␣1␣ (¥t) ACCRA (¥t)(¥t) ACCRA␣TEXT2_alp.txt(¥t)
付録2 RANGE2 による分析結果の出力例
␣␣2␣ (¥t) A (¥t) _AT1 (¥t)(¥t) TEXT1_alp.txt (¥t) TEXT2_alp.txt
␣␣2␣ (¥t) A (¥t) _RR21 (¥t)(¥t) TEXT1_alp.txt (¥t) TEXT2_alp.txt ␣␣1␣ (¥t) A (¥t) _ZZ1 (¥t)(¥t) TEXT1_alp.txt ␣␣1␣ (¥t) A-BOMB (¥t) _NN1 (¥t)(¥t) TEXT2_alp.txt ␣␣1␣ (¥t) A-BOMBED (¥t) _JJ (¥t)(¥t) TEXT2_alp.txt ␣␣1␣ (¥t) ABILITY (¥t) _NN1 (¥t)(¥t) TEXT1_alp.txt ␣␣1␣ (¥t) ABLE (¥t) _JK (¥t)(¥t) TEXT2_alp.txt
␣␣2␣ (¥t) ABOUT (¥t) _II (¥t)(¥t) TEXT1_alp.txt (¥t) TEXT2_alp.txt
␣␣2␣ (¥t) ABOUT (¥t) _RG (¥t)(¥t) TEXT1_alp.txt (¥t) TEXT2_alp.txt
␣␣1␣ (¥t) ABOUT (¥t) _RP (¥t)(¥t) TEXT1_alp.txt
␣␣1␣ (¥t) ABOVE (¥t) _RL (¥t)(¥t) TEXT1_alp.txt
付録3 WRD2 による出力結果例 (¥t) LESSON (¥t) _NN1 (¥t) ␣ (¥t) 1 (¥t) _MC1 (¥t) ␣ (¥t) WAYS (¥t) _NN2 (¥t) ␣ (¥t) OF (¥t) _IO (¥t) ␣ (¥t) COMMUNICATION (¥t) _NN1 (¥t) ␣ (¥t) PART (¥t) _NN1 (¥t) ␣ (¥t) 1 (¥t) _MC1 (¥t) ␣ (¥t) A (¥t) _ZZ1 (¥t) ␣ (¥t) SHARP (¥t) _JJ (¥t) ␣ (¥t) WHISTLE (¥t) _NN1 (¥t) ␣ (¥t) GOES (¥t) _VVZ (¥t) ␣ (¥t) ACROSS (¥t) _II (¥t) ␣ (¥t) THE (¥t) _AT (¥t) ␣ (¥t) GREEN (¥t) _JJ (¥t) ␣ (¥t) VALLEY (¥t) _NN1 (¥t) ␣ (¥t) THEN (¥t) _RT (¥t) ␣ (¥t) ANOTHER (¥t) _DD1 (¥t) ␣ (¥t) WHISTLE (¥t) _NN1 (¥t) ␣ (¥t) COMES (¥t) _VVZ (¥t) ␣ (¥t) IN (¥t) _II (¥t) ␣ ・ ・ ・ 付録5 FRQ2 による出力結果例 ␣␣␣␣252␣ (¥t) THE (¥t) _AT (¥t) ␣␣␣␣123␣ (¥t) A (¥t) _AT1 (¥t) ␣␣␣␣113␣ (¥t) AND (¥t) _CC (¥t) ␣␣␣␣100␣ (¥t) OF (¥t) _IO (¥t) ␣␣␣␣␣85␣ (¥t) IN (¥t) _II (¥t) ␣␣␣␣␣74␣ (¥t) TO (¥t) _TO (¥t) ␣␣␣␣␣53␣ (¥t) THEY (¥t) _PPHS2 (¥t) ␣␣␣␣␣48␣ (¥t) FOR (¥t) _IF (¥t) ␣␣␣␣␣45␣ (¥t) WAS (¥t) _VBDZ (¥t) ␣␣␣␣␣43␣ (¥t) PART (¥t) _NN1 (¥t) ␣␣␣␣␣40␣ (¥t) PEOPLE (¥t) _NN (¥t) ␣␣␣␣␣37␣ (¥t) ARE (¥t) _VBR (¥t) ␣␣␣␣␣36␣ (¥t) ON (¥t) _II (¥t) ␣␣␣␣␣33␣ (¥t) TO (¥t) _II (¥t) ␣␣␣␣␣31␣ (¥t) IT (¥t) _PPH1 (¥t) ␣␣␣␣␣31␣ (¥t) THEIR (¥t) _APPGE (¥t) ␣␣␣␣␣31␣ (¥t) WE (¥t) _PPIS2 (¥t) ␣␣␣␣␣29␣ (¥t) YOU (¥t) _PPY (¥t) ␣␣␣␣␣28␣ (¥t) I (¥t) _PPIS1 (¥t) ␣␣␣␣␣28␣ (¥t) IS (¥t) _VBZ (¥t) ・ ・ ・ 付録4 ALP2 による出力結果例 ␣␣␣␣123␣ (¥t) A (¥t) _AT1 (¥t) ␣␣␣␣␣␣1␣ (¥t) A (¥t) _RR21 (¥t) ␣␣␣␣␣␣2␣ (¥t) A (¥t) _ZZ1 (¥t) ␣␣␣␣␣␣1␣ (¥t) ABILITY (¥t) _NN1 (¥t) ␣␣␣␣␣14␣ (¥t) ABOUT (¥t) _II (¥t) ␣␣␣␣␣␣3␣ (¥t) ABOUT (¥t) _RG (¥t) ␣␣␣␣␣␣2␣ (¥t) ABOUT (¥t) _RP (¥t) ␣␣␣␣␣␣1␣ (¥t) ABOVE (¥t) _RL (¥t) ␣␣␣␣␣␣1␣ (¥t) ACCEPTED (¥t) _VVD (¥t) ␣␣␣␣␣␣2␣ (¥t) ACCIDENT (¥t) _NN1 (¥t) ␣␣␣␣␣␣1␣ (¥t) ACCURATE (¥t) _JJ (¥t) ␣␣␣␣␣␣4␣ (¥t) ACROSS (¥t) _II (¥t) ␣␣␣␣␣␣1␣ (¥t) ACROSS (¥t) _RL (¥t) ␣␣␣␣␣␣1␣ (¥t) ACTIVITIES (¥t) _NN2 (¥t) ␣␣␣␣␣␣1␣ (¥t) ACTUAL (¥t) _JJ (¥t) ␣␣␣␣␣␣3␣ (¥t) ACTUALLY (¥t) _RR (¥t) ␣␣␣␣␣␣1␣ (¥t) ADMIRED (¥t) _VVD (¥t) ␣␣␣␣␣␣1␣ (¥t) ADVICE (¥t) _NN1 (¥t) ␣␣␣␣␣␣5␣ (¥t) AFRICA (¥t) _NP1 (¥t) ␣␣␣␣␣␣1␣ (¥t) AFRICAN (¥t) _JJ (¥t) ・ ・ ・ 付録6 DIF2 による出力結果例 ␣␣␣␣␣␣2␣ (¥t) A (¥t) _ZZ1 (¥t) ␣␣␣␣␣␣1␣ (¥t) ABILITY (¥t) _NN1 (¥t) ␣␣␣␣␣␣2␣ (¥t) ABOUT (¥t) _RP (¥t) ␣␣␣␣␣␣1␣ (¥t) ABOVE (¥t) _RL (¥t) ␣␣␣␣␣␣1␣ (¥t) ACCEPTED (¥t) _VVD (¥t) ␣␣␣␣␣␣1␣ (¥t) ACCURATE (¥t) _JJ (¥t) ␣␣␣␣␣␣4␣ (¥t) ACROSS (¥t) _II (¥t) ␣␣␣␣␣␣1␣ (¥t) ACROSS (¥t) _RL (¥t) ␣␣␣␣␣␣1␣ (¥t) ACTIVITIES (¥t) _NN2 (¥t) ␣␣␣␣␣␣1␣ (¥t) ACTUAL (¥t) _JJ (¥t) ␣␣␣␣␣␣3␣ (¥t) ACTUALLY (¥t) _RR (¥t) ␣␣␣␣␣␣1␣ (¥t) ADMIRED (¥t) _VVD (¥t) ␣␣␣␣␣␣1␣ (¥t) ADVICE (¥t) _NN1 (¥t) ␣␣␣␣␣␣1␣ (¥t) AFRICAN (¥t) _JJ (¥t) ␣␣␣␣␣␣1␣ (¥t) AGAINST (¥t) _II (¥t) ␣␣␣␣␣␣1␣ (¥t) AGREED (¥t) _VVD (¥t) ␣␣␣␣␣␣1␣ (¥t) AGRICULTURAL (¥t) _JJ (¥t) ␣␣␣␣␣␣1␣ (¥t) ALREADY (¥t) _RR (¥t) ␣␣␣␣␣␣1␣ (¥t) AMAZED (¥t) _JJ (¥t) ␣␣␣␣␣␣2␣ (¥t) AMAZING (¥t) _JJ (¥t) ・ ・ ・
付録7 INT2 による出力結果例 ␣␣␣␣␣31␣ (¥t) ABOUT (¥t) _II (¥t) ␣␣␣␣␣␣4␣ (¥t) ABOUT (¥t) _RG (¥t) ␣␣␣␣␣␣3␣ (¥t) ACCIDENT (¥t) _NN1 (¥t) ␣␣␣␣␣␣8␣ (¥t) AFRICA (¥t) _NP1 (¥t) ␣␣␣␣␣␣9␣ (¥t) AFTER (¥t) _CS (¥t) ␣␣␣␣␣␣7␣ (¥t) AFTER (¥t) _II (¥t) ␣␣␣␣␣␣6␣ (¥t) AGAIN (¥t) _RT (¥t) ␣␣␣␣␣␣4␣ (¥t) AGO (¥t) _RA (¥t) ␣␣␣␣␣␣2␣ (¥t) AIR (¥t) _NN1 (¥t) ␣␣␣␣␣␣3␣ (¥t) ALIVE (¥t) _JJ (¥t) ␣␣␣␣␣14␣ (¥t) ALL (¥t) _DB (¥t) ␣␣␣␣␣␣6␣ (¥t) ALL (¥t) _RR (¥t) ␣␣␣␣␣␣3␣ (¥t) ALONG (¥t) _RP (¥t) ␣␣␣␣␣23␣ (¥t) ALSO (¥t) _RR (¥t) ␣␣␣␣␣␣8␣ (¥t) ALWAYS (¥t) _RR (¥t) ␣␣␣␣␣␣3␣ (¥t) AMERICAN (¥t) _JJ (¥t) ␣␣␣␣␣␣4␣ (¥t) AMONG (¥t) _II (¥t) ␣␣␣␣␣␣2␣ (¥t) AMOUNT (¥t) _NN1 (¥t) ␣␣␣␣␣␣4␣ (¥t) ANCIENT (¥t) _JJ (¥t) ␣␣␣␣204␣ (¥t) AND (¥t) _CC (¥t) ・ ・ ・ ※付録中の␣はスペースを,(¥t)はタブ記号表す。 付録8 UNI2 による出力結果例 ␣␣␣␣215␣ (¥t) A (¥t) _AT1 (¥t) ␣␣␣␣␣␣2␣ (¥t) A (¥t) _RR21 (¥t) ␣␣␣␣␣␣2␣ (¥t) A (¥t) _ZZ1 (¥t) ␣␣␣␣␣␣1␣ (¥t) A-BOMB (¥t) _NN1 (¥t) ␣␣␣␣␣␣2␣ (¥t) A-BOMBED (¥t) _JJ (¥t) ␣␣␣␣␣␣1␣ (¥t) ABILITY (¥t) _NN1 (¥t) ␣␣␣␣␣␣2␣ (¥t) ABLE (¥t) _JK (¥t) ␣␣␣␣␣31␣ (¥t) ABOUT (¥t) _II (¥t) ␣␣␣␣␣␣4␣ (¥t) ABOUT (¥t) _RG (¥t) ␣␣␣␣␣␣2␣ (¥t) ABOUT (¥t) _RP (¥t) ␣␣␣␣␣␣1␣ (¥t) ABOVE (¥t) _RL (¥t) ␣␣␣␣␣␣3␣ (¥t) ABROAD (¥t) _RL (¥t) ␣␣␣␣␣␣1␣ (¥t) ACCEPTED (¥t) _VVD (¥t) ␣␣␣␣␣␣3␣ (¥t) ACCIDENT (¥t) _NN1 (¥t) ␣␣␣␣␣␣1␣ (¥t) ACCORDING (¥t) _II21 (¥t) ␣␣␣␣␣␣1␣ (¥t) ACCRA (¥t) _NP1 (¥t) ␣␣␣␣␣␣1␣ (¥t) ACCURATE (¥t) _JJ (¥t) ␣␣␣␣␣␣1␣ (¥t) ACHIEVEMENT (¥t) _NN1 (¥t) ␣␣␣␣␣␣4␣ (¥t) ACROSS (¥t) _II (¥t) ␣␣␣␣␣␣1␣ (¥t) ACROSS (¥t) _RL (¥t) ・ ・ ・