た絵本ポイソテイソグ調査資料により,使用語彙の特徴に関して分析した。
D 次年度の予定
1. 常用漢字の習得度調査に関しては,小学校配嶺漢字について集計結果を まとめ,中間報告を印刷する。
2.児童の漢字使用に関する探索的研究に関しては,語彙使用との関係につ いて調べる。
3.児童の作文使用語彙調査に関しては,①小学校全学年の語彙について計 量的な分析を行う。また,②入名・地名を主とする別表を作成する。
4.文章特性の発達に関する研究に関しては,小学1年生の書いたものを縦 断的に収集し,文章特性(Textuality)の発達的な変化を検討する(千葉 漿下の小学校,4クラス,約120名の小学1年生の作品を資料とする)。
5.幼児及び小学校低学年児童の藷彙調査に関しては,さらに使用語彙の分 析を続ける。
言語計量調査
語彙調査自動化のたあの基礎的研究
A 鼠
的これまでに開発された電子讃算機を用いた語彙調査システムは,きめ細か い調査・分析ができるようになったものの,自動処理,及び調査結果の管理 運用方法などについては十分ではない。そこで,これらを目標とした新しい 語彙調査システムを開発する。
具体的には次の4点について,研究開発・調査分析を進める。
1234
自動処理プログラムの開発 効率的な修正システムの開発調査結果の蓄積・検索・分析方法の開発,及びその運用方法の研究 薪しい電子計算機・碍本語処理システムの調査駅究
B 担 当 者
言語計量硫究部第一研究室
室長 中野洋 研究員 石井正彦(60.9。1第二研究室から配置換え)
山崎誠 砥究補助員 小沼悦(60.9.1第二硯究室から配置換え)
C 本年度の研究経過
本年度の研究は,大きく二つに分かれる。すなわち,語彙調査自動化のた めの準備的研究と,これまでに行われてきた中学校教科書,及び高校教科書 の語彙調査の実施とまとめとである。
ユ。諾彙調査自動化の準備的研究
電子計算機を用いた語彙調査の中では,語の並べかえ・用例の作成・頻度 や比率の計算・作表を欝算機によって行い,文章の単語分割・漢字の読み仮 名つけ・題詞の認定・■周じ語か異なる語かの判定などを入間によって行って 一 65 ,一
きた。ところが,電子計算機の性能が上がったことにより,人間が担当して きた作業の一部も計算機によって行うことが可龍になった。一貫処理システ ムは自動単語分翻・自動漢字解読の機能を持ったそのようなプログラムシス テムである。
本年度は,これまでに作成した一貫処理システムの性能の評価実験を行い,
閥題点を明らかにした。語彙調査データの作成作業において,人手作業によ る場合と機械処理による場合との比較では,以下の結果を得た。すなわち,
1.処理精度は,単位切りでは機械でほぼ90%,人手では97%〜98%が見 込まれることがわかった。これは開らかに人手の方がよい。
2.処理時閣は検査の時間を薦めても機械が約5時間,人季が約53時聞で あり,人手は機械処理の10倍以上かかっている。
3.入力パンチ量については,機械は人手の約20%の入力で済む。
4.以上の結果として今後の語彙調査には機械による歳動処理を用いても 良いことは明らかである。しかし,今まで以上によい修正システムを作 る必要があると思われる。
2月17臼には外部の研究者8名を招いて,評価実験の結果について薪究会 を開いた。発表題目は以下のとおりである。
L 「語彙調査自動化のための基礎的研究」の概要 中野 洋 2.一一貫処理システムの評価実験の結果について
(1)一貫処理システムの概要 中野 洋 (2)人手作業との比較(精度と所要時間について)小沼 悦 (3)自動単位分翻の精度と問題点 石井正彦 (4)自動漢字解読の精度と問題点 中野 洋 (5)自動品詞認定の精度と問題点 中野 洋 3.代表形変換について 山崎 誠
なお,研究成果や研究経過報告は本年度から発刊した言語計量研究部の内 部資料『CL通儒』に随時報告した。すなわち,
研究匿的の1「自動処理プPtグラムの開発」については,
中野洋「語彙調査自動化における一貫処理システム」
中野洋「複合語の自動分割の方法について」(以上CL通磐第1弩)
中野洋・小沼悦「一貫処理プログラムの評価実験(1)実験の概要」
石井正彦「一一・es処理プログラムの評価実験(2)自動単位分解の精度」
(以上CL通儒第2号)
研:究函的の2「効率的な修正システムの開発」には,
中野洋「語彙調査自動化のねらいとその概要」(CL通儒第1号)
研究目的の3「調査結果の蓄積・検索・分析方法の開発,及びその運用方 法の研究」には,
石井正彦「総合辞書の思想」(CL通信第1号)
研究目的の4「薪しい電子計算機・H本語処理システムの調査研究」には 中野洋・古謹啓rACOS 4システムにおけるマークカードの使い方」
(CL通儒第1号)
中野洋「日本語ワードプロセッサー「松」(管理工学研究駈)と
「LANWORD」(H本電気)のコソバーートプログラム」(CL逓信第2号)
がある。
2.語彙調査の実施とまとめ
中学教科書の語彙調査は,中学校年会科理科教科書7冊(社会科一地理的 分野・歴史的分野・公民的分野,理科一半一分野・第二分野各上・下)の本 文部分をすべて取り出し,全数調査するものである。言語量は約25万語(単 位は形態素に近い比較的短い単位のM単位)である。この調査は「高校教科 書調査」より輿動化が図られている。すなわち,入力毅階では,読み仮名等 の情報を省き,高校教科書のデータを辞書として読み仮名・代表形を自動的 につける。そののち,検査を行い,情報のつかなかった箇所・情報の違って いる箇所のみに,人手による修正を行った。
本年度は,M単位の語彙表を作成し,『中学校教科書の語彙調査』(報告87)
を刊行した。なお,硯究経過について次の報告がある。
山崎誠「中学教科書語彙調査経過報告」(CL遍儒第1号)