言語計量調査
語彙調査自動化のための基礎的研究
A 目 的
これまでに開発された電子計算機を用いた語彙調査システムは,きめ細か い調査・分析ができるようになったものの,自動処理,及び調査結果の管理 運用方法などについては十分ではない。そこで,これらを圏標とした薪しい 藷彙調査システムを開発する。
具体的セこは次の4点について,研究開発・調査分新を進める。
1.自動処理プログラムの開発 2.効率的な修正システムの開発
3.調査結果の蓄積・検索・分析方法の開発,及びその運用方法の研究 4.新しい電子計算機・日本語処理システムの調査研究
B 担 当 者
言言計量研究部第一研究室
室長 土屋信一 主任研究官 中野洋 鶴岡昭夫 和子
研究補助員 凄口
C 本年度の研究経過
本年度の研究は,大きく二つに分かれる。すなわち,語彙調査自動化のた めの準備的研究と,これまでに行われてきた中学教科書・及び高校教科霧の 藷彙調査の実施とまとめとである。
1。藷彙調査自動化の準備的研究
電子計算機を用いた謡彙調査の中では,藷の並べかえ・用例の作成・旗度 や比率の計算・作表を計箕機によって行い,文章の単諮分割・漢字の読み仮 名付け・贔詞の認定・同じ語か異なる語かの判定などを人間によって行って 一45一
きた。ところが,電子計算機の{生能が上がったことにより,人間が担当して きた作業の一一・Klも計算機によって行うことが可能になった。一貫処理システ ムは自動単語分割・自動漢字解読・自動品詞認定の機能を持ったそのような プログラムシステムである。
本年度は,一貫処理システムの語彙調査シXテムへの導入,一貫処理には なかった同音語の判溺の方法に関する研究を行った。
自動処理の性能をさらに上げるためには,一語一語に関する情報を充実す ることが必重要である。この認識に立って,本年度は同音語覇別のための連 語に関する辞書,及び分類語彙表,同音類義語とその用例を入力した霞動処 理のための辞書を作成した。
2.語彙調査の実施とまとめ
中学校教科書の語彙調査は,中学校赴会科理科教科書7冊(笹蟹同一地理 的分野・歴史的分野・公畏的分野,理科一意一分野r第二分野各上・下)の 本文部分をすべて取り出し,全数調査するものである。需語々は約25万語
(単位は形態素に近い比較的短い単値のM単位) と推定される。この調査は「高 校教科書調査」より自動化がはかられている。すなわち,入力段階では,読 み仮名等の情報を省き,高校教科書のデータを辞書として読み仮名・代表形 を自動的につける。そののち,検査を行い,情報のつかなかった個所・情報 の違っている個所のみに,人手による修正を行った。
本年度は,前年灘こ引き続き修正を行い,修正済KWICを作成した。
高校教科書の語彙調査は,W単位(:文節に近い,比較的長い単位)KWICの 作成,データの検査・修正を行い,本年度末,調査の概要とW単位の諮彙表 を,『高校教科書の語彙調査②』(報告81)として刊行した。なお,この報告 の中の語彙量の分析では,大型電子計算機からパーソナル訟ンピェータにデ
ーー^を移し,各種の分析を行う新しい分析方法を開発し,これを用いた。
D 次年度の予定
語彙調査自動化の研究では,昭和58年度の研究成果を受けて,メインシス 一46一
テムを作成する。又,処理の精度を上げるための各種辞書及び処理基準の作 成を行う。
語彙調査では,中学校教科書の語彙表の作成,高校教科書の用語の用例表 の作成と用語の分析及び効果的な分析プログラムの作成を行う。
一 47 一一一
現代の文字・表記に関する研究
A 目 的
現代の文字・衰記の実態を記述するとともに,そこに含まれる諸問題につ いて種々の観点から,理論的な検討を行い,あわせて研究方法の開発を試み
る。
B 担 当 者
心乱計量研究部第二研究室室長 野村雅昭 研究員 佐竹秀雄 石井正彦(58.5.1採用)
補助員 松浦美恵子(58.6.1退職) 小沼悦(58.6.16採用)
1.漢字の機能の研究
C 本年度の作業
研究
字音造語単位の機能を分析するために,前年度に引き続き,新聞用語調査 のデータによる,二字漢語の用法の整理を行った。ここでいう用法とは,二 字漢語が実際の文脈の中で単独で又は他の単位と結合してどのように語を構 成するかということをさす。約15,000語のうち,出現回数100団以上の約 600語については,既に分析を終えている。本年度は,串現回数100回未満 の語の分析を継続し,整理を終えた。
2.表記テーブルの整備
57年度で終了した特別研究「大量用語用字調査のための表記テーブルの作 成に関する研究」で作成した漢字テーブルと語褒記テーブルについて,デー タの補充と修正を行った。これらのテーブルは,漢字及び語表記について,
これまでの用語用字調査の結果を蓄積するほか,次期の大量調査に機械辞書 として活用することを目的としている。本年度は,国語辞典等より,異表記 一48一
例を中心に補充した。
D 今後の予定
漢字の機能については,分析を終えたデーータに基づき,報告原稿の執筆に 着手する。表記テーブルについては,データの補充を引き続き行う予定であ
る。