• 検索結果がありません。

文化と言語資源

N/A
N/A
Protected

Academic year: 2021

シェア "文化と言語資源"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

国立国語研究所学術情報リポジトリ

文化と言語資源

著者

田中 穂積

雑誌名

日本語科学

10

ページ

3-3

発行年

2001-10-30

URL

http://id.nii.ac.jp/1328/00002066/

(2)

文化と言語資源

田中 穂積

 通時的にであれ,共時的にであれ,大量の例文を集めておき,それらを網羅的に分析すること が雷語の研究や辞書作りにとってきわめて重要であることは醤を待たない。  日本語ワープロがまだ研究段階であった1970年代半ばには,電子化された文,すなわち磁気テー プなどの電子媒体上に書き込まれた証本語文の量は,現在とは比べものにならないほど少量であっ た。丁度このころ,筆者が所属していた研究所に,古文の用例を書き込んだ大量のカードをめく りながら,単語の使用頻度を調べていたアルバイトの学生がいた。用例カーードを電子化しておけ ば,用例カードをめくるという単純作業をコンピュータに代行させることができるはずであるが, 彼は「いや,このカードの厚さが,私がこれまでどれほど単純作業に耐えて努力をしてきたかを はかる尺度になります。カードの厚さが卒業研究の合否をきめるんです。コンピュータがこの単 純作業を代行してしまったら困るんですよ」と笑いながら話してくれたことを思い出す。当時は 使燗頻度に基づく語彙調査そのものが研究になり得た時代であった。  話したり書いたりした文を大量に集めたものをコーパスとよぶ。辞書や各種コーパス,言葉を 理解するために必要な知識の体系などを電子化したものを総称して「雷語資源」とよぶ。言語の 研究や辞書の構築以外にも「解語資源」を利用した研究が最近盛んである。音声認識システムの 認識精度向上に「言語資源」が大きな役割を果たしたことは良く知られている。最近の音声認識 システムでは,大量の「書語資源」から,各単語の薩後に現れる単語の頻度情報(統計データ) をあらかじめ獲得しておき,この統計データを用いて,認識結果の候補にもっともらしさの順位 を付けて音声認識の精度をあげている。自然言語処理の分野では文の係り受け関係の解析は重要 であるが,係る側の単語と係り先の単語についての統計データがあれば,それを文の係り受け解 析に利薦することができる。そのためには,人手を介して正しい係り受け関係を付与した多数の 文を用意しておかなければならない。  最近では,コンピュータを用いて,辞書の説明文から単語間の関係(「蝉」の項目に「昆虫の∼ 種」とあれば,「昆虫」は「蝉」の上位に属すなどという関係)を自動的に抽出したり,翻訳結果 を並記したコーパスがあれば,そこから翻訳用の知識を抽出したり,多数の文書を自動的に分類 する研究が活発である。この種の研究をテキストマイニングとよぶ。このとき係り受け解析やテ キストマイニングのもとになる「言語資源」の量は多ければ多いほど良いのであるが,「言語資源」 の整備には時間と労力とお金がかかる。そこで,構築した「華語資源」を共有し合うことが望ま れる。米国,欧州,そしてつい最近韓国でも,「言語資源」の整備とそれを多くの人に安価に流通 させる機構を政府の援助で立ちあげている。わが国の現状はどうか。一刻の猶予もならないとい う危機感にかられて,筆者は2年前から言語資源共有機構(GSK)の設立を政府関係者にはたら きかけているが理解がえられない。GSKの活動はボランティアベースで細々と続けているという のが現状である。一朝一夕にはできない「言藷資源」の整備に国からの援助がないのは,文化国 家日本としていささか恥ずかしいことだと思う。書葉を大切にするかどうかは,その国の文化の 程度を示すバUメータだと思うからである。 3

参照

関連したドキュメント

 良渚文化の経済的基盤は、稲作を主体とする農耕生

この 文書 はコンピューターによって 英語 から 自動的 に 翻訳 されているため、 言語 が 不明瞭 になる 可能性 があります。.. このドキュメントは、 元 のドキュメントに 比 べて

The Byzantine Wall Paintings of Kılıçlar Kilise: Aspects of Monumental Decoration in Cappadocia, Pennsylvania State University, Ph.D. “Byzantine Capppadocia: the

2021] .さらに対応するプログラミング言語も作

に文化庁が策定した「文化財活用・理解促進戦略プログラム 2020 」では、文化財を貴重 な地域・観光資源として活用するための取組みとして、平成 32

本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o

 “ボランティア”と言えば、ラテン語を語源とし、自

自然言語というのは、生得 な文法 があるということです。 生まれつき に、人 に わっている 力を って乳幼児が獲得できる言語だという え です。 語の それ自 も、 から