• 検索結果がありません。

ドイツ語研究の可能性

N/A
N/A
Protected

Academic year: 2021

シェア "ドイツ語研究の可能性"

Copied!
30
0
0

読み込み中.... (全文を見る)

全文

(1)

パ ソコン と汎用テキス ト処理 ツールによる ドイツ語研究の可能性

GjksirO@ aoac.jp)

0。 はじめに

1.デ

ータの整理 と頻度調査

1.l SORTで

数値データを整理する方法

1.2 SORTと UNIQで

語彙や文字の頻度をしらべる方法

1.3‑行

―単位の リス トを

COMMで

比較する方法

2.検

索ツールを利用する

3.AWKを

使ったやや高度なテキス ト処理

3.1 

ドイツ語のつづ りの読み方の規貝

Jを

頻度から検討する

3.2 ドイツ語で

b/w,ソ

rの一字違い語の分布を調査する

4.最後に

0.はじめに

かつてはコンピュータを ドイツ語学・ 文学の研究 に利用す るな どとい うと,

情報処理セ ンターのような ところの高性能なコンピュータを利用 してかな り高 度 なプログラムを購入す るか,自分で書 くか,他人 に書いて もらうしかなかっ た ようだ(植

(1982),菊

(1983),小

(1988),森 (1991),河

(1995)).

誰 にで もおいそれ と真似 ので きない大 がか りなプ ロジェク ト研究 だったわ け .その意味ではパ ソコンを使用 した藤澤 (1984,1985)や米井 (1986,1989) の研究 は研究活動へのパ ソコン利用の有効性 をしめ し,パソコンに よるコン ピュータ利用研究 を身近 な ものにした と言 える.藤澤や米井 は語彙や文字の頻 度 を出 した り,語彙 を逆引 き配列 にして派生語や複合語な どの語彙家族 を抽出 す る 目的 でパ ソコ ンを利 用 して い るのだが,プロ グ ラ ミング言語 として

BASICが使 われている

.し

たがって

,そ

れな りに高度 なプログラ ミング技術が 必要だったわ けで,ち ょっ と使 い方 をおぼえて とい うわけにはいかなかった。

しか し,パソコンの分野の発展 は急速で,現在で はテキス トデータの処理 な ら

啓 zu︒ 憔

‑187‑―

(2)

汎用性の高いテキス ト処理 ツール群 を活用するだけでかな りの ことがで きるよ うになっている.事,藤澤や米井のお こなった ような研究 は,現在の高性能 なパ ソコンな らこれ らの汎用 ツールを組 み合わせ るだけでほ とん ど実現可能で ある

.

汎用テキス ト処理 ツール とい うのはテキス トファイル を扱 って各種の処理 を して くれ る汎用性の高いツールで,も ともとUNIXのコマ ン ドやツールだった ものが多 く

,現

在では MS―DOSなどに移植 され,パ ソコンで も気軽 に使 えるよ うになっている.こ ういったツールの利点 をまずあげるな ら,使い方が易 しく

複 雑 な プ ログ ラム を組 む必 要 が な い とい う こ と と

,イ

ンターネ ッ トやCD―

ROMで容易 に入手可能 とい うことが指摘で きるだろう.一般的な ものを列挙 す るな らCUTや FOLDや SORTや UNIQや REVや COMMや WCや DD

NLや PASTEやSPLITや TRや GREPや SEDや AWKなどがある.こ れ らのツールは多 くの一般の利用者 を予想 しているワープロソフ トの ような も のではな く.言わばプロのひ との使 う小道具である.だか ら取 っ付 きに くい面 もないわけではないが,使い方のコツさえつかんで しまえば,研究補助手段 と して極 めて有効 な道具 になって くれ るものである.使い方 といって もSEDと

AWK以外 は MS―DOSのコマ ン ドを利用す るの となんら違いはない.ただ し

,

SEDやAWKを使 う場合 は,最低で も数行程度のスク リプ トを自分で書 ける必 要がある.ま,他人の書いたあまり難 しくないスク リプ トであれば意味があ る程度 は理解で き,必要 に応 じて書 きかえができる ぐらいの知識 は身 につけた ほ うがいいだろう.私自身 はようや くこの レヴェルで しかない.

現在,汎用テキス ト処理 ツールはどの程度言語研究 に利用 されているだろう か。 日本ではSORTFや MCLや KKCなどが文系の研究者 によって開発 され た りしているし:)「パ ソコンを使 う日本語研究」(明治書院

)な

どを読 めば分か るがかな り有効 に利用 されつつあるようだドイツでは,どうい うわ けか,汎

用 テキス ト処理 ツールは人文系研究者 にはほ とん ど利用 されていないのか,「 文系科学 におけるコンピュータの利用」 とい うような題の本 を見て もまった く 触れ られていない.W.Lenders(1993):「応用言語学 におけるコンピュータ の利用」 はコーパスの利用が中心の論文集で,コーパス利用のためのツール と い う章が設 けられているにもかかわ らず,扱われているツールはインデクスや コンコーダ ンスや語彙統計 の統合 ソフ トの

WordCrurlcherや

MicrO―OCPや TACTなどである.特定の使用 目的 に縛 られない汎用テキス ト処理 ツール は

まった く扱われていない.しか し,Do Hein(1995)は UNIXや LINUX上

‑188‑

(3)

の使用であるが,汎用テキス ト処理 ツールを活用 した語彙や形態素の研究 とい う内容でドイツ語圏で もいずれ汎用テキス ト処理 ツールがパ ソコン上で利用 され るようになって くるだろう.いずれ にして も,汎用テキス ト処理 ツールの 利用状況 は,おそらく,日本語 に対応 した語学研究用の市販 ソフ トが未発達な

こともあってか現段階では日本のほうがはるかに進んでいるようだ.

さて,本稿 では,私自身の研究内容か ら具体例 をひきなが ら,パソコンと汎 用テキス ト処理 ツールがひ らく可能性 を紹介 してい くつ もりである.しか し

,

この種のツールは汎用であって も万能ではない。 また,私自身の関心分野が限 られているとい うこともある.したがって,以下で汎用テキス ト処理 ツールで 可能 になる ドイツ語研究 として とりあげているのは,主として文字か ら語句 レ ヴェル までの文字列が関係 した研究である.

1.データの整理 と頻度調査

1.l SORTで数値データを整理する方法

SORTはテキス トファイルの行 をい ろい ろな方法 で並べか えるツールだ.

MS―

DOSに も付 いて くるが

これ は扱 えるテキス トファイルの大 きさも制限 され るうえ,並べかえの種類 も少な く,非力である.幸,UNIXの SORTに

準 じた ものがかな り作 られていて,フ リーウェア として提供 されている。SORT

は語学研究で もいろいろと役 に立つツールで,城

(1996)で

は一行一語の語 彙 リス トか ら逆引 き辞典 を作成するのに利用 している.この節ではSORTの 用例 として数値 をソー トして数値 データを整理 し,分析 に役立てる例 を示そう.

次のページのデータは

Eo Roschの

プロ トタイプ とよばれ る意味の理論 に基 いた もので,「家具 (furnittlre,Mё

bel)」

の各種の成員 について「家具 らしさ」

の評点 をしめしている.被験者 に1か

7の

7段階で典型性 を評価 させ,そ

平均 をとった数値である。4が平均的成員 をあらわ し,「ふつ うの家具」という 意味だ.数値が

1に

近いほ どよ り典型的な成員 とい うことで,逆に数値が

7に

近づ けばよ り非典型的な成員 ということになる.イ スやテーブルはアメ リカ人

に とって もドイツ人 に とって ももっとも典型的な家具であ り,電話や灰皿 は非 典型的な家具であ り,アメ リカ人 も ドイツ人 も6以下の数値 をつけている.デ タの読 み方だが,ア メ リカ人学生 (200人)による数値が(a)だ.こ れ はE.Rosch 自身の研究 にある数値である.(b)は詳細 は不明だが,アメ リカ留学中の ドイ ツ人学生 (複)がドイツ語 に対 して出 した結果 として

Jo R.Taylor(1995,

p.57)に紹介 されている数値である.ただ し,実際 にどういう ドイツ語の単語

‑189‑

(4)

に対 して ドイツ人学生の判断を調査 したのかは不明である。最後の (c)は アメ リカ人 とドイツ人の数値の差の絶対値 を出 した ものだ.な,各行 はアメ リカ 人のデータで数値の小 さい ものか ら並べてある.

■ プ ロ トタイプ としての「家具」

(a)アメ リカ人のつけた評点 lb)ドイツ人のつけた評点

C)評点の差の絶対値

chair sofa table desk bed bookcase cabinet lamp cupboard stereo TV shelf closet ashtray telephone

(a)       (b) 1.04      1.20 1.04      1.13 1.10      1.00 1.54      1.20 1.58      1.00 2.15      1.47 2.49      1.73 2.94      4.79 4.27      1.20 4.32      6.64

4。

41      6.07 4.52      2.00

5。

95      1.20 6.35      6.80 6.68      6.80

C)

0。

16 0.09 0.10 0.34 0.58 0.68 0.76 1.85 3.07 2.32 1.66 2.52 4.75 0.45

0。

12

それでは,アメ リカ人 とドイツ人の各種家具の典型性 の判断の差の大 きい も のについて しらべたい場合 はどうすればいいだろう.ま,知りたいのは評点 の差の大 きい「家具」が どんな ものか とい うことであろう。(c)の数値の大 き いほうか ら順 に見てい くのが研究方法の手順 としてはよさそうだ.15行程度の データで もこれ を正確 にや ろうとす ると,手作業ではけっこう難 しいのではな いだろうか.ま,15行程度 な らや る気 はお こるが,対象の量がふ え,50行

100行

のデータに順番 をつける作業 となると,これ はもう人間業ではない.こ

‑190‑

(5)

い う仕事 を文句 も言わずにやって くれ るのがSORTとい うツールで,各行 を差 の大 きいほ うか ら何万行 で も並べか える ことがで きる.chairか telephone

までの15行をテキス トファイルにして kagu.datと い う名前にしてお こう.差

異 の大 きい順 に並 べ替 えて結果 を kagu.srtに 出力 す るには,UNIX仕様 の

SORT(MS―DOSに付属 の sort.exeで は こうい う使 い方はで きない)の 場合だ とコマ ン ドラインに次の ように打ち込む

.

sort―

nr +3 kagu.dat > kaguosrt

rlrは

オプション指定 と言われるものだが

,こ

こで

nは

「数字 としての並べ替 え」を指定 している

(実

はこの例では

nは

ぁってもな くても結果は同じ

).rは

「大 きい順から並べかえ

(降

順 )」 という意味だ。― nrの 次の

+3は

「行

(レ

コー ド)の 先頭から並べ替 えるのではな く

,3つ

先の項目 (フ ィール ド

)か

ら並べ替 え」という指定だ.kagu.srtと いう名前のファイルに結果は保存されるが

,内

容は次のようになっている

.

closet cupboard shelf stereo lamp TV cabinet bookcase bed ashtray desk chair telephone table sofa

5。

95 4.27 4.52 4.32 2.94 4.41 2.49 2.15 1.58 6.35 1.54 1.04 6.68 1.10 1.04

1.20 1.20 2.00 6.64 4.79 6.07 1.73 1.47 1.00 6.80 1.20 1.20 6.80 1.00 1.13

4.75 3.07 2.52 2.32 1.85 1.66

0。

76 0.68 0.58 0.45 0.34

0。

16

0。

12 0.10 0.09

(6)

結果 を見 てみると,家具性の判断の違いが大 きいのはなん らかの収納家具で あ るdosetや

cupboardや

shelfや cabinetやbookcaseでいずれ の場合 も ド イツ人の方が よ り典型的だ と判断 している.また,電 化製品(stereO,la面p,TV) についてはアメ リカ人のほうはまあ家具 として認知 しているようであるが イツ人 は家具 とは見なしていない ことも上の結果か ら読み取れ る.それか ら,

ベ ッ トであるが,アメ リカ人 にとって もドイツ人 に とって も典型的な家具であ る点 には違 いがないがドイツ人 に とってはbedはtableと並んで もっ とも典 型的な家具であるのにたい して,アメ リカ人 のほうはそれほどで もない とい う 結果 になっている点が 目につ く.closetと

cupboardと

shelfについては,「収納 家具」 とい う観点以外 に も家具の可動性aに関す る判断のずれが ドイツ語 と英 語 のあいだ にあ る と思 わ れ るが,詳細 は注 で述 べ る こ とに して,こ こで は

SORTがこの ような数値 データの整理 に大 いに役立 つ ものだ とい うことを確 認 して,先に進みたい.

1.2 SORTと UNIQで語彙や文字の頻度 を しらべる方法

SORTと UNIQの

cオ

プションでテキス トフアイルの各行 の頻度が簡単 に しらべ られ る。1行めがB,2行めがA,3行めがBとな らんだテキス トファイ ル を考 えてみよう

.B―

A―Bは SORTで並べか えるとA―

B―

Bにな る.さ らに

UNIQに

cオ

プシ ョンをつけてソー ト済みフアイルを処理す ると

,連

続す る同 一行 をかぞえ,Aや Bの頻度 をしらべ,lAや2Bのように同一行数 を前 につ けて打 ち出 して くれ る.UNIQの行頭 の数字 の付 け方 は,通,行頭 にい くつ かスペースをおいてか ら数字 を出力 し,その後 にまたスペースをい くつか入れ るようになっているようだ.ただ し,次の例 にあるように数字 をかっこ付 きで 出力す るもの もある.

抽象的な説明だけで は分か りづ らい と思 うので,3つのステップを具体例で

示 してお こう.

a.行の内容が数 えたい内容 になっているテキス トデータを用意する.

la,la,nein,nein la,la,la,nein la,la,nein,nein ia,nein,ja,la

‑192‑

(7)

bo SORTで

並べかえ

,同

一行が連続するようにする

(2行

めと

3行

め ).

la,la,la,nein la,la,ne:n,ne:n la,la,nein,nein la,nein,la,la

C.UNIQ― Cで

同一行をまとめ

,同

一行が何行あったか計算 させる

.

[1]ia,ia,ia,nein

[2]ia,ia,nein,nein

[1]ia,nein,ia,ia

簡単 なアンケー トの集計 のようなことをしているわけだが,行単位で完全 に同' 一の行だけをかぞえていて,た とえばコンマ区切 リデータの

2つ

めに

jaが

い く つで

neinが

い くつ とい うような各項 目ごとの集計 はで きない:)そうい う目的 な らAWKとい う使 い方のやや難 しいツールな どを使 う必要がある.と はい ,同一行 をかぞえて くれ るだけで も語彙や文字の頻度などをかぞえるには十 分 な機能である.

文字 (列)や語彙の頻度調査のポイン トは,行の内容がかぞえたい単位 にな るようなデータをつ くることである.通常のテキス トデータか ら一行一単位 の データをつ くるのに役 に立つのがや は り汎用テキス ト処理 ツールのFOLDや CUTや REVや WORDなどである.汎用テキス ト処理 ツール を使 った文字頻 度 の調査法 を簡単 にまとめてお こう.

テキス トファイルであれば何であれ行 を指定 した桁数で折 り返 して くれるの FOLDだ

.ふ

つ うは,‑70などを指定 して70桁で文章 を折 りかえすのに利用 す るツールだが,‑1を指定すれば1桁めで折 りかえして くれ,テキス トデータ を一行―字の文字 リス トに変換す ることがで きる.たとえばファイルtestodat の内容が「Tokio」 で「fold‑l test.dat>fold.dat」 とプロンプ トで打ち込め ば,fold.datの 内容 は次の ように一行 に一字ずつになる.

(8)

T   o   k 一  

・ I

0

あ とは

,上

で見た ように,SORTと UNIQで文字頻度が計算で きる.もちろん,

test.datの 中身 は「Tokio」 の ように短 い ものでな く,長けれ ば長 いほ どコン ピュータのあ りがたみが分か る.

また,すでに一行一語のデータが作成 してあって,語頭の文字の頻度が しら べたいような場合 もあるだ ろう

この場合 はCUTと い うツールで一clと 指定 すれば―字 めだけが切 り出せ,語頭の文字頻度が しらべ られ る。 また,語頭で はな く語末の文字の頻度が しらべたいな ら,まREVとい うツールで各行 の 内容 を反転 させて語末の文字 を語頭 に持 っていってか らCUTで一字 めを切 り 出せばよい.

文字頻度の調査の具体例 は掲載 しないが,実際に約

5.5万

語の辞書の見出 し 語 データ ([3]参)や

100万

字のフロッピー版実用文例集のテキス トデー

タで文字頻度 をしらべた結果が城岡

(1996)に

出 してある.

文字頻度ではな く,語彙の頻度が しらべたいなら,テキス トファイル を一行 一語 に変換す るツールがい くつか出回っているようである.WORDと い う名 前 になっていた りす るが,この種の単語抽出ツールは研究 目的の使用 にはあま

り向かない と思 う.なぜな ら,単語の識別 はかな り難 しい面 もあって,う ま く 単語 に切 り分 けられなかった り,ひとつの単語が分断 されて しまった りするか

らである。とい うの も,WORDなどの自動単語切 り分 けツールの標準の単語の 定義 は「英字か""で始 まり英数字か""の続 いた もの」 とい う英語かつプロ グラマ向けの仕様 になっているらしく

,た

とえばウムラウ トを

Schlo¥sの

よう ¥をつ けてあ らわ している と,これ は一語 とは認識 されず,¥は削除 され

,

Schloと

sの

2語に分割 されて しまうのである.し たがって

,研

究 目的の厳密な 仕事 に使 うな ら,原始的な方法だが,テキス トエデ ィタな どでスペースを改行 に一括置 き換 えした うえで(WORDでも一sオ プションを指定すれば可能),対

象のテキス トデータの内容 をその都度実際 に見なが ら不要な記号 を削除 した り 改行 に置 き換 えた りして一行一語の語彙 リス トを整理 したほうが確実だ ろう. ただ し,テキス ト中の全スペースを改行 に一括置 き換 えした場合で も,余計 な

(9)

削除がされないのはいいのだが,ピリオ ドや コンマな どはそのまま残 されて し まうか らあ とで これ らを一括削除する必要がある.ま,た とえば「z.B.」

真ん中にスペースをあけて書いてあると,これ は当然2語に分析 されて しまう か らこうい う切 り分 け過 ぎの例 を探 し出 して対応 す る必要 もある

(も

っ とも z.B.の場合 はもともと2語か らなる略語で,1単位 なのか2単位 と見 なすべ き なのか判断の難 しい場合 なのだが).反 対 に der/dieな どと斜線 をはさんで続 け て書かれている個所が あれば,全体が1語とい う扱いになる.したがって,ど

うい う方法で文章 を単語 に切 り分 けた として も,厳密 に調査す る場合 は後処理 が欠かせないようだ.

アメ リカのパ ソコン通信のCompuserve経由で (サー ビス内容 は同一ではな いがインターネ ッ トで も提供 されている)SPIEGELの記事が現在入手可能 だ ,これはテキス トファイル として保存可能だ.週刊誌 Spiegelの

1996年

29号 か ら33号までの5冊分の記事 をあつめると,大

74本

の記事 になった (現 ではペーパー版のすべての記事が提供 されているわ けではな くセンク トされて いる).合計す る と約9万

3000語

のデータになった

([3.1]参

).必要 な処理 をほ どこして,頻度順 の語彙表 を作成 してみたのが次のページの上位60位の語 彙表 である.一番頻度 の高かつたの は

dieで

テキス ト中 に

2922回

出て きてい る。なお

,文

頭 の大文字 はその ままにしたのでdieと

Dieを

区別 している

.だ

18位

の ところにDieがふたたび出て きている.文頭 の大文字 を本来小文字 の ものは小文字 にして計量 したい場合 は元 のデータに手 を入 れ る必要が ある ,かな り面倒 な作業 にな りそうだ.

(10)

SP:EGELの

語彙の頻度順生起度数表

(文

頭の大文字は大文字 として計量 )

die der und in

den das zu

mit sich vOn nich ein ist im auf sie dem

des

Die

10

(2922) (2829) (1784) (1427) (1201) ( 887) ( 871) ( 869) ( 793) ( 762) ( 733) ( 705) ( 672) ( 620) ( 605) ( 594) ( 561) ( 556) ( 556) ( 556)

211主 221虹 231虹

2位

25位 26位 27位 28位 29位 29位 31位 32位 33位

341虹 351虹 36̀虹 371虹 381主

39位 40位

41位 42位 43位 45位

461虹

47位 48位 49位 50位 51位 52位 53位

541立 551虹 561立

571L

581虹 591立 601虹

er      ( 528)

eine    ( 522) als     ( 502) es      ( 462)

aus (445)

an      ( 407)

auch   ( 396)

Wie   (378)

nur    ( 373) hat    ( 373) da3    ( 364)

war  (355)

so     ( 318) nach   ( 316) noch   ( 315)

Das  (280)

einer  (274)

um   (271) einem (271) bei  (271)

Sie     ( 271)

ber   ( 270)

sind    ( 269) einen   ( 268)

haben  ( 266) vor    ( 253)

SPIEGEL(248) werden(243) Der   (238) ich   (230) wird  (226) zum  (220) am   (204)

hatte   ( 202)

oder   ( 200) schon  ( 194) aber   ( 187)

mehr (177) sein  (161) :n   (156)

実 は,こ こで述べたような頻度調査 はAWKだけで も実現で きる.文字頻度 については植村・富永(1993)にwmbol.awkとい うスク リプ トがあるし,Aho/

Kernighan/Weinberger(1989)や

Stallman他

(1993)に 語彙頻度 を計算す る スク リプ トの例が出ている.しか し,研究 目的での使用 を考 えると既 に述べた 単語認定の問題があるか ら,やは り,AWKは 使 わずに言わば手作業で単語 を 切 って,SORTと UNIQを使 って段階的 にしらべ るほ うが時間 はかか るが正 確だろう

.

1.3‑行―単位の リス トをCOMMで比較する方法

なん らかの共通語彙 を出すの にコンピュータを利用す るケースは これ まで多

‑196‑

(11)

かったように思 う(植

(1982),菊

(1983),米

(1986),森

(1991)).COMM

とい う汎用 ツール を使 えば

2つ

の語彙 リス トが簡単 に比較で きる.共通語彙だ けを求めるな ら,3つ以上の語彙 リス トで も作業 を繰 り返すだけだ。実際 に

2つ

の語彙 リス トを比較 してみよう.重(1990)の301語の リス トをテキス トファ イルで一行一語の形式で入力 し,ファイル名 はshigetou.datと してお こう.重

藤の リス トに対抗す るかたちで発表 された近藤・ 川崎

(1991)の 324語

(女 形 も別の語 として計算)の リス トはkonkawa.datとしよう.いずれ もドイツ語 教育 のための最重要語彙 を策定 す る とい う背景 の もとで発表 された ものだ

.

COMMで比較す るには,一行一語でつ くったテキス トファイルの リス トの各 行 をあらか じめソー トしてお く.ふたつの リス トの共通部分や差異部分 をしら べ るには

,

conlln shigetou.dat konkawa.dat > kekka.dat

とす るだけである。重藤だけにある語彙,近藤・ 川崎 にだけある語彙,共通語 彙の

3つ

kekka.datに

書 き込 まれている.重藤だ けが

110語

,共通語彙が

191語

,近藤・り

│1崎

だけが

133語

だった.近藤・り‖崎の語彙 リス トが重藤の語 彙 リス トに対抗 して発表 された経緯 を考 える と

191語

とい う共通語彙 は意外 に 多い感 じがす る.中身 を比較す ると,近藤 0川 崎 は「学問的な所産 としての基 礎語彙」ではな く「意志表示の手段」 としての「共通基本単語」 を模索 してい るわ りには

Butter,Eis,Fisch,Geld,Name,Wasser,freiな

どが欠 けている.

また,近藤・ 川崎 にあって重藤 にない語彙りには Arzt,Ausstellung,Bus,Caf6,

Durst,Hunger,Kaufhaus,Kottzert,Museurn,Rathaus,Platz,U―

Bahn,billig, falschな ,たとえば ドイツ旅行 な どの際には知 っていて よかった と言 えそう な語彙が 目立つ.

■ 重藤 (1990)と 近藤・ 川崎

(1991)に

共通する

191語

Abend,Auto,Berg,Bett,Bier,B‖

d,Blume,Brief,Brot,Bruder,Buch,Eltern, Fanlilie,Fenster,Frau,Freund,Garten,Glas,Haus, Heft, Herr,Jahr,Junge, Kuche, Kaffee, Kind, Kino, Kirche, Kuchen, Land, Leute, Madchen, Mann,

Meer,Milch,Monat,Morgen,Mutter,Nacht,Onkel,Schuh,Schwester,Stadt,

StraBe,Student,Stunde,Suppe,Tag,丁

ante,Tee,Tisch,Tochter,Uhr,Vater,

Wagen,Wein,Wetter,Zeit,Zirnmer,Zug,uber,aber,a:s,alt,an,antworten,

(12)

arbeiten, auch, auf, aus, bald, bei, bleiben, durfen, da, daB, danken, dann, denn,doch,dort,durch,einmal,essen,fur,fahren,finden,fruh,fragen,geben, gehOren, gehen, genug, gerade, gern, gestern, glauben, gleich, groS, gut,

h●

ren,haben,halb,halten,heiSen,helfen,heute,hier,hoch,immer,in,ia,ietzt, iung,ka比

,kaufen,kennen,klein,kommen,krank,kurz,lang,lassen,laufen,

legen,lernen,lesen,letzt,liegen,rnёgen,rnussen,rnachen,rnorgen,nachst,

nach,nehmen,nein,neu,nicht,noch,nur,ob,oder,oft,regnen,sagen,schOn,

schlecht,schne‖,schon,schreiben,schwer,sehen,sehr, seit,setzen, so‖en, spat,spielen,sprechen,stehen,studieren,teuer,tragen,trinken,tun,unl,und, verstehen, viel, vie‖eicht, von, vor, wahrend, wann, warrn, warten, warurni

weil,weit,wenn,werden,wie,wieder,wissen,wo,wohnen,wollen,zeigen, zlehen,zu

■ 重 藤

(1990)に

あ って近 藤・ 川 崎

(1991)に

な い

110語

Apfel,Arrn,Auge,Baunl,Butter,Dorf,Ei,Eis,Erde,Fe!d,Feuer,Fisch,FuB, Geld,Haar,Hand,Herz,Himmel,Hund,Katze,Klasse,Kleid,Kopf,Kuh,Licht, Luft,Mensch,Mond,Name,Papier,Rose,Schiff,Schnee,Se:te,Sonne,Stuck,

Stein, Tur, Tier,Vogёl,Volk, Wald, Wasser, Weg, Wind, offnen, a‖

, also,

ander, arrn, beide, bis, brechen, dick, einander, einige, erst, etwas, fa‖ en, fliegen,frei,ganz,gegen,gesund,heiB,hell,her,hinter,leder,iemand,kaum, klug,lachen,:eben,rnude,nah,neben,nichts,nun,ohne,plltz‖ch,recht,reich, reisen, rufen, schlafen, schwach, sich, sicher, singen, sitzen, so, sOndern, stark,statt,sterben,tanzen,tief,tot,trotz,unter,wahr,was,waschen,weg, wer,wohl,zuruck,zusammen,zwischen

■ 近 藤・ 川 崎

(1991)に

あ って重 藤

(1990)に

な い

133語

Anzug, Arzt, Ausf:ug, AuslandP Ausste‖ ung, Bahnhof, Bib‖othek, Bluse,

Bri‖

e, Bus, Caf6, Chenlie, Durst, Elektronik, Fahrkarte, Fahrrad, Ferien, Fieber,F‖ rn, Firma, FluS, Fraulein, Freundin, FuBba‖ , Geburtstag, Geschaft, Geschenk, Geschichte, Gitarre, Hemd, Hunger, Jura, Kaufhaus, Klavier, Konzert, Kopfschmerzen, Kugelschreiber, Lehrer, Lehrerin, Mensa, Mittag, Motorrad, Museunl, Musik,Nachnlittag,Platz, Prufung, Rathaus, Referat,

Reise,Rock,Roman,Rundfahrt,Sch口

ler,Sch口lerin,Schauspiel,Schule,See,

‑198‑

(13)

Senlinar, Sohn, Studentin, Stuhl, Tasche,Tasse, Theater, U― Bahn, Univer‐

sitat, unterricht, Vorrnittag, Wand, Woche, Wohnung, Wurst, Zeitschrift, Zeitung, abholen, anfangen, ankornrnen, anrufen, aufstehen, aussehen, be…

kornrnen,bestehen,besuchen,billig,bitten,brauchen,bringen,dauern,denⅢ ken, donnern, einladen, entschuldigen, erinnern, falsch, fernsehen, freuen, freund‖ch,gefa‖ en,interessant,interessieren,kOnnen,kennenlernen,kochen, kosten, langsarn, leicht, :eider, lieben, links, nlit, rauchen, rechts, richtig, ruhig,schenken,schicken,schmecken,schwimmen,sein,stattfinden,ste‖ en, teilnehmen, treffen, umsteigen, unterhalten, verheiratet, vorste‖ en, wun‐

schen,wandern,wenig,woher,wohin

ふ たつの語彙 リス トか ら共通部分 と差異部分 を出 したわ けだが,たった これだ

けの こ とで もパ ソコ ン とCOMMが な けれ ばかな り大変 な作業 にな って しま う に違 いない.

2.検索 ツール を利 用 す る

も とはUNIXの GREPを意識 してつ くられ た テ キ ス トデー タ検 索 ツール に

GREPがあ る.名称 の ど こか にGREPが含 まれ る ツール がMS―DOS用

Windows用 としてか な り出 回 ってい る.私の手元 にあ る もので は,AGREP, CGREP, DDJGREP, DGREP, FGREP, FZGREP, GREP32, GREPFV, MGREP,PSGREP,QGREP,QTGREP,SGREP,VGREP,WGREP,XGREP, YGREPなどが あ る.加えて,同等 の ツール で も名称 にGREPが含 まれ ない こ

ともあるわ けだか らパ ソコン通信 や イ ンターネ ッ トや雑誌 の付録 として出回 っ てい るテキス トフ ァイルか ら文字列 を検 索 す るツールの数 はか な り膨 大 な もの で あ るこれだ け多 くの検 索 ツールが つ くられてい るの は,この種 の検 索 ツー ル の需要 の高 さを示 してい るわ けだが,ま,供給 過 多 とも思 える くらい提供 され てい るの は,使用 目的や検 索 の多様性 に対応 してい る もの と見 る こ とが で きる。圧縮 フ ァイル に対応 してい る もの,VZ Editorなどで可能 なタグジャン (後)に対応 した タグ出力 の可能 な もの な どあ るか ら,自分 の 目的 にあ っ た もの を探 す必 要が あ る.一般 的 に言 って,この種 の検 索 ツールで は正規表現り が使 える もの とそ うで ない ものが あ るが

,正

規 表現 の使 えるGREPでは正規表 現 の本領 を発揮 す るような使 い方 を した い。たんな る語旬 の検 索 な らKWIC形

式 の出力 が可能 な ものの ほ うが語学研究 には使 いやす いだ ろう.KWICと い う

‑199‑―

(14)

のは

Key Word in Contextの

略で もともとIBMで開発 された用語索引作成 シ ステムだったようだ (伊藤 (1996)).こ の形式の出力 はキーワー ドの位置 を固 定 しているので出カデータが見やす く,と くに大量のデータの場合 はたんに該 当行 を表示す るGREPにはない見通 しのよさが有 り難 い.正規表現 は扱 えない ,KⅥC形式で出力 して くれる検索 ツールに浜 口崇 さんのKKCがある.語

学研究・学習用に開発 された ソフ トで,MS―DOS版はフ リー ソフ トだが,Win‐

dows版が シェアウェア となっている.

elと ともに単数形 で使 われ る名詞 について考 えてみ ようとした ことがあ .実証的な研究 には用例が欠かせない.そもそ もどんな名詞が単数で無変化 の 宙elと使われ るのか.次にあげるのは,テキス トファイルにしたUniversal‐

wёrterbuchOを 対象にKKCで elを検索 した出力の一部だ.

KKCの出力

(左

下がりの斜線

̀、

たつで一組でウ

"テキス トフ ァイル版Universalworterbuchで dを検索

は元のデータに改行があったところで,右下が りの斜線はその次の文字と ムラウ トやエスツェットをあらわしている

)

nhヽarenく

hat>: dor/WInd hat v■ e■  Schnee′  Sand′ v■ o■ O B■ ヽ

atter auFenく

■8t>: h■

er"oht 

■ mmer v■ e■ ′sand an.′ ′anwe■

80■

ノくot. V.′

e n3t′

 Gowa■ t a.′

 

口 ir haben vie■  8orgfa■ t′ /Mtuhe auF d■

o Sach

t)′

 C)benヽ

otigen′  brauchen= v■ eユ  Ratn′  Zeit b.′ ノノ

Beanspruchun

etwag b。 ′

 80in/Nane bedoutet v■

e■  in der Fach● o■ t′  oo■

d bedout it den ALL.:>dazu bedar eg vie■

 oo■ d′ ノノ Bedlurfn■ 8′ ノ

das, 

80g

hgr■

fF nehnen3 0●   ■ St noch v■ e■  Po8t Zu er■ edigen′ ′

ich werdo

O■ n80tZen′ ノau=b■ oten3 0r hat v■ o■

 Mヽ uhe′ Zeit darangemndt′  dL

V■ eユ O Go■ d Cer bedauerte′  30 Vie■  oo■ d auagegeben zu/habanD。 ノノ

Wain gchnecht F. Chat a■

Cht vie■  ce8ChnaCL). 4.ノ

̀abwertend)o

ノ′ f■

acuヽ

qpFigノ く

nd哺

.>: n■ dht vie■  oo■ 8t b03itZend′  9o■

Stユ

● 8Fノ ノ

Inner wieder 

 F. greiFen cv■ eユ A■ Lohoユ ′ LInLen′  A■ヒoho■ ■

Ler

anpFung vOn schヽ

ad■

ingan。  2. v■ o■

 Ram b■etend od./beanspruno

oヽ ― rdiener′ ′der8 ,ユ d.′  dOr v■ e■  Oo■ d verdLent′ der ein g=0ヽ 8

Pユ

.> Cu98.)VerStand: nicht v■

o■ 0。  haben.ノ ノ

Cr、utz‑3t′

ノ dLo

fer′

ノder c8● ユ●

pp): 

nd・ ′  der v■ e■

 Sonaps tr■nkt′

/harmkヽ

amp

■n aユ ter H. 80in Cug3.′  80hr Vie■

 

rabrungノ

EIn einer beatユ

nt

ubo: dユ o H. 8Ch■

ieヽ

8t nユ

Cht′

 v■ eユ

 LaFtノ unter der口

. haben c[▼

h′  da` 3′  danit′  daヽ 88 0= hat v■ e■ ノ

Oo■

d sparen Lヽ onnen′

 i. er e

du8tr■ 08tadt′ ノ d■

o: Stadtロ

tv■

o■  Indugtrie′ ′

/1ndustriomteme

: in et●

. 80ina ganzo 

КraFt′  v■ e■  Zeit i.′  inノ jndn. 30in Cefヽ

u

.A3 26040

Ш .A: 26841

.A: 26075

UN=.B:   470■

UNE.B:   546■

.B3   50■

UN=.D8   890

UNぼ

.D8   

096

UN=。

D:   30■ 7

UN=.F:  

3■ 34

UN匡

.F8  

3■ 99

‑.F:  

377■

UNE.C:  20079

‑。

C:  2904■

UNぼ 。C:  30984

UNE.H:   6■ 60

UN肛 。日:   6316

‑.H:   6640

‑.工 :   3239

い 工

.工 :   4■ 04 UNE.工 :   9787

出力結果 をみると,宙elが必ず一定位置(用例部分の中央)に来 るようになって いて,宙elの部分 にす ぐ目がいき,宙 elについて他の語 との結びつきをしらべる には便禾Uなかたちだ.これがKWIC形式である.UNI.Aと い うのはファイル名

,一行 めの冒頭の「

UNI.A:26840」

とい う部分 はUNIoAの

26840行

め とい う意味であ り,これがいわゆるタグ出力 と呼ばれ るもので,対応 したエディタ ソフ トだった らこの情報 をもとに一定の操作でファイルUNI.Aを自動的 に開

‑200‑

(15)

いて くれ,該当個 所 まで ジ ャ ンプ して くれ る.この タグジ ャンプ機能 は,検 ツール の出力行 がふつ う一行 なので,前後 の文脈 が見 た い場 合 には非 常 に有効 な機能 だ.

用例 を探 す 目的 な ら用例辞典 も使 える.現代 ドイ ツ語 の用例辞典 で代 表 的 な もの とい えば

Duden Stilwё

rterbuchと東 ドイ ツか ら出 て いた

rter und Wendungenがあ るが,宙elと 単数 の名詞 の組 み合 わせ を しらべ てみ る と,そ ぞれ 宙elの項 目にあ る例 文 の中か らさが して

,Aufheben,Blut,Geld,Gemilse,

Gluck,HumOr,Liebe,Muhe,Milch,Spa3,Vergnugen,wesen,Zeit,Wille, Sttmuckの合計

15種

類 の名詞 が語 尾 の無 い 宙elと 使 われ ていた.おそ ら く

,

辞 書 の 中 を くまな く探 す こ とが で きれ ば,宙el以外 の項 目の解 説 文 や例 文 に 宙elと 単数名詞 の例 が もっ ともっ と見 つか るはずだ.し か し,よ ほ ど暇 を持 て余 して い るので な けれ ば辞書 の中 に散 らばってい る用例 を しらみつぶ しに見 てい く と い う方 法 は 実 用 性 が な い.紙の 辞 書 の 限 界 だ.上記 のKKCと

Uni…

versalwёrterbuchで し らべ た結果 は,2冊の用例辞典 あわせ て も

15例

しか な か ったの に,なん と一冊 の辞 書 で

163種

類 の「語 尾 を とらない 宙el+単数名詞 」 が見 つか つた.以下 が その

163語

.

■ 無語尾 の 宙dと使 われ ていた

163語

の単数名詞

Alkohol,AlkoholgenuB,Anlauf,Applaus,Arbeit,Aufheben,Aufwand,Aus‐

dauer, Ausdruck, Beifa‖ , Benzin, Betrieb, Bewegung, Blut, BlutvergieSen, Bravour, Brimboriunl, Busen, Butter, Champagner, Druck, Einsatz, Elan, Energie, Erde, Erfahrung, Erfo!g, Federle,en, Feingefuhl, Fett, Fettgewebe, Feuer, Flei3, Fleisch, Freude, Futter, Cas, Gaudi, Geachze, GedOns, Geduld,

Gefuhl,ceist,Celaufe,Geld,Gemut,Gepack,Gerausch,cerOll,Gerede,Ge¨

schick, Geschirr, Geschmack, Geschrei, Gesums, Getёse, Gewicht, GI口 ck, Grutze,Gutes,Harte,Harz,He‖ igkeit,Ho:z,:gnoranz,lndustrie,inforrnation,

K6rper,Kummel,Kaffee,Kalk,Kapital,Karamel,Kiki,Klamauk,Kleidung, Kohle,Komfort,Kompost,Kraft,Kram,Ktttik,Kummer,Larm,Lametta,

Land, Langmut, Laub, Leid, Licht, M口 he, Macht, Mark, Meerrettich, Mi!ch,

Mut,Pech,Pfeffer,Pflege,Phantasie,Platz,Post,Power,Raunl,Ruhe,Saft,

Salz, Sand, Schё nheit, Schatten, ScheiS, Schlacke, Schlacken, Schlacker‐

schnee,Sch:arnrn,Schmalz,Schmutz,Schnaps,Schnee,Schrott,SchuBkraft,

Schwei3, Schweres, Schwung, Sekt, Sinn, Sonne, Sorge, SOrgfalt, Spa3,

‑201‑

(16)

Sport,Staub,Stoff,Stroh,Sums,Tages‖

cht,丁akt,Trubel,Umsicht,Unsinn, Unverstand, VerdruB, Vergnugen, verkehr, Verstandnis, verstand, Verve, Vieh, Warrne, wasser, Wert, WeSen, Wucht, ZundstOff, Zank, Zeit, Zeug, Zucker,Zuneigung,Zuwendung,Arger,01,Obung

私の関心 は

,vielと

ともに単数形でつかわれる上記の名詞の複数形がそもそ も可能 なのか どうか,また可能だ として どのような場合 につかわれ るのか とい うことである。まだ,結論 は出 していないが,KKCのおかげで具体的に問題 を 考 える準備 はで きたわけである.

3.AWKを使 ったやや高度 なテキス ト処理

AWKは検索や削除や変換だけでな く計算機能 も備わった複合 ツールで,使

こなすのが上で述べた他のツール とくらべてやや難 しいが,語学研究でテキス トデータを扱 う際には極 めて有効 な手段 になる.複数の検索が一度 にで きるだ けでな く,集計作業 も同時 にこなす ことがで きるし,特定の文字 (列)を削除 した うえで削除後の語形 をかぞえることも可能だ。私自身の取 り組みか ら二つ の事例 を紹介 してみよう.いずれ も調査の対象 として三冊 の辞書か ら取 り出 し て整理 したデータを利用 しているので,これ について手短かに説明 してお こう.

これは3冊の電子ブック

(「

クラウン独和辞典」

,Langenscheidts Eurowё rter‐

buch ltahenisch, Langenscheidts Data Disc Wёrterbuch Franzё

sisch)か

抜 き出 した ドイツ語 の見 出 し語 を一行一語 に整理 したデータ (詳し くは城 岡 (1996)を 参照)で現時点で

55464語

になっている.こ こではjisho.datと 名付 けてお く.

3。

ドイツ語のつづ りの読み方の規則 を頻度 か ら検討する

文法項 目の扱いはともすれば網羅的になって しまう.文法 には空欄のない表 が多いのはそのためだろう。私 は城岡

(1994)で

動詞の人称変化形の頻度 を各 種のテキス トで調査 して頻度のいち じるしい差 を確認 している.つづ りの扱い 方 も二般 にかな り網羅的である.

ドイツ語では dtと い うつづ りはた とえば

[t]と

い う発音 をす る.これ は規則 として覚 えない とひ とりでに読 めるようにはならない.だか ら,教科書 な どで はこのようなローマ字 とは異なる ドイツ語固有の読み方をする文字列 (以下 こ れ を学習つづ りと呼ぶ)の読み方 を最初 に学習す ることになっている.しか し,

‑202‑―

(17)

学習つづ りはすべて同 じように重要なのだ ろうか.2字以上 の学習うづ りの主 な ものについてjisho.datを AWKで処理 して,頻度 をしらべてみた

.調

査では

語中の位置 による区別 はしなかった

.だ

か ら,spや stは 語頭の もの もあれば語 中や語末の もの も混 じっている.ま,音節内,音節間 とい う区別 もしていな .たとえば dtを

[t]と

発音 す るの は同一音節 に

dtが

あ る ときだ けで,Be‐

standteilや Landtagのように音節 をまたが る場合 にはこの規則 はあてはまら ない.だか ら,dtの読 み方の規則 を厳密 に考 える場合 は,音節間の ものは除外 す るな り,別にかぞえるな りしたほう力ヽゝい.しか しこれを簡単 に実現する 方法 は思いつかなかったので行 っていない.作業 に見合 うだけの結果が得 られ るか どうか分か らないが,この ような簡便 な調査ではな く本格的な調査が必要 であろう.なお,下 の結果 はAWKの出力 をSPLITとい うツールで

3つ

のファ イル に切 り分 けてか らPASTEと い うツールで横 につないだ もの を もとに し ている.ま,こ こでかぞえているのは語数であって,つづ りの出現 回数では ない.したがって,erが一語 に4回出て くるSonderberichterstatterも 一語 と しかかぞえていない。

学習つづ りは辞書の語彙にどれだけ含 まれているか

17299語(31.190%)tz  1555語(2.804%) 14565語(26.260%)nk  1482語(2.672%) 8890語(16.028%)ah  1385語(2.497%)

(55464語

中 )

ds   426語(0.768%) ph   381語

(0。

687%) qu   350語(0.631%) uh   321語(0.579%) aa  250語(0.451%) ih   200語

(0。

361%) ai   191語(0.34%) ps   165語(0.297%) dt   163語 (0.294%) Oh   127語 (0.229%) oo   79語

(0。

142%)

ay   28語(0.050%) ey   15語(0.027%) 7862語

(14。

175%)

7358語 (13.266%) 6411語 (11.559%) 5537語(9。983%) 4308語(7.767%) 3558語(6.415%) 2194語(3.956%) 2129語(3.839%)

1910語(3.綱%)

1884語(3.397%)

1871語(3.373%)

1317語(2.375%)

1068語(1.926%) 666語(1.201%) 660語(1.190%) 657語(1.185%) 589語(1.062%) 588語(1.060%)

9語(0.882%) 460語(0.829%) 451語(0.813%) 427語(0。770%)

参照

関連したドキュメント

いずれも深い考察に裏付けられた論考であり、裨益するところ大であるが、一方、広東語

式目おいて「清十即ついぜん」は伝統的な流れの中にあり、その ㈲

つまり、p 型の語が p 型の語を修飾するという関係になっている。しかし、p 型の語同士の Merge

自発的な文の生成の場合には、何らかの方法で numeration formation が 行われて、Lexicon の中の語彙から numeration

高等教育機関の日本語教育に関しては、まず、その代表となる「ドイツ語圏大学日本語 教育研究会( Japanisch an Hochschulen :以下 JaH ) 」 2 を紹介する。

その結果、 「ことばの力」の付く場とは、実は外(日本語教室外)の世界なのではないだろ

以上のような点から,〈読む〉 ことは今後も日本におけるドイツ語教育の目  

 さて,日本語として定着しつつある「ポスト真実」の原語は,英語の 'post- truth' である。この語が英語で市民権を得ることになったのは,2016年