• 検索結果がありません。

担当部分 : 第 17 章 コーパスに基づく第二言語習得研究 応用言語学特講発表資料 担当 : K.I. はじめにコンピュータの発展に伴って 大量の言語データを電子化して蓄積するとともに その言語データをコンピュータで効率よく処理することが可能になってきた 具体的にはある言語の母語話者の記述や発話

N/A
N/A
Protected

Academic year: 2021

シェア "担当部分 : 第 17 章 コーパスに基づく第二言語習得研究 応用言語学特講発表資料 担当 : K.I. はじめにコンピュータの発展に伴って 大量の言語データを電子化して蓄積するとともに その言語データをコンピュータで効率よく処理することが可能になってきた 具体的にはある言語の母語話者の記述や発話"

Copied!
10
0
0

読み込み中.... (全文を見る)

全文

(1)

1 応用言語学特講 発表資料 担当: K.I. 担当部分:第17 章 コーパスに基づく第二言語習得研究 はじめに コンピュータの発展に伴って、大量の言語データを電子化して蓄積するとともに、その 言語データをコンピュータで効率よく処理することが可能になってきた。具体的にはある 言語の母語話者の記述や発話、或いはその言語を外国語として学習している人がその言語 を書いたり話したりした内容をコーパスという形で蓄積し、コンピュータを用いて言語分 析を行うことが可能になってきたことを意味する。 本章では、まずコーパスとは何かを説明したのちに、英語の母語話者のコーパスの中か ら代表的なものを紹介する。続いて外国語学習者のコーパスをとりあげ、これらのコーパ スを用いてどのような第二言語習得研究が行われているのかを概説する。さらに、英語教 育におけるコーパスの活用事例を紹介して今後の可能性について考える。 1、 コーパスとは何か

インターネット上のMerriam-Webster Online Dictionary は、“corpus”を「発話記録を 収集したもので、言語の記述的分析の基礎データとして用いられるもの」と解釈できる定 義づけを行っている。しかし、現在のコンピュータの発展を考えると、コーパスはコンピ ュータで処理することのできる電子化されたコーパスを指すものと考えることが出来る。 (1) 代表的なコーパス:英語の母語話者コーパス

1) Brown Corpus (The Standard Corpus of Present-Day Edited American English) 2) LOB Corpus (The Lancaster-Oslo/Bergen Corpus of British English)

3) The British National Corpus (BNC) 4) The Bank of English

(※それぞれのコーパスの詳細についてはテキストを参照しながら説明する) (2) コーパスを用いた言語研究 コーパスの登場は言語分析にかかる負担を従来と比べ飛躍的に軽減するものである。例 えば、コーパスに出現している単語のリストを出現頻度の高いものからその品詞情報とと もに出現させたり、コンコーダンサー(concordancer)を使って単語と単語の共起関係や コロケーション(collocation)に関する情報を表示させたりすることが出来る。(cf. Longman Grammar of Spoken and Written English, Biber et al, 1999)

(2)

2 各単語に品詞を付与するプログラム(Part-of-Speech (POS)tager)や文単位に構文構造を 解析するプログラム(parser)がよく用いられている。 また、こうした品詞情報や構文情報といった言語情報が前もってコーパスに付加され、 より付加価値の高いコーパスが提供される場合もある。 2、 学習者コーパスと第二言語習得研究 本節では、外国語(特に英語)の学習者が産出するデータを用いてその外国語の習得研 究を行う試みについて概説する。第二言語学習者が産出するデータは学習者の中間言語を 反映したものとなることが期待できる。こうしたデータを用いた研究は1970 年代に盛んに 行われた誤り分析においても実施されたが、学習者の誤りのみにフォーカスするため、学 習者が習得段階に応じて有している運用能力の全体像を把握できないという課題があった。 また、当時の研究は電子化したコーパスとして学習者データを蓄積・共有しようというも のではなく、そうした動きが現れたのは1990 年代後半からの事である。 学習者コーパスを有効に用いることで、単に学習者の誤りを分析するだけでなく、学習 者の言語運用の全体象を探り、さらには学習言語の母語話者によるコーパスとの比較分析 を通して学習者だけに見られる言語運用の特徴を明らかにすることが可能となる。また、 さらにはそういった特徴をもたらす要因についても研究することが可能となるのである。 しかし、母語話者によるコーパスと異なり様々な誤りが含まれているため、分析や誤り に関する情報の付加などの自動化が難しい部分もあり、今後に課題を残す分野でもある。 (1) 主要な学習者コーパス・プロジェクト

1) International Corpus of Learner English (ICLE) 2) Japanese EFL Learner (JEFLL) Corpus

3) The NICT JLE Corpus (※前節と同様にテキストを参照) (2)学習者コーパスを用いた第二言語習得研究 本節では学習者コーパスを用いて行われている英語の第二言語習得研究について概観する。 具体的には、1) 語彙や語法に関して母語話者の言語運用との比較分析を行う研究と、2) 第 二言語習得過程に関する研究を紹介する。 1) 母語話者の言語運用との比較研究

・ Granger & Rayson (1998) →仏語母語話者のコーパスと英語母語話者のコーパス を比較。学習者は母語話者に比べて限定詞や代名詞、副詞を過剰使用する反面、接 続詞や前置詞、名詞は過少使用する傾向にあると報告。

(3)

3 話者とは異なるために母語話者にとって不自然な言語使用をしてしまうという可 能性をコーパスの比較を通して示唆。 ・ Granger (1998) →仏語母語話者のコーパスと英語母語話者のコーパスを比較し、 強意の副詞の使用頻度と直後に使用される形容詞とのコロケーションを分析。仏語 母語話者は強意の副詞とコロケーションの使用頻度が低く、また使用されるものは 母語からの類推で使用されていることが多いと報告。

・ その他、Narita, Sato &Sugiura (2004)や Flowerdew (1998)などでもコーパス間の 比較研究が行われている。詳細はテキストpp. 321-324 参照。

2) 第二言語習得過程の研究

様々なレベルの英語学習者のデータをコーパスにし、横断的に分析することにより、学 習者の語彙や文法の習得過程を探ることが出来るようになる。

1970 年代には第二言語習得研究の分野において文法形態素の習得研究が注目を集め、 Dulay, Burt &Krashen (1982)では「母語や学習環境の違いに関係なく、英語を第二言語と して学習する子どもたちは、似たような順序で文法形態素を習得する」との報告がなされ た(しかしこの報告はTono(2000)の調査結果において否定されている)。 また、Tono (2002)は日本語母語話者の学習者コーパスと母語である日本語のコーパス、 英語の教科書の内容をデータ化した英語教科書コーパスを多重分析して日本人英語学習者 の言語運用が母語の影響によるものか、学習者が受けるインプットの影響によるものかを 日本人学習者による英語動詞の項構造の習得を例に分析している(pp. 324-325)。 このように学習者データが学習者コーパスとして大量に編纂利用されるようになると、 学習者の語彙や文法の習得状況を把握できるようになるだけでなく、第二言語習得研究に おける仮説や知見を実際の学習者データを用いて検証することができ、さらにその結果を 英語教育の場で応用するという可能性が大きく広がっていくものと期待される。 3、 英語教育におけるコーパスの活用 本節では英語教育においてコーパスが現在どのような役割を果たしているのかを学習辞典 の編纂と教材や学習支援ツールの開発における活用事例を通じて紹介する。 1) 学習辞典の編纂 1995 年に出版された以下の4つの学習英英辞典は、いずれも英語の母語話者によるコーパ スを用いて作成されたものである。母語話者による言語使用データを分析することにより、 見出し語やコロケーション情報の見直し、人間による作例ではなくコーパス・データに基 づく用例記述といった具合に「コーパスによる辞書革命」とでも呼べるほどの改定がなさ れた(Scolfield, 1997)。

(4)

4 ・ Longman Dictionary of Contemporary English (3rd Edition)

・ Oxford Advanced Learner’s Dictionary (5th Edition)

・ Cambridge International Dictionary of English (1st Edition)

Gillard & Gadsby (1998)では、今後さらに学習者コーパスを有効活用するためには、(a) 学 習者の習熟別語彙の分析、(b) 英語の母語話者が使用するコロケーションと学習者が使用す るコロケーションの相違の分析、(c) ある特定の語彙を学習者が習得する時期とその語彙が 最初に用いられた時の文脈に関する分析、が必要であり、学習者コーパスなしで辞書を編 纂することはもはや考えられないと締めくくられている。 2) 教材・学習支援ツールの開発 学習教材や学習支援ツールの開発にコーパスが使用される場合には、コンコーダンサー と呼ばれるプログラムが使用されることが多い(Granger & Tribble, 1998; Milton, 1998; Johns, 1994)。コンコ―ダンサーは利用者が調べたい語(検索語)をコーパス中で検索し、 その検索語が含まれる文を一覧表示する際に検索語を中心に置いてその前後の文脈を表示 するという、いわゆるKWIC (Key Word In Context)形式で検索結果を出力してくれる。 このコンコ―ダンサーを活用した学習活動を生徒に行わせることで、教師の側から新し い知識を演繹的に教え込むのではなく、学習者自身が実際の用例を分析することにより知 識を発見していくという帰納的な学習が可能になる(朝尾、1998)。 また、コンコ―ダンサーを使用した学習支援ツールの例として、テキストには英語の「つ なぎ言葉」の適切な使用法に関してデータ主導型学習を促すツールが紹介されている(テ キストpp. 327-328)。 まとめ 大量の言語データをコーパスとして電子的に蓄積することは、言語研究や言語習得研究 に新しい方法論を提供してくれる。実際の言語使用データを利用することで、従来以上に 包括的に仮説や理論の検証を行うことが可能になる。最近のコーパス言語学や自然言語処 理といった研究分野の著しい発展は、コーパスの利用方法だけでなく、新しい研究課題の 発掘や外国語教育におけるコーパス利用の可能性をますます高めてくれる。 今後の課題としては、まず、コンコーダンサー等を用いた学習によって学習を促進させ るためにはどのような条件が必要とされるのかを探る必要がある。また、コーパスを道板 学習がどのような項目を学習する際に効果的であるのか、また学習項目に関連する用例を どのように取捨選択すればよいのか、といった事柄を検討する必要がある。さらに、学習 者の学習スタイルに適したコーパスの使用法を検討することも重要な課題である。

(5)

5 練習問題 基本問題 (1) 種類 サンプルコーパス 大規模コーパス 特徴 収集対象とする言語のなかか ら、幅広くジャンルを選択し、 その中からそれぞれ一定量のデ ータを採取して編集されたコー パス。 現代では一億語規模のコーパスを指 す。 代表例 Brown Corpus(アメリカ英語) LOB Corpus(イギリス英語)

The British National Corpus The Bank of English

(2) Brown Corpus …15 のジャンルから収集がなされており、その内容は以下の通りであった。500 のサンプ ルテキストから収集がなされているが、実際に数字を見るとジャンルによって収集したテ キストの数に大きな差があることが分かった。 (引用元:http://clu.uni.no/icame/manuals/BROWN/INDEX.HTM)

I. Informative Prose 374 samples

A. Press: Reportage

Political Daily 10 Weekly 4 Total 14

Sports 5 2 7 Society 3 0 3 Spot News 7 2 9 Financial 3 1 4 Cultural 5 2 7 Total 44 B. Press: Editorial

Institutional Daily 7 Weekly 3 Total 10

(6)

6

Letters to the Editor 5 2 7

Total 27

C. Press: Reviews (theatre, books, music, dance)

Daily 14 Weekly 3 Total 17

D. Religion Books 7 Periodicals 6 Tracts 4 Total 17

E. Skills and Hobbies

Books 2 Periodicals 34 Total 36 F. Popular Lore Books 23 Periodicals 25 Total 48

G. Belles Lettres, Biography, Memoirs, etc.

Books 38 Periodicals 37 Total 75 H. Miscellaneous Government Documents 24 Foundation Reports 2 Industry Reports 2

(7)

7

College Catalog 1

Industry House organ 1

Total 30 J. Learned Natural Sciences 12 Medicine 5 Mathematics 4

Social and Behavioral Sciences 14 Political Science, Law, Education 15

Humanities 18

Technology and Engineering 12

Total 80

II. Imaginative Prose 126 Samples K. General Fiction

Novels 20

Short Stories 9

Total 29

L. Mystery and Detective Fiction

Novels 20 Short Stories 4 Total 24 M. Science Fiction Novels 3 Short Stories 3 Total 6

(8)

8

N. Adventure and Western Fiction

Novels 15

Short Stories 14

Total 29

P. Romance and Love Story

Novels 14 Short Stories 15 Total 29 R. Humor Novels 3 Essays, etc. 6 Total 9 GRAND TOTAL 500 LOB Corpus …ジャンル、収集テキスト数ともにBrown Corpus に準じたものとなっている。引用先の サイトではAmerican Corpus(Brown Corpus を指している)との比較が以下のようにな されているが、若干の誤差はあるものの非常に高い精度でBrown Corpus に準拠したもの となっており、比較研究に資するものであることがわかる。

(引用元:http://clu.uni.no/icame/manuals/LOB/INDEX.HTM)

Text categories

Number of texts in each category

American corpus

British corpus

A

Press:

reportage

44

44

B

Press:

editorial

27

27

C

Press:

reviews

17

17

(9)

9

D

Religion

17

17

E

Skills, trades,

and hobbies

36

38

F

Popular lore

48

44

G

Belles lettres,

biography,

essays

75

77

H

Miscellaneous

(government

documents,

foundation

reports,

industry

reports,

college

catalogue,

industry

house organ)

30

30

J

Learned and

scientific

writings

80

80

K

General

fiction

29

29

L

Mystery and

detective

fiction

24

24

M

Science

fiction

6

6

N

Adventure

and western

fiction

29

29

P

Romance and

29

29

(10)

10

love story

R

Humour

9

9

Total

500

500

The British National Corpus

→19 世紀後半のイギリス英語を約一億語収録している。

規模が大きいため全ジャンルを網羅するのは難しいが、BNC のサイトに以下のように説明 書きがある:

The written part of the BNC (90%) includes, for example, extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and university essays, among many other kinds of text. The spoken part (10%) consists of orthographic transcriptions of unscripted informal conversations (recorded by volunteers selected from different age, region and social classes in a demographically balanced way) and spoken language collected in different contexts, ranging from formal business or government meetings to radio shows and phone-ins. (http://www.natcorp.ox.ac.uk/corpus/index.xml) 考察 近年のコーパスの発展は著しいものがあり、研究機関の主導で日々研究・発展がな されていることは非常に心強いことである。私たち応用言語学習者の立場から考える と今後コーパスを含めた言語のコンピュータ処理の手法を身に着けることは必須であ るが、実際には苦手意識を持つ学生が多いのではないかと思う。 私自身、一年生の時にコーパス言語処理の講義を履修したが、内容についていき課 題をこなすことに精一杯で、技術や考え方を習得するに至ることが出来ず、その上そ の経験から強い苦手意識を持ってしまった経緯がある。学習者自身の努力が要される ことはもちろんであるが、コーパス処理を含めたコンピュータ言語処理に少ない抵抗 感で取り組んでいけるような環境に早いうちに触れることが出来ればと思うところで ある。

参照

関連したドキュメント

この 文書 はコンピューターによって 英語 から 自動的 に 翻訳 されているため、 言語 が 不明瞭 になる 可能性 があります。.. このドキュメントは、 元 のドキュメントに 比 べて

2021] .さらに対応するプログラミング言語も作

と言っても、事例ごとに意味がかなり異なるのは、子どもの性格が異なることと同じである。その

しかし,物質報酬群と言語報酬群に分けてみると,言語報酬群については,言語報酬を与

本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o

今回の調査に限って言うと、日本手話、手話言語学基礎・専門、手話言語条例、手話 通訳士 養成プ ログ ラム 、合理 的配慮 とし ての 手話通 訳、こ れら

 さて,日本語として定着しつつある「ポスト真実」の原語は,英語の 'post- truth' である。この語が英語で市民権を得ることになったのは,2016年

従って、こ こでは「嬉 しい」と「 楽しい」の 間にも差が あると考え られる。こ のような差 は語を区別 するために 決しておざ