テキストにおける共起傾向の偏りが
テキストにおける共起傾向の偏りが
学習者のコロケーションの処理に影響するか
学習者のコロケーションの処理に影響するか
―コーパスの統計的指標と
―コーパスの統計的指標と
フレーズ認知課題を用いて―
フレーズ認知課題を用いて―
11 11 月 月 26 26 日 外国語教育メディア学会 日 外国語教育メディア学会
第 第 78 78 回中部支部研究大会 回中部支部研究大会
(於立命館大学びわこ・くさつキャンパス)
(於立命館大学びわこ・くさつキャンパス)
名古屋大学 名古屋大学
1. 概要
●
コロケーションには、その構成要素間の結びつき
に偏りがあるものがある
●
しかしそういった特徴を持っているコロケーションに
ついては実証研究があまりなされていなかった
●
本研究では、基礎的な試みとして、共起傾向の偏
りを統計的に評価し
●
学習者へのフレーズ認知課題を用いて、結びつき
の偏りが学習者の判断に影響を及ぼすか検証し
た
2.先行研究
●
第二言語学習者のコロケーション習得研究
●
2000年代から盛んな研究が行われてきている
(Schmitt, 2004; 2010; Wray, 2002など)
●
その中でもコーパス中の頻度、結びつきの強さなどと
いった指標と、反応時間などの心理学的データとの関
係を調べた研究がある(Ellis, et al., 2008など)。
2.先行研究
●
主な研究の焦点
●
全体的処理vs分析的処理、ないし処理の効率性
(Conklin and Schmitt, 2008; Jiang and Nekrasova,
2008; Underwood, Schmitt and Gaplin, 2004)
– 速く読むか
– 正確に処理するか
2.先行研究
●
コロケーションの処理に影響を及ぼす要因
●
統計的知識(Ellis, et al., 2008, Durrant, 2008)
– 頻度
– 結びつきの強さ(MIスコア等)
– 「学習者は頻度に敏感であるが、結びつきには鈍感」
●
談話的機能(Nekrasova, 2009)
–
談話的な機能を持つものほど学習者は知識を持っている
●
母語の影響(Yamashita and Jiang, 2010; Wolter and
Gylestad, 2011)
2.先行研究
●
コロケーションの統計指標
●
組み合わせ(combination)と順列(permutation)
●
組み合わせを扱う統計指標は多い
– MI score, t-score, z-score, G-score...
●
しかし、順列に基づいたものは少ない
– 遷移確率(条件付確率)
→Directional Measure (Durrant, 2008)
2.先行研究
●
順列に基づいた指標
●
遷移確率
– ある特定のテキスト内において、ある語の次に(先に)来る語
が任意の語である確率
– 順行遷移確率と逆行遷移確率がある
2.先行研究
●
コロケーションの共起傾向の偏り?
●
順行と逆行で大きく遷移確率が異なるものが存在する
●
各語の「頻度の重みが違う」
コロケーションがある
(Sinclair, 1991)
●
Cranberry collocation
(Moon, 1998)
●
Asymmentry collocation /
Directional collocation
(Durrant, 2008;Schmitt,
2010; Stubbs, 1995)
2.先行研究
●
心理的な連想関係の強弱
The non-directionality of these measures may be particularly
problematic for our task of predicting the psychological correlates
of frequency data, since it seems highly likely that any associative
links running from kith to kin
will be stronger that those running in
the opposite direction. It would therefore be useful to have a
statistic which reflects this.
(Durrant, 2008; 84)
2.先行研究
●
このような問題に該当するケース
●
英語の名詞and名詞フレーズが考えられる
– 狭義の文法的には順番は自由
– 名詞句を成している
– 順番の選好性がある
(irreversible binomials, frozens, frozen word order などと呼ばれ
る )
●
black and white vs. white and black?
●
space and time vs. time and space?
●
man and woman vs. woman and man?
(Jespersen, 1942; Malkiel, 1969; Cooper and Ross,
1975; Pinker and Birdsong, 1979)
3. 実験
●
研究課題
●
学習者が英語の名詞and名詞フレーズについてフ
レーズ性判断を行うときに
– 結びつきの偏り(ある/なし)
– 提示名詞の順序(正/逆)
の2要因がタスクの結果に影響を及ぼすか?
交互作用はあるか?
3. 実験
●
材料の作成
●
約1億語のサイズを持つBNC(XML, 2007)
●
名詞(単・複)のタグを指定することで「名詞and
名詞」を抽出
●
頻度順に上位100に絞った
●
共起傾向の偏りを評価
3. 実験
●
共起傾向の偏りスコア
●
ひとつのフレーズに対して、「名詞 and」と「and 名
詞」の両方のパターンを中心語とする
– black and とand white
●
両方のパターンの遷移確率を計算する
– “black and” white の確率 と black “and
white”の確率
●
この両方の確率に対して比率の差の検定を行う
3. 実験
●
実験項目の選定
●
スコアが0.3以上を「偏りのあるグループ」、0.1以下を
「偏りのないグループ」に入れた
●
各グループの項目の平均頻度、両方の遷移確率、逆転
頻度比、文字数で統制
●
各項目の組み合わせを無作為に変えてフィラー項目30
作成した
3. 実験
●
偏りのないグループ
項目 文字数 単純頻度 偏りスコア
north and south 15 354 0.004
sales and marketing 19 138 0.004
family and friends 18 304 0.005
policy and practice 19 121 0.017
spring and summer 17 100 0.018
town and country 16 282 0.021
south and east 14 106 0.022
banks and building 18 95 0.028
husband and wife 16 269 0.031
brothers and sisters 20 269 0.041
rise and fall 13 107 0.042
males and females 17 124 0.043
plants and animals 18 136 0.044
accident and emergency 22 122 0.052
brother and sister 18 138 0.056
3. 実験
●
偏りのあるグループ
項目 文字数 単純頻度 偏りスコア
space and time 14 147 0.340
health and welfare 18 95 0.341
doctors and nurses 18 101 0.354
bread and butter 16 124 0.361
training and enterprise 23 132 0.377
hardware and software 21 242 0.263
towns and villages 18 165 0.388
towns and cities 16 210 0.399
profit and loss 15 331 0.291
arts and crafts 15 107 0.413
children and adults 19 93 0.424
fisheries and food 18 155 0.425
friends and relatives 21 124 0.433
hands and knees 15 86 0.436
mother and father 17 185 0.469
man and woman 13 161 0.470
goods and services 18 480 0.310
days and nights 15 92 0.501
words and phrases 17 102 0.508
3. 実験
●
フィラーの例
loss and health
punishment and goods
safety and time
money and days
science and pay
services and right
engineering and crime
conditions and mother
words and man
names and science
3. 実験
●
被験者
●
大学院生24名(全員
が20歳台)
●
比較的高熟達度
(TOEIC: Mean
771.6, SD 107.0)
●
EFL環境/しかしお
よそ半数に留学歴が
ある
●
タスク
●
アンケート
– 学習者の情報
●
フレーズ性判断課題
– 提示された項目がフレー
ズとして自然かどうかを
直感で判断し、反応時間
を計測する
実験の様子
●
ほぼ中央に注視点
が現れ、その後刺激
が提示される
●
提示されたフレーズ
を判断し、ボタンを
押す
3. 実験
●
分析
●
反応時間とyes回答率に
ついて2要因(2-2)の
ANOVA
●
後のアンケートで未知語
と回答した項目は除外
正順 逆順
偏りのあるグループ 10 10
偏りのないグループ 10 10
フィラー 30
●
予測
●
偏りのない項目は提示
順序を反転しても反応
時間などに影響が無い
●
偏りのある項目は提示
順序を変えるとその結
びつきの特徴が失わ
れ、差が大きくなる
4.結果
●
反応時間
●
有意差なし
正順 逆順
偏りのない項目 1192 (226) 1245 (246)
偏りのある項目 1302 (345) 1312 (303)
フィラー 1525 (425)
300 450 600 750 900 1050 1200 1350
正
反応時間 ms. 反転
4.結果
●
正反応率
●
有意差なし
正順 逆順
偏りのない項目 0.86 0.81
偏りのある項目 0.79 0.79
フィラー 0.89
偏りのない 偏りのある
0.00 0.20 0.40 0.60 0.80 1.00
正
yes反応率 % 反転
4.結果
●
まとめ
●
研究課題への答え「NO」 研究課題への答え「NO」
●
共起傾向の偏りの有無は、学習者のコロケーションの
処理に影響を及ぼさない
●
更に学習者は名詞and名詞フレーズを認知する際、そ
の語の順序がどうであっても同様の反応をする
●
「偏りのない項目は提示順序を反転しても反応時間など
5.議論
●
統計的知識の有無
●
「学習者は結びつきの強さに鈍感」(Ellis et al.,
2008)
– そもそも組み合わせの指標でも効果が小さかった
●
偶発的・付随的学習によって知識が蓄えられていく
というよりも、そのような学習が働かないような側面
●
そもそも逆行遷移確率がどのような影響を持つ?
●
そもそも全体的処理をしていない?
5.議論
●
他の要因の影響
●
学習者要因
– 熟達度、環境、学習目的、学習歴…
●
母語の影響
– 順の一致・不一致
(ex. 白黒 vs. black and white)
5.議論
●
手法の問題(limitation)と今後の展望
●
サンプルサイズ、項目数の不足
●
元となるコーパス(BNC)の影響
– 「コーパス=学習者が得るインプットの総体」ではな
い
●
母語話者データの必要性
– そもそも母語話者にも影響が無い?
●
文脈の影響が全く無い実験
– 自然な読みでは? Eye tracking 移動窓方式
6.結論
●
今回の実験では学習者は共起傾向の偏りといっ
た統計的知識を持っていないといえる。
●
他の要因、項目別、熟達度別、母語話者との比
較、異なる実験方法など、更なる検討を要する
●
教育的示唆
●
間接的に、教材の作成に関わり得る
–
コロケーションリスト、学習項目作成の一助に
参考文献
Cooper,W. E. and Ross, J. R. (1975). World order. Notes From Parasession on
Fanctuionalism. Chicago: Chicago Linguistic Society.
Durrant, P. (2008). High frequency collocations and second language learning. Ph. D
dissertation. The University of Nottingham.
Ellis, N. (2002), Frequency effect in language processing: A review with implications for
theories of explicit and implicit language acquisition. Studies in Second Language
Acquisition, 24, 143-188.
Ellis, N. (2006). Selective attention and transfer phenomena in L2 acquisition: contingency,
cue competition, sailance, interface, overshadowing, blocking and conceptual learning.
Applied Linguistics, 27, 164-194.
Ellis, N. C., Simpson-Vlach, R. and Maynard, C. (2008). Formulaic language in native and
second language speakers: Psycholinguistics, corpus linguistics, and TESOL. TESOL
Quarterly, 42 (2), 375-396.
Jaspersen, O. (1942). A Modern English Grammar Pert Four, Morphology Copenhagen:
Munksgaard.
Malkiel, V. (1969). Essays on Linguistic Themes. Oxford: Blackwell.
参考文献
Nekrasova, T. (2009). English L1 and L2 speakers' knowledge of lexical bundles. Language Learning, 59, 3, 647-686.
Pinker, S. and Birdsong, D. (1979). Speakers' sensitivity to rules of frozen word order. Journal of Verbal Learning and Verbal Behavior, 18, 491-508.
Schmitt, N. (Ed.). Formulaic sequences: acquisition, processing and use. Amsterdam: John Benjamins Publishing Company.
Schmitt, N.. and Underwood, G. (2004). Exploring the processing of formulaic sequences through a self-paced reading task. In N. Schmitt (Ed.), Formulaic sequences: acquisition, processing and use (pp. 173-189). Amsterdam: John Benjamins Publishing Company.
Schmitt. N. (2010). Researching Vocabulary: A Vocabulary Research Manual. London: Palgrave McCmillan.
Stubbs, M. (1995). Collocations and semantic profiles: on the cause of the trouble with quantitative methods. Functions of language, 2(1), 1-33.
Sinclair, J. M. (1991). Corpus, Concordance, Collocation. Oxford: Oxford University Press. Wray, A. (2002). Formulaic Language and the Lexicon. Cambridge University Press.