コロケーションリストのもう一歩先へ: 英和辞書の執筆者と使用者の立場から 成城大学社会イノベーション学部 石井康毅 8
概要
コロケーションは学習者にとって重要だが、連語辞典は 使いこなせないことが多い。 コーパスから簡単に連語リストが作れる。これは執筆者 から見て非常に有用だが、これだけでは、学習者向け辞 書における実際の記述や用例の作成には不十分。 コンコーダンスラインを丁寧に見なくてはいけないが、限 られた時間の中で、ここにかかる時間は大きい。ここを 減らせば、他の部分の改善に時間を充てられる。 ひとつのアプローチとして、発表者は、n-gram頻度デー タを辞書執筆に活かす実践を行った。 辞書におけるコロケーション情報を学習者にとってより有 用なものにするための方策を考察する。 9 1. コロケーションの重要性と学習者にとっての問題 コロケーション情報が必要な場面: 主に発信 学習者の作文に見られる誤りの例 We are different fromcharacter. (私たちは性格が異なる) [in] one of the best/mostchallenges (最大の課題の1つ)
[biggest/greatestなど]
onthe level of graduate schools (大学院のレベルで) [at]
10
コロケーション辞典を学生に使わせた
コロケーションの重要性を認識し、適切なコロケーション を調べる練習を授業に取り入れた。
見出し語・連語が充実しているOxford Collocations Dictionary(Second Edition)を使用
11
コロケーション辞典を使いこなせない
上級の学習者でないと連語のリストだけでは不十分とい うことがわかった。 問題 A) 連語が複数挙げられていると、どれを選択したらよいか分か らない。 B) 連語として与えられた語をそもそも知らない。 C) 適切な連語が選べたとしても発信の場面でフレーズとして使2. 英和辞典でのコロケーションの記述例
『プログレッシブ英和中辞典』(第5版)のコロケーションコ ラム (deal) 『オーレックス英和辞典』のコロケーションコラム (campaign) フレーズレベルで示して訳を付けることで問題BとCの解 消に対応 14 『オーレックス英和辞典』の ボールドによるコロケーショ ン表示 (level) 15
フレーズレベルでの提示の重要性
参考: 『連関式英単語LINKAGE』でのコロケーション提示 (job) 16 参考: 『連関式英単語LINKAGE』での関連語・コロケー ション提示 (accident) 173. コロケーション情報のコーパスからの抽出
現在よく行われている(と思われる)方法 コーパス検索プログラムのコロケーション抽出機能(通常スパ ンと品詞で抽出) Sketch EngineのWord Sketch(構文情報を利用してより精密に 抽出)
COCAで形容詞+challengeのリストを作成(4.25億語)
20
Sketch EngineのWord Sketchで形容詞+challengeのリス トを作成の例 (約30億語のenTenTen, クラスター) 21 4. 連語リストの情報を辞書に反映するに当たっての 問題 1. 中級の英和辞典使用者が必要とするフレーズレベル のコロケーション情報は、連語のリストだけでは作れな い。 名詞の数・冠詞・修飾語句などについて、どのような形で使わ れるか。 語義によるコロケーションの違い 2. 単一コーパスのデータでは地域差・使用域の違いが見 えない。 異なるコーパスで作成した連語リストを見比べる場合、どの項 目が必要かの判断が容易でない。 22
連語リストの問題を解決する方法
① コンコーダンスラインを丁寧に確認していく。 これはもちろん重要なことだが、限られた辞書執筆の時間の 中で、コンコーダンスラインの分析にかかる時間は決して少な くない。 この部分を減らせば、他の部分の改善に充てる時間を生み 出せる。 ② 学習者に必要なフレーズを検討する際に助けとなるよ うに、もう少し多くのデータを自動的に得る。 235. 連語リスト+αのデータの作成
Word Sketchやその他のコーパス検索プラットフォームで は得られないデータをコーパスから抽出。 特徴1: 構文解析はしていないが、単なるスパンではなく、 品詞配列を考慮している。 動詞+対象名詞であれば、動詞(+副詞)(+冠詞)(+副詞)(+形容 詞)+対象名詞のように定義して、無関係なものを排除しなが 特徴2: 高頻度n-gramを表示する。 n-gram: n語(本来はn文字)の連続を1単位として頻度などの データを得る手法 例: Unemployment has reached its highest level in five years. n=3のn-gram
Unemployment has reached has reached its
特徴3: BNCとANC (Second Release)のWritten/Spoken データに基づいて、コロケーションとして提示する候補を 表示する。 over+名詞の例 (注: 全ての語がレマ化されている) 26 overのn-gramの例 (n=3) 27
n-gramデータの有用性
連語のリストには現れないものが見える。 コンコーダンスラインでは見落としてしまうかもしれない 情報が得られる。 例: over the next/past/last (few years)
28
6. データに基づく記述の実践例
『エースクラウン英和辞典』の over (一部) 29n-gramデータの有用性(コロケーション以外)
通常はあまり注目されず,コロケーションとしては抽出さ れにくい代名詞を含むフレーズも抽出できる。 like(前置詞等): it is/seems like, (and) things like that, like you know
『エースクラウン英和辞典』のlike (一部)
7. 今後の課題
コロケーションが、語の使い分けの説明に生きる場合も ある。
Oxford Learner's Thesaurus
での類義語のコロケーション 提示 (waste)
『プログレッシブ英和中辞典』
執筆者が様々なデータに簡単にアクセスできる必要 性 32 連語のリスト 各連語の数・冠詞・屈折形など 高頻度n-gramのデータ レマ化してあるものとしてないものの両方が有用 地域・分野・モードなどの情報 レーベルの必要性を判断する上で必要 一部のサブコーパスにしか出ていないものはそう明示する (各辞書のユーザーに合わせた重要連語の候補) (上記の情報を類義語同士で簡単に比較できる) 限られた時間の中でコンコーダンスラインの熟読にかけ ていた部分を他の要素の改善に充てられる。