PDF Pattern Lattice を使ったヒトの言語知識と処理のモデル化

(1)

Pattern Lattice を使った ( ヒトの ) 言語知識と処理のモデル化 ^∗

黒田航

NICTけいはんな研究所言語基盤グループ

長谷部陽一郎

同志社大学/NICT Modiﬁed on 05/14, 09, 03/23, 22, 15; 01/17, 16, 15/2009; Created on 01/12/2009

1 はじめに

1.1 超語彙的パターンの遍在性

第一著者が協力者¹⁾と一緒に進めて来た複層意味フレーム分析(MSFA)を使った意味タグづけ[40,

41, 44, 43, 23]の研究から，私たちは次が妥当だと

考えている:

(1) 文s=w₁·w₂···w_n(e.g.,その絵は壁にかかっていた，その男は医者にかかっていた)で特定の状況σ(e.g.,〈^{吊り下がり}〉^，〈(不)定期受診療〉) の喚起(evocation)が起こる時，σ^{の喚起は，}w_i による喚起Σ(w_i)={σi,1,σi,2, . . .}の単なる積集合ではなく，sを構成する超語彙的パターン p₁,p₂, . . . (e.g.,その絵はY にかかっていた,そのXは壁にかかっていた,その男はYにかかっていた,そのX は医者にかかっていた)による喚起の和集合(の統合)であると記述すべきである．

この点を例を挙げて示そう:

(2) a. その絵は壁にかかっていた．

b. その男は医者にかかっていた．

(3) a. ?*その絵は医者にかかっていた．

b. ?*その男は壁にかかっていた．

(2)と(3)の比較から，〈^{吊り下がり}〉(part-of〈^展示〉)の状況や〈(不)定期受診療〉の喚起は，「その絵 (は)」「その男(は)」「壁に」「医者に」「かかっていた」という個々の句によるものではなく，(4)-(5)によるものだということがわかる:

(4) (2a)を構成する超語彙的パターン

∗この論文は同一著者のNLP15での発表論文の増補改訂版である．主に字数制限で書けなかった部分を追加している．

1)李在鎬(元NICT/現日本語教育機構)，野澤元(元NICT/現京都教育大学)，渋谷良方(元NICT/現京都外国語大学)

a. そのX₁は壁にかかっていた b. その絵はX2にかかっていた

(5) (2b)を構成する超語彙的パターン

a. そのX₁は医者にかかっていた b. その男はX₂にかかっていた

そうである理由は，(3)で〈吊り下げ〉の状況の喚起と〈(不)定期受診療〉の状況の喚起が競合し，結果として「かかる」の語義の競合が起こっているからである．このような競合が実データで観察されることは稀であるが，認知心理学的には確実に存在するプロセスである²⁾．このような競合が起こる理由を，例えば図1に示した超語彙的パターンの同時並行的状況喚起の効果を想定しないで説明することは難しい．

1.2 超語彙的パターンの効率的発見

前述の意味タグづけの作業では，記述の粒度こそ異なるが，(4)-(5)に示したのと同じタイプの超語彙的パターンによる状況喚起の必要性が繰返し現われる．これまではそれらをすべて逐一，人手で認定して来たが，それは効率が悪いことが判明している，言語表現と人の理解する内容の対応づけを指定したデータベースの大規模化のために，状況と優先して対応づけるべき超語彙パターンをなるべく効率良く見つけたいという希望がある³⁾．この論文

ではPattern Latticeの理論とその計算機上の実装に

よって，その需要の実現に基礎を敷くことを目標とする．

1.3 構成

§2で研究背景と基礎理論を，§2.3で実装の一例を解説し，§3で理論的問題を議論する．

2)反応時間を調べる実験で簡単に実証できると思う

3)状況喚起性(の見こみ)の高い超語彙的パターンを効率的に自動認識するという課題は，非線型表現のデータベース化[32]の効率化とも関係する．

(2)

Formal Dimension

Semantic/Pragmatic Dimension

その絵は医者にかかっていた

その絵

は X2

にかかっていた

その

X1 は

医者

にかかっていた吊り下がり

<診察>の状況/

フレーム

<展示>の状況/フレーム側抑制

i i

i

i i i

i i

i i i i

e e

e2

側抑制側抑制

i: instance-of relation

e: evoking relation; e2: secondary evoking relation

図1 (3a)で生じる(4b)と(5a)の同時喚起による(「かかる」の)語義の競合のモデル: iはinstance-of 関係を，eはevoke関係を表わす(e2は派生的)

2 パターンの理論の必要性

2.1 記憶基盤の言語処理の基礎づけ:創造性再考

N. Chomskyが生成文法の枠組み[3]の中で提唱

し，その後，多くの研究者に受け入れらた幾つかのテーゼの一つに，(6)の言語の創造性のテーゼがある:

(6) a. ヒトは自分が聞いた/読んだことのない新しい表現を聞いた/読んだ時に，それを理解できる．

b. ヒトは自分が聞いた/読んだことのない新しい表現を作り出せる．

Chomskyは(6)を説明するために生成文法を考

案したと主張している．だが，(6)を説明する⁴⁾のに，本当に生成文法は必要だろうか?少なくともヒトの記憶に関して別の見方を取り，(7)にあるような仮説を想定する限り，生成文法と同じくらい信憑性のあるモデルを考えることは(理論的には)難しくない:

4)本稿では追求しないが，(6a)と(6b)は同列に扱うことはできない．実際，これらの間には驚くべき非対称性がある．ヒトが(6a)の意味で創造的なのは妥当な想定かも知れないが，ヒトの産出は実際にはかなり保守的であり，ヒトが(6b)の意味で創造的であるかどうかは疑問が残る．

(7) 極端(に豊か)な記憶の仮説⁵⁾

a. ヒトは思い出せない(=意識の中に呼び出せない)ような記憶を膨大に蓄積している．

b. 意識的に思い出せない多くの記憶も，適当な刺激があれば思い出せる⁶⁾．

要するにヒトは経験したことをすべて(暗黙知として)記憶しているが，そのほとんどが思い出せない状態にある(経験の内容は「覚えるは易し，思い出すは難し」(easy to store, hard to recall/retrieve)という奇妙な特性をもつ)．

(7)を想定する限り，(6a)の問題は，次のような記憶ベースの言語の知識系と処理系を考えることで解決できる見こみがある:

(8) a. ヒトは自分が聞いたことのない表現eを聞いた/読んだ時に，それを理解できるのは，

eと同一ではないが，それと部分的に一致する(つまりeに「似た」)表現の集合e^′₁, e^′₂, . . . ,e^′_nを(その自覚はないが)覚えてい

5)詳細は[37]を参照されたい．

6)これは，思い出し/想起が抑制の解除によって起こるというモデルがありえるということである．思い出しを抑制の解除としてモデル化するのは一般的ではないが，この可能性は[19,§6.5]でも示唆されているし，計算モデルとして[28]のEMILEも存在する．

(3)

て，eの意味を，e^′₁,e^′₂, . . . ,e^′_nの意味を組み合わせて構築している．

b. ヒトは今までに自分が聞いた/読んだことのない，新しい表現eを作り出せるのは，

eで言うべき意味を，e^′₁,e^′₂, . . . ,e^′_nの意味 m^′₁,m^′₂, . . . ,m^′_nを組み合わせて構成でき，

それに見合うようにe^′₁,e^′₂, . . . ,e^′_nを統合できるからである．

(8a) は ([5] のような枠組みに限らず)，今の言語処理が明示的，暗示的に置いている想定である．例えば機械翻訳の分野で用例/事例ベースの (機械) 翻訳 (example-based (machine) translation: EB(M)T) [13, 21]や記憶ベースの (機械) 翻訳(memory-based (machine) translation: MB(M)T) [22]という形で実装されている処理系はいずれもこの想定の下で行われている．だが，(8b)は(8a)ほど一般的には了解されていない．この非対称性は奇妙である．

同じことを別の視点で記述するとこうなる: 現在の言語処理の主流は事例基盤であるが，過去をふり返ると，90年代に文法基盤モデルから事例基盤モデルの移行があったことがわかる．それまでの言語処理では文法基盤の研究が主流だった(アナロジー

翻訳[21, 22]はその嚆矢である)．その理由は二つ

ある:消極面では規則基盤の処理の限界が見え，積極面では大規模コーパスが利用可能になり，統計的手法が分野を席捲した．

だが，言語処理を産出(production)時の処理と受

領(reception)時の処理に分けた時，うまく行ってい

るのは後者のみである．実際，統計処理と互換性のある事例基盤の言語産出のモデルは，今の時点で明確なモデルとしては存在していない．本発表の狙いは事例集合のPattern Lattice (PL*)の理論によってこの空隙を埋めることにある．

(8b)でも(8a)でも本質的な条件は，効率の良い類似例の検索である．これを可能にするのは何か?

—これがPL*を使って示そうとすることである．

2.2 事例と事例集合のパターンのラティス

§2.2.1で事例の定項の変項化という操作を定義

し，その定義の下に§2.2.3で単一事例eのパターンラティスPL(e)を定義する．その定義を，続く

§2.2.5で事例集合を扱えるように一般化する．

2.2.1 事例の定項の変項化の定義

事例eを適切にT(e)= [t₁,t₂, . . . ,t_n]に分割するモデルが与えられているとする(この理論が満足す

べき条件については§3.1.2で後述するが，基本的な点は何らかの教師なし学習(e.g., [47])でもっともらしい分割が与えられればそれで十分だという点である)．この仮定の下で，T の適当な定項tiを変項 X で置換する操作をt_iのX による変項化と定義し，

この操作の産物をeから派生したパターン(patterns derived frome)と定義する．例えばe=「彼は歌って踊った」の分割は(適当な分割のモデルMの下では)T(M,e)= [彼,は,歌っ,て,踊っ,た]であり，5 番目の部分「踊っ」をXで変項化したものは「彼は歌ってX た」というパターンである．変項Xのタイプに制約を設けるかどうかは独立の問題とする．

2.2.2 言語情報の内部表現に関する想定

知覚された言語情報は内部表現(mental represen-

tations)に変換され，処理・維持される必要がある．

内部表現は，言語学や言語処理では言語表現の解析

(parses)と同一視されるのが通例であるが，私たち

はモデル化の出発点として，解析が(再利用の可能性を最大にするために)次の特徴をもつべきであると考える:⁷⁾

(9) a. 最小限の事前知識で盲目的に/機械的に実行可能(intelligence-free);

b. 再分析(=解析のやり直し)不要(reanalysis- free)．

私たちは§2.2.1で定義したパターンがこれらの

条件を満足する内部表現であると考える．

2.2.3 単一事例eのパターンラティスPL(e)

§2.2.1の変項化の定義の下で，事例eのパターン

ラティスPL(e)を次のように定義する:

(10) a. eの分割の結果をT(e)= [t₁,t₂, . . . ,t_k]とする．T(e)の要素を再帰的に単一の変項で変項化し，得られたパターンのべき集合をP(e)とする．

b. 次のis-a関係の下でのP(e)の半順序集合をeのパターンラティスPL(e)と定義する．

c. p_i,p_j∈P(e)であるパターンp_iのn番目の要素p_i[n]とパターン p_j のn番目の要素p_j[n]との関係で，i) p_i[n] =p_j[n]であ

7)句構造はこれらの条件(特に(i)の条件)を満足しない．例えば句構造解析では[A B C]をパースするのに[A [B C]]

と[[A B] C]の曖昧性を解消する必要があるが，パターン

を使った表現では[A B C]は[A B C]のままであり，問題の曖昧性は「解消」の必要がない．

(4)

るか，ii) p_j[n]が変項ならば，[p_iis-ap_j] である．

PL(e)の頂点(top)はk個の変項のみからなるパ

ターンで，PL(e)の底(bottom)はk個の定項のみからなる事例=eである．

豊かな事例記憶の想定の下では，パターンは事例集合へのインデックスになっていればよい．別の言い方をするとパターンはスキーマとして事例とは独立に自律的な内容をもっている必要はない(その内容は常に事例集合の値の期待値として与えられる)．

2.2.4 パターンのランクとPL(e)の部分集合への

分割

パターンpに含まれる定項の数をpのランクと定義する．例えばp= [彼,は,X,て,X,た] (i.e., [彼, は,V₁,て,V₂,た] is-ap)のランクは4である．

ランクは定項の数でPL(e)を部分集合に分割する．一般にeがk個の部分に分割される時，PL(e) の Rank 0 は k 個の変項のみからなるパターン X X···X (= top)のみをもつ集合，Rankkは{e(=

bottom)}である．

2.2.5 事例集合のパターンラティスPL*

PL(e)は一つの事例eのパターンラティスであ

る．PL(e)はeと分割数が同じ事例と互換性がある

が，異なる分割数のPLとは互換性がない．この点は次の仕方で異なる長さのパターンを統合することで解決できる:

(11) 変項の再帰的単純化:⁸⁾ 任意の連続したl個の変項列X と連続したl−1個の変項列X^′について，[X^′is-aX]が成立する．

事例集合E={e₁,e₂, . . . ,e_n}のパターンラティ

スPL(E)を参照の便宜のため，PL*で表わす⁹⁾．

2.3 PL*の試験的実装: Pattern Lattice Builder

§2 のPL*の定義に基づいて PL*の処理システム Pattern Lattice Builder (PLB) を試作的に実装し，http://www.kotonoba.net/rubyfca/

patternで公開した．i) 一行に一事例 (要素分割はスペース挿入で指定)でN行までの入力を受けつけ，PL*を可視化する(上記のWebサーバー上でのNの上限は30個だが，ローカルインストールでは自由に変更できる)．その際，

8)PLBの実装ではl個の変項を一つの変項に置換するという簡略形で実装している．

9)なお，PL*の底は事例ではない．

(12) a. ii)指定した事例に寄与するis-aリンクを

色づけする;

b. iii)同一ランク内でパターンのもつ事例数

のzスコアを求め，それを色温度に変換した(これにより，生産的=データの説明力の高いパターンをそうでないパターンから区別できる)¹⁰⁾

の機能をもたせた．図2 に{彼,は,歌っ,た; 彼, は,踊っ,た;彼,は,歌っ,て,踊っ,た;彼,は,踊っ, て,歌っ,た}^{を与えた時の}PLBの出力例を示す．

Rank 3では[彼はた]の生産性がもっとも高く，

それに続くのが[彼歌った]と[彼踊った]であることがわかる．

2.4 PL*上の統語処理と意味処理

ランクがkの実例eは，ランクがk−1の(超)語彙的パターンp₁,p₂, . . . ,p_kの重ね合わせ(=素性の論理和)である．従って，eはp₁,p₂, . . . ,p_kから非排他的に意味的，音韻的資源を継承する．これはe の意味処理の際に，ランクが低い超語彙的パターンの方がランクの相対的に高い(超)語彙的パターンよりも実例に「近く」，その分だけ影響が強いことを意味している(§3.2.2で例を示す構文効果の原因はこれだと考えられる)．

残念ながら，本稿ではPL*上での意味処理の詳細に立ち入る十分な余裕はない．興味がある方は[39]

を参照されたい．しかし，本稿の範囲内でお必要最低限のことは言及しておきたい．

2.4.1 超語彙的単位の状況喚起の記述

私たちがPL*を使った記述したいと考えたのは超語彙的単位(superlexical units)による状況喚起の効果である．MSFAを使った意味タグづけの仕事

[44, 43]などから，次の特徴が一般に成立すること

がわかっている[42]:．

(13) 言語の単位(e.g.,形態素，語，句，文，連文)が状況を喚起する力は(ある程度の大きさまでは) その大きさに比例する(従って，状況の喚起力は形態素より語の方が強く，語よりも句の方が強く，句よりも文の方が強い)．

これは次のことを含意する:

(14) どんなに精緻なものであっても，語の意味記述

10)ここでzスコアを利用するという案は出口雅也からの示唆による．色温度への変換に使用したのはhttp://www.

graphviz.org.doc/info/colors.htmlのrdbu9 color scheme (区間の幅は0.5z)．

(5)

図2 Rank 0, Rank 1, . . . , Rank 6のパターンの個数は，おのおの1, 6, 22, 38, 31, 12, 2 (合計112)である

(6)

を積み重ねて行くだけでは，十分な文の意味記述には到達できない可能性がある．

PL*はこの「経験的な問題」をもっとも直接的な形で解決するために考案された．PL*上での意味処理には次の特徴がある:

(15) 一般に，事例eの意味の記述にランクがiの (超)語彙的パターンの意味が必要になるのは，

ランクがi+1の超語彙的パターンによる記述が不充分である場合に限る．

別の言い方をすると，超語彙的単位の意味記述が十分であれば，語彙的単位の意味記述は不要だと言うことであり，これが[24]の言うIdiom Principle や[25]の言う言語表現の定型性(formulaicness)の基盤である¹¹⁾．

2.4.2 PL*が暗黙に表わしているもの

ここで注意が必要なのは次の点である:

(16) a. ランクkの超語彙的パターンの意味は，(全部でk個ある)のランクk−1の超語彙的パターンの意味で十分に表現されているとは限らない(従って，超語彙的パターンの意味は語の意味には還元できない)． b. PL*は事例eの意味計算(と音韻計算)の際

の資源の利用の優先順位を表わしている: PL*のノードはランクが低いほど(つまり事例寄りであるほど)貢献度が高く，ランクが高いほど(つまり語彙的であるほど) 貢献度が低い．

§3.2.2で(16a)の例を見る．

(16)はPL*の理論の帰結であると同時に，それは言語の認知科学がPL*の理論を必要とした理由でもある．

2.4.3 PL*は何を表わしているか

(16)の前提として，私たちはPL*がオンラインの解析結果であるのではなく，それがヒトの言語の知識それ自体であると考える．私たちが提案するPL 基盤の言語の知識のモデルは，文法は可能な限り小さく，辞書/事例記憶の役割が可能な限り大きいよ

11)Idiom Principleや定型性は記述的一般化=経験則であり，

それが成立するメカニズムは不問になっていることに注意されたい．言語の知識がPL*で記述されるようなものであるということが，これらが成立する条件を特定している．

うなモデルである¹²⁾．

2.4.4 PL*基盤の処理はヒトの脳の中ではどうや

って実現されているか?

この点に関して，次のように問うことは無意味ではないだろう: 一人の個人の全言語的知識を記述するような大規模なPL*を実装するにはどんなシステムが必要か?

PL*基盤の処理システムは高度な並列性を必要とし，検索トリックがないとうまくゆかない．この点で，普通の計算機上で，ヒトの言語知識全体を表現するような大規模なPL*の効果的な実装は非常に困難であることを私たちは進んで認める．だが，それは大規模なPL*の実装が不可能だということではない．少なくともそれはヒトの脳によっては実現されていると考える必要がある¹³⁾．ヒトが行なっている驚くべき効率の記憶検索を十分にうまく説明するモデルなら，それが可能になるはずである．幸い，

非常に魅力的なヒトの想起の計算モデルが[28]によって提案されている．彼の提案するEMILEモデルはPL*の実装の最良の候補であるように思う．

2.4.5 PMAとの関係

今となってみると，第一著者が提案したPattern Matching Analysis (PMA) [14, 15]はPL(e)のRank 1のパターンの組合わせで事例eの統語構造を記述するものであったことがわかる．それは統語構造を記述するのに十分だが，構文効果を説明するのには十分ではないことがわかる¹⁴⁾．構文効果の説明はRankが低い=定項の数の多い超語彙的パターンからの意味継承が，Rankの高い=定項の少ないパターンからの意味継承に優先するという条件がある場合にのみ成立する．そういう意味では，PMA

はPattern Latticeの理論に吸収されていると言って

良い．

3 議論

PLには実装に拠らない不利点と利点とがある．

これらについておのおの論じる．

12)もう一点，スキーマ(schemas)の役割も可能な限り小さい．実際，このモデル化ではスキーマには事例集合の効果的なインデクスとして機能する以上のことは要求されていない．別の言い方をすると，スキーマは生成的な装置ではない．

13)次の点は進んで認めるべきである:ヒトの長期記憶には限界がなく，多くの記憶が抑制によって想起を妨げられているだけである[19, 28]．

14)これは[42]で指摘した．

(7)

3.1 PL*基盤の記述の不利点

3.1.1 分割数の増大と組合わせ爆発

Pattern Latticeを使った最大の難点は，おそらく

(A)組合わせ爆発に起因する記憶と処理の非効率性，並びに(B)規模の拡大可能性(scalability)の問題である．

PL(e)のノード数は，eがn個の分割をもつ場合，

2ⁿである．PL^∗の複雑性Cは，eごとの分割の数 k，分割の異なり数lで決まるが，lよりkに依存する度合いが強い．分割数が大きくなると組合わせ爆発が起こる．

事例の分割数kに計算論的な上限があるという事実は，言語処理の観点から見る限り難点でしかないが，言語の認知科学の観点から見ると，逆に重要な含意をもつ．

3.1.2 処理範囲の最適化

今のところ十分な根拠を示すことはできないが，

組合わせ爆発に関連して一つ，興味深いと思われる点がある:

(17) 特にeの分割数とPL(e)の複雑性の対応には，

(分割数が7を境にして) (相転移に似た)質的変化がある．

分割数kは多ければ良いというわけではなく，課題に応じて最適値が決まるようである．経験的には，単文の項構造を記述するのに十分な被覆率を確保するには7個(=[3, 1, 3])の分割が必要で，頻度は低い少し複雑な場合を取り入れるためには9個

(=[4, 1, 4])の分割が必要になるという感じである．

具体的に言うと，PL(e)を構成する全パターンのうち，意味をもつという直観が容易に得られるパターンの比率rを考えると，文節数が7個を超えると，rが急に低くなるように思える¹⁵⁾．これは依存関係の候補を見つけるための窓が，標的の左(=過去)に−3個(か−4個)，右(=未来)に+3個(か+4 個)ぐらいのスパンにあるということである．この観察は今のところ主観的なものにすぎないが，将来的には7個を境に本当にそのような変化があるのかを検証したい．

3.1.3 分割の最適化と処理の複層化

分割数/計算の複雑性の自然な上限が存在するならば，それは言語単位の時間的幅/処理の深さに応じて，最適な分割が，異なったレベルに幾つか併存

15)この数に不思議な数7 [20]との関係を読み取るのは，必ずしも牽強付会とは言えないだろう．

することが理論的に必然化するとも考えられる¹⁶⁾．例えば(M) 語の内部構造=形態論での分割の最適化，(S)文の内部構造=狭義の統語論での分割の最適化，(D)話の内部構造=広義の統語論での分割の最適化は別のものであり，かつ，おのおのが言語の処理レベルに対応していると考えられる¹⁷⁾．分割単位の恣意性は，PL*の理論の弱点というより，処理の複層化された分割の複数の最適化を保証する利点であると考えるべき可能性が残される¹⁸⁾．

3.1.4 段階を踏んだパターンの獲得

組合わせ爆発は機械上の言語処理で問題になるばかりでなく，言語獲得においても深刻な問題となる．だが，別の見方をすると，言語獲得の際に子供がどうやって組合わせ爆発を問題を回避しているかという形で，言語獲得の謎を解明する契機になる可能性もある．

語彙的パターン(=R1のパターン)とランクの低い超語彙的パターン(e.g., R2, R3)は，分割数の影響を強く受けず，それらは分割数が大きい場合でも流用可能であることに注意されたい．これから，子供はランクの低い語彙的，超語彙的パターンを先に獲得し，それをランクの高い，複雑な事例に流用するという戦略を取っている可能性が考えられる．これは規模の拡大可能性を保証する「最初は少なく (starting small)」[6, 4]の原理に従っていると考えられる．

以上の理由から，PL*では分割単位の認定の問題を，eの分割数kの決定の問題から意図的に独立させない．

16)近年の統計科学の進歩[46, 47]により，このような処理にも計算論的な妥当性が保証できる可能性が出てきたのは，

非常に喜ばしいことである．

17)扱う現象のタイプによって，形態素規模の分割が妥当な場合，語句規模の分割が妥当な場合，文=節規模の分割が妥当な場合があるということは言語学では経験的に知ら

れている(それはしばしば言語理論のモジュール化の正当

化の理由になる)．だが，この理由は自明ではない(普遍文法(UG)をもち出し，それが元から幾つかのモジュー

ル群(e.g.,形態論モジュール，統語論モジュール，談話モ

ジュール)に分れていると言ったたところで，それは何の説明でもない)．

18)日本語に関して言うと，M, S, Dレベルでの助詞の機能分化がありそうだ:「∼と」「∼て」「∼で」「∼た」「∼だ」は述語間の共起関係(Dレベル)を，「∼が」「∼を」などは述語内の要素間の共起関係(Sレベル)を，「∼な」「∼の」(と

「∼に」)は，句内の要素間の共起関係(Mレベル)をエンコードしているようだ．

(8)

3.2 PL*基盤の記述の利点

PLの利点は(以上の不利点と引換えにではあるが)少なくとも(18)に示した，互いに関連しあった利点をもつ:

(18) a. ヒトの言語処理の記述と説明において，言語学的理論(aka先入観)の干渉を最小限にできる(少なくとも句構造は不要であり，

極端なことを言うと品詞ラベルも不要¹⁹⁾)． b. 構文効果[10, 11, 45, 29]に代表される超語

彙的パターン/非線型表現[32, 31]の意味貢献を非アドホックに，体系的に記述可能 3.2.1 構文の必然性²⁰⁾

本稿で提案する PL* の記述理論は，構文/構成体文法 (Construction Grammar) の諸理論と違い[9, 10, 11]，(文法上の)構文/構成体((grammatical) constructions) ²¹⁾の存在を想定する必要がない．構文文法が定義する意味での構文は，PL*の記述理論では生産性の高い(超)語彙的パターン(の一部)のことである．見方を変えれば，次のようにも

言える: PL*の理論は事例記憶の言語処理をモデル

化することで，ヒトの「言語の知識」(=文法)の記述に構文/構成体が必要不可欠である根本的理由を正当化している．従って，PL*の理論は構文/構成体の理論の基礎理論となる．この点を§3.2.2で具体例を通じて説明する．

3.2.2 構文「効果」の説明の実例

李[45]は(19)の用法でニ格名詞句を認可するのは「消え(る)」の語彙的な意味ではないと論じている:²²⁾

(19) a. 患者が診察室に消えた

b. テールランプが(暗)闇に消えた c. エルフの船が光の中に消え. . . d. ヒュウガが地割れに消えた

構文上の意味は[N1がN2にV]というパターンに帰着できるわけではない．(20)は移動の意味はもたない:

19)この点は教師なし学習で分割が学習できる[47]という点からも支持される．

20)2009/05/09に加筆．

21)言語学でのconstructionsの定訳は「構文」であるが，これは望ましくない含意があるため，その訳として「構成体」

も併記した．

22)同じ「消え」という動詞が使われているが，語義は同一ではない．語義は「消滅し」や「消失し」との交替条件と相関している．

(20) a. 彼が知人に会った

b. 子供が親に似ている(のは当然だ)

李の結論は，構文上の意味の担い手は抽象的なパターン[N1がN2にV]ではなく，[[Human]が [Location∨Space]にV]のような，N1, N2の意味クラスに言及するもう少し具体的なパターンだというものである．

意味クラスは(i)事例集合を通じて(分布類似度の高いクラスとして)獲得される，(ii)意味クラスは (有限集合に限って言うと)値の集合で表現できるという二点を考えると，PLは明示的に[N1がN2に V]のような「格パターン」のNの意味クラスに言及してはないが，それが表わすのと同じタイプの一般化を表現できる．そればかりでなく，PLベースの記述では，パターン間の階層的関係を明示的，かつ体系的に記述できるという利点がある．実際，次のことがPL*の定義から予測され，事実は予測の通りだと思われる:

(21) パターンを構成する変項は，ランクが高いほ

ど(e.g.,R=1, 2)潜在的意味クラスとの対応が

弱く，ランクが低いほど意味クラスとの対応が良い．

(22) 構文「効果」は(21)の想定の下で作用する超語彙的パターンの変項の補完の産物である²³⁾． 3.2.3 [XがYにV]のPL*の一部

図3に(23)のPL*を示す: (23) a. 彼が部屋に消えた

b. 彼が部屋に入った c. 彼が部屋に入って消えた

(23)の文は超語彙的パターン5-2 [彼が部屋にた] (とその親である4-1 [彼が部屋に ])を共有している点に注意されたい．(23a)の解釈が(23b)と

(23c)の解釈に関連づけられるための十分条件を記

述している．

23)例えば，図2の5-2 [彼は歌ってた]の空所に[踊っ]を補完するのは，日本人を母語にする話者には特に難しいことではない(が，十分な事例記憶をもたない非母語話者には難しい可能性がある)．このような種の補完が暗黙に起っていることで構文効果が生じると説明すれば，具体的な語に言及しない抽象的構文(e.g., [N1がN2にV])が移動の意味をもっている/エンコードしているという(過剰般化に繋がる)想定はしなくて済む．

(9)

図3 (23)のPL*:色温度が高いものが同一ランク内で相対的に説明力のあるパターン

(10)

3.2.4 言語処理での「文法」の役割の最小化 PL*基盤の処理システムでは，「文法」の役割は極小化されている．極論すると，PL*基盤の処理システムは「辞書」だけで動いていると言っても良い (明らかに句構造はない)．そればかりか，品詞ラベルすら相対的に無用化されている(少なくとも変項の実現値への意味的に制約条件を明示的にエンコードすれば，品詞の上での制約は(あっても困らないが)必要不可欠ではない)．しかし，記述に必要な般化は十分に起こっており，効果的な選択制限の記述すら可能である．

実際，この特徴の派生的な効果として，池原ら

[32, 31]が進めてきたパターン翻訳で非線型パター

ンを自動的に発見することが可能である²⁴⁾． 3.3 言語の創造性は「豊かな事例記憶」の随伴事象

本発表で私たちは(8)の記憶ベースの言語知識のモデル化として事例集合のPattern Lattice (PL*) を提案した²⁵⁾．PLは事例基盤の言語処理で有用なデータ構造に基礎を与えるだけでなく，理論言語学で用法基盤アプローチ(Usage-based Approach)と呼ばれる枠組み[1]にも理論的基礎を提供すると考えられる．

ここでPL*基盤の用法基盤/事例基盤モデルは次の重要な含意をもつことを指摘したい:

(24) (8)で特徴づけた記憶ベースの言語知識と処理

のモデル化が正しいならば，

a. 言語の創造性は豊かな記憶の産物の随伴事象である;

b. 表層形に関するパターン的/スキーマ的知

識(e.g., コロケーション)が深層にあると

想定される概念構造と同じ位か，あるいはそれよりも重要である．

3.3.1 ヒトの創造性について

言語処理学会での第一著者の発表を聞いた飯田龍(東工大)氏から，(24a)の点と[12]の提唱した memory-prediction frameworkとの類似性を指摘された．確かめたところ，彼の指摘が正しいことがわかった．強いて違いを挙げるとすれば，Hawkinsの理論では想起の際の抑制系の役割が重要視されていない．そのため，彼の理論では具体事例の記憶のされ方と記憶されている事例の想起の際の役割に曖昧

24)PL*の理論化の動機の一つはこれであった．

25)第一著者が開発したPattern Matching Analysis (PMA) [14,

15, 42]は，記憶ベースの記述モデルの具現化の一つとし

て構想された．

性が残っているという印象を受けるが，これは総体としての類似性に較べれば些細な違いである．

3.3.2 不正確な想起の効用

(7)で触れたように，想起の基本的な仕組みが恒常的な想起の抑制の一時的な緩和であると考えるのは，定説とは言い難いけれど，理不尽なことではない．それが実現されるための条件を考えると，想起されるべき内容同士の定常的な側抑制が一時的に弱まることで想起が実現されると考えることは，理論的にはありえることである．もちろん，この想定を指示する証拠はない．また，これを突きつめると，

次のことを認める必要がある:

(25) 想起が想起されるべき内容の互いの側抑制が弱まることで実現されると想定すると，

a. 想起される内容を制御するのは原理的に難しく，

b. 逆の言い方をすると，想起される内容は必然的に不正確なものになる．

この問題は検索型の想起では生じない．想起する内容は互いに干渉しないからである．だが，単純な検索型の想起では，膨大な事例記憶からミリ秒単位で非常に詳細で具体的な内容を思い出せるほど効率的な想起を実現するのは難しいだろう．

この落差が避け難いものであるなら，それは次の理論的予測を与えてくれる:

(26) ヒトの記憶の仕組みは，進化論的に考えて，想起の内容の正確さより，有限時間内，それも極めて短い時間内に想起が達成することが優先されて成立していると考えてよい．

憶測ではあるが，ここで論を飛躍させると，次のように言えるのではないか?

(27) ヒトの創造性は(少なくとも部分的には)ヒト (の脳)の行なう想起の不正確さに起因する．

証拠には乏しいが，これまでの推論が正しいなら，想起の不正確さには創造性という最大限に意外な効用が伴うということになる．

3.3.3 概念メタファー理論や概念ブレンド理論と

の係わりについて

(24b)の重要な帰結の一つは，いわゆる概念メタ

ファー(Conceptual Metaphor) [17, 18, 33, 34]は支持者から期待されているほど体系的でも，事実に対する説明力もないということである．この論文では

(11)

詳細には立ち入らないが，要点は複数の超語彙的パターンからの同時並行的喚起が概念メタファー成立の条件だという点にある²⁶⁾．

例えば(28)で[[議論は戦争だ]](=[[ARGUMENT IS WAR]]) [17, 18]メタファーが関与するのは，(29a) のパターンが〈武力的攻撃〉(part=of〈戦争〉)を喚起

し，(29b)のパターンが〈^{議論の上での相互作用}〉^を

喚起し，それらが(無意識のうちに)統合されるという形である:²⁷⁾

(28) 彼は相手の議論の弱点を攻撃した．

(29) a. 彼は相手のX(の弱点)を攻撃した．

b. 彼は相手の議論(の弱点)をVした．

(29a)は元領域である〈^戦争〉^領域を，(29b)は先領域である〈^議論〉領域を喚起する超語彙的パターンである．

私たちの説明は概念ブレンド理論[7, 8]のそれに近いが，次の点で概念ブレンド理論のそれより制約されている:概念ブレンド理論は，特定の表現で特定の状況だけが喚起され，他の状況が喚起されない理由を説明していない(実際のところ，超語彙的喚起を自明視している)．どんな超語彙的パターンがどんな状況をどれぐらいの強さで喚起するかが事前に十分な精度で記述されていない限り，任意の文の文意が複数の状況記述の統合(i.e.,ブレンド)として表わされるというのは単に後知恵というより恒真的記述にしかならない(この点のより詳しい議論は [16]を参照されたい)．実際，ブレンド理論の「説明」であれ私たちの記述であれ，それらはすべて後知恵であり，現時点では経験科学的な意味での「予測力」というものはない．それに予測力が伴うようになるのは，超語彙的パターンのデータベース化が完了してからの話である．それにはPL*のような記述装置が不可欠である．

3.3.4 PL*基盤の記述は「バカバカしい」か? 言語学者の中には，PL*を使った言語の知識の記述を「バカバカしい」と感じる人が少なくないということは想定内である．彼らがそう思う理由はわからないわけではないが，これはモデル化の出発点と目標地点の違いである．私たちはヒトの言語の知識

=文法をモデル化する際に，それをヒトの言語の処理から独立させないという条件を設けた(文法を記

26)これは大石[26, 27]の「メタファーの実現形が構文(con-

structions)として振舞う」という論点とも整合する．

27)本稿では詳細を十分に論じることは適当ではない．関心のある読者は[35, 38, 36]に当られたい．

述するとしても，計算機上での実装可能性が保証されていない記述は幾らでも可能だからである)．文法的知識の最小限化はその設定の自然な帰結であり，それが一部の研究者にとって「バカバカしく」

見えるのは理解に難くない．それは確かに「有意義な一般化を表現していない」ように見える．だが，

PL*基盤のモデルが有意義な一般化を表現しているかどうかは，言語学者の直観的評価に基づいて決まることでなく，ヒトの言語処理上の妥当性に基づいて決まることである．この際に私たちが強く意識するのは，文法が何であるかに関する先入観を排するべきであるという点である．私たちが提案したモデルが，その最大の内在的困難である規模の拡大可能性を満足し，かつ記述的に妥当な理論的予測を行なうならば，どんなにバカバカしく見えようと，それは妥当なモデルとして評価されるべきだろう．

4 課題と将来への展望

4.1 課題 4.1.1 大規模化

PLBにデータベースをもたせ，超語彙的パターンのデータベース化を行いたい．これにより十分な被覆率をもった超語彙的パターン/非線型表現=構文のデータベースが得られる可能性が現実的なものとなる．

4.1.2 具現化の条件の精緻化

現時点での実装では，変項の具現化には意味制約が課せられていない．例えば[彼,は,X,に,言っ, た]のX の実現値の集合は事例の与え方によって {^陽気,相手, . . .}のような意味的に異質なクラスになるのを避けられない²⁸⁾．これが過剰般化の原因になるのは明らかである．

もっとも簡単な解決は，パターンを構成する変項を意味素性で表現し，事例化に意味素性のフィルターをかけることである．これにより，例えばP1:

[彼,は,X[+concrete,+human, . . . ],に,言っ,た]と P2: [彼, は,X[−concrete, −human, . . . ], に, 言っ, た]とが別のパターンとして区別され，[彼,は,相手 [+human],に,言っ,た]はP1だけの，[彼,は,陽気 [−human],に,言っ,た]はP2だけの実現となる．

理論的には，こうして問題が解決できるのは明らかだが，そのために必要な要素技術が成熟してい

28)ここで品詞を区別するのは，i)論点先取となり，ii) PL*の開発動機に反するので，モデルを可能な限り簡単にしたいなら，それは導入すべきではない．

(12)

ないため，実装は先送りにしている．幸い，日本語

WordNet [2]が一般公開されたたので，その情報を

使った実装を考えている．

4.1.3 パターンの統合処理の明示化

本稿が提案する言語処理では，文sの解釈とはs のPLを含んだPL*を構成する(超)語彙的パターンがマッチする事例集合に分散されている意味情報を (選択的に)統合することである．紙面の都合もあり，この情報統合がどんな処理であるかは本稿では明示できなかった．この処理の定式化は[39,§2.4]

にあるが，実装は行われていない．近い将来，それを試みる予定である．

4.2 幾つかの応用可能性²⁹⁾

可能性を思いついただけで実装されてないが，

PL*には幾つかの応用があるように思う．

4.2.1 対訳アラインメントの高精度化

対訳関係にある(e,e^′)のPL*を構築し，PL(e)と PL(e^′)との間で対訳関係が取れるパターンの集合を特定する．この対応づけは統計翻訳で使われているフレーズテーブルの対案(か少なくとも改良案) になる．今のところは人手でやるしかないかも知れないが，この作業を半自動化できれば機械翻訳の精度は向上するように思う．自動獲得されたフレーズテーブルは，言語学者の観点から見るとまだまだ精度が低いように思うし，取り出される単位が恣意的であるように見える．

4.2.2 コーパス事例の単純化

新聞コーパスであれ，他の分野のコーパスであれ，多くの場合に実例は複雑すぎる．実例をそのまま言語資源として使うには，幾つかの点で効率が悪い．実際，単語規模のデータベースと実例のデータベースの中間レベルには，句のデータベースなどがあってよいはずである(換言表現のデータベース

[30, 48, 49]などは，この規模の言語資源として意

図されているのだと思う)．それとは別の方向性として，既製のコーパスの事例がすべて単文化されたもの，謂わば「単純化コーパス」があれば便利だと考えている人は少なくないと思う．もちろん，これを実現するための技術困難はそれなりにある(苦労の割には見返りが少ないのでNLP関係者はこの仕事に誰も手をつけていないのだと思う)．

PL*は常に，複文を重文を単純化したパターンが含まれる．それらを高精度と他の有用性の低いパターンから区別できれば，単純化コーパスを(半)

29)2009/01/17に追加．

自動的に構築できる(ただし，これには分割の多い PL*が効率的に扱えるようになっていないといけないので，ここには「卵が先か，鶏が先か」という悪循環があるかも知れない)．

5 終わりに

本論文は膨大な事例記憶の仮説[37]に基づく言語処理モデルをPattern Latticeの下での類似例に分散された情報の統合という形でモデル化した．提案されたモデルは，次の特徴をもつ: i)文法の役割を最小化する; ii)文法記述における構文/構成体の必然性を正当化し，構文「効果」を説明する; iii)非線型表現[32]のデータベース化の効率化を支援する．

更に，iv)「言語の創造性」が「(極端に)豊かな事例記憶」の副産物であるという主張を支援し，v)事例ベースの言語処理(e.g.,用例機械翻訳)の概念的基礎を提供する(統計科学が与えるのは，事例ベース言語処理の「理論」的基礎であって，概念的基礎ではない)．

参考文献

[1] M. Barlow and S. Kemmer, editors.2000. CSLI Pub- lications, 2000.

[2] F. Bond, H. Isahara, K. Uchimoto, T. Kuribayashi, and K. Kanzaki. Extending the Japanese WordNet. In言語処理学会15回大会発表論文集. 2009. C1-4.

[3] N. Chomsky. Aspects of the Theory of Syntax. MIT Press, Cambridge, MA, 1965.

[4] C. M. Conway, M. R. Ellefson, and M. H. Chris- tiansen. When less is less and when less is more:

Starting small with staged input. InProceedings of the 25th Annual Conference of the Cognitive Science Society, pages 270–275. Mahwah, NJ: Lawrence Erl- baum, 2003.

[5] W. Daelemans and A. van den Bosch.Memory-based Natural Language Processing. Cambridge Unversity Press, Cambridge, UK, 2005.

[6] J. L. Elman. Learning and development in neural net- works: The importance of starting small. Cognition, 48(1):71–99, 1993.

[7] G. R. Fauconnier. Mappings in Thought and Lan- guage. Cambridge, MA: Cambridge University Press, 1997.

[8] G. R. Fauconnier and M. Turner. Conceptual projec- tions and middle spaces. Cognitive Science Techni- cal Report (TR-9401), Cognitive Science Department, UCSD, 1994.

[9] C. J. Fillmore, P. Kay, and K. O’Connor. Regularity and idiomaticity in grammatical constructions: The

(13)

case oflet alone.Language, 64(3):501–538, 1988.

[10] A. D. Goldberg. Constructions: A Construction Grammar Approach to Argument Structure. Univer- sity of Chicago Press, Chicago, IL, 1995.

[11] A. E. Goldberg. Constructions at Work. New York:

Oxford, 2006.

[12] J. Hawkins and S. Blakeslee. On Intelligence: How a New Understanding of the Brain Will Lead to the Creation of Truly Intelligent Machines. Times Books;

Adapted edition, 2004. [邦訳『考える脳考えるコンピューター』(伊藤文英訳).ランダムハウス講談社.].

[13] J. Hutchins. Example-based machine translation:

A review and commentary. Machine Translation, 19:197–211, 2005.

[14] K. Kuroda. Foundations of PATTERN MATCHING

ANALYSIS: A New Method Proposed for the Cogni- tively Realistic Description of Natural Language Syn- tax. PhD thesis, Kyoto University, Japan, 2000.

[15] K. Kuroda. Presenting the PATTERN MATCHING

ANALYSIS, a framework proposed for the realistic description of natural language syntax. Journal of En- glish Linguistic Society, 17:71–80, 2001.

[16] K. Kuroda, K. Nakamoto, Y. Shibuya, and H. Isahara.

Toward a more textual, as opposed to conceptual, approach in metaphor research: A case study of how to cook a husband. InProceedings of the 29th Annual Meeting of the Cognitive Science Society, pages 1199–1204, 2007. [URL: http://clsl.

hi.h.kyoto-u.ac.jp/^∼kkuroda/papers/

kuroda-et-al-07-cogsci-paper.pdf].

[17] G. Lakoff and M. Johnson. Metaphors We Live By.

University of Chicago Press, 1980. [邦訳:『レトリックと人生』(渡部昇一ほか訳).大修館.].

[18] G. Lakoff and M. Johnson. The Philosophy in the Flesh. Basic Books, 1999.

[19] J. L. McGaugh. 記憶と情動の脳科学:「忘れにくい記憶」の作られかた(B1514).講談社, 2006. Transla- tion ofMemory and Emotion: The Making of Lasting Memories, Columbia University Press, 2003.

[20] George A. Miller. The magical number seven, plus or minus two. The Psychological Review, 63(2):81–97, 1956.

[21] S. Sato. A mimd implementation of example-based translation on cm. In RWC Technical Report, TR- 9401, pages 35–36, 1994. [citeseer.ist.psu.

edu/sato94mimd.html.

[22] S. Sato and M. Nagao. Toward memory-based translation. InProceedings of COLING-90, Helsinki, Fin- land, pages 247–252, 1990.

[23] Y. Shibuya, K. Kuroda, J.-H. Lee, and H. Isa- hara. Specifying deeper semantics of a text using MSFA. IEIECE Techical Report, 106(299):27–32, 2006. NLC2006-27 (2006-10).

[24] J. M. Sinclair. Corpus, Concordance, Collocation.

Oxford University Press, 1991.

[25] A. Wray.Formulaic Language and the Lexicon. Cam- bridge University Press, Cambridge/New York, 2002.

[26] 大石亨. 概念メタファー理論と構文文法の統合、およびその含意. In日本認知言語学会論文集Vol. 9, 2009.

[27] 大石亨.類義語による比喩的意味の使い分けとその表示方法:<浮上>に関する動詞の分析. In特定領域研究「日本語コーパス」平成20年度公開ワークショップサテライトセッション予稿集, pages 3–12, 2009.

[28] 月元敬. 抑制に基づく記憶検索理論の構成. 風間書房, 2008.

[29] 中本敬子,李在鎬, and黒田航.日本語の語順選好は動詞に還元できない文レベルの意味と相関する:心理実験に基づく日本語の構文研究への提案. 認知科学, 13:334–352, 2006.「文理解」特集号.

[30] 乾健太郎and藤田篤.言い換え技術に関する研究動向.自然言語処理, 11(5):151–198, 2004.招待論文. [31] 池原悟,阿部さつき,竹内奈央,徳久雅人, and村上

仁一. 意味的等価変換方式のための重文複文の統語的意味的分類体系について. 情報処理学会研究報告, 2006-NL-176:1–8, 2006.

[32] 池原悟,徳久雅人,村上仁一,佐良木昌,池田尚志, and宮崎正弘. 非線形な重文複文の表現に対する文型パターン辞書の開発. 情報処理学会研究報告, NL-170(25):157–164, 2005.

[33] 鍋島弘治郎. 領域を結ぶのは何か:メタファー理論における価値的類似性と構造的類似性. In日本認知言語学会論文集第3巻, pages 12–22.日本認知言語学会(JCLA), 2003.

[34] 鍋島弘治郎. 黒田の疑問に答える:認知言語学からの回答.日本語学, 26(3):54–71, 2007.

[35] 黒田航. 概念メタファーの体系性，生産性はどの程度か? 日本語学, 24(6):38–57, 2005.

[36] 黒田航. メタファー理解の状況基盤モデルの基本的な主張: 概念メタファー理論との比較を通じた解題. http:

//clsl.hi.h.kyoto-u.ac.jp/^∼kkuroda/

papers/smmc-in-a-nutshell.pdf, 2007.

[37] 黒田航. 徹底した用法基盤主義の下での文法獲得: 「極端に豊かな事例記憶」の仮説で描く新しい筋書き. 月刊言語, 36(11):24–

34, 2007. 原典版: http://clsl.hi.

h.kyoto-u.ac.jp/^∼kkuroda/papers/

la-with-rich-memory-full.pdf.

[38] 黒田航. 鍋島氏からの反論に対する幾つかの異論. http://clsl.hi.h.

kyoto-u.ac.jp/^∼kkuroda/papers/

reply-to-nabeshima-07-abridged-v1-sc.

pdf, 2007.

[39] 黒田航. なぜ超語彙的パターンが語彙的パター

(14)

ンよりも重要なのか?: 構文「効果」の記述のための基礎理論の提示. http://clsl.hi.

h.kyoto-u.ac.jp/^∼kkuroda/papers/

constructions-as-bias-sources.pdf, 2008.

[40] 黒田航 and 井佐原均. 複層意味フレーム分析を用いた意味役割タグつきコーパス評価版の公開. In 言語処理学会 11 回大会論文集, pages ab–cd, 2005. [http:

//clsl.hi.h.kyoto-u.ac.jp/^∼kkuroda/

papers/sr-tagging-nlp11-paper.pdf].

[41] 黒田航 and 井佐原均. 複層意味フレーム分析

(MSFA)に意味役割の典型的実現値の情報を付加

してシソーラス化する試み. In言語処理学会第12 回大会発表論文集, pages 181–184, 2006.発表P1-11.

[42] 黒田航and 中本敬子. 文彩を生じさせる(語の) 意味の相互作用の実体は何か?: MSFAと PMA を使った語彙的意味記述と超語彙的意味記述の統合. In Proceedings of the 24th Annual Meeting of the Japanese Cognitive Science Society (JCSS), pages 424–429, 2007. [URL: http://clsl.

hi.h.kyoto-u.ac.jp/^∼kkuroda/papers/

msfa-meets-metaphor-jcss24-paper.

pdf].

[43] 黒田航,李在鎬,渋谷良方, and井佐原均.複層意味フレーム分析(の簡略版)を使った意味役割タグづけの現状:タグづけデータから派生する言語資源の紹介を中心に. In言語処理学会14回大会発表論文集, 2008.

[44] 黒田航,李在鎬,渋谷良方,河原大輔, and井佐原均. 自動獲得された大規模格フレーム辞書の精度向上を見込んだ人手評価. In言語処理学会第13回年次大会発表論文集, pages 1054–1057, 2007.

[45] 李在鎬. 他動詞のゆらぎ現象に対する「構文」的アプローチ.言語科学論集, 7:1–20, 2001.

[46] 持橋大地and隅田英一郎. 階層Pitman-Yor過程に基づく可変長n-gram言語モデル.情報処理学会論文誌, 48(12):4023–4032, 2007.

[47] 持橋大地,山田武士, and上田修功.ベイズ階層言語モデルによる教師なし形態素解析. In情報処理学会研究報告2009-NL-190, 2009.

[48] 藤田篤and乾健太郎. クラス指向事例収集による言い換えコーパスの構築. 自然言語処理, 13(3):133–

150, 2006.

[49] 藤田篤, 降幡建太郎, 乾健太郎, and 松本裕治. 語彙概念構造に基づく言い換え生成—機能動詞構文の言い換えを例題に. 情報処理学会論文誌, 47(6):1963–1975, 2006.

PDF Pattern Lattice を使った ヒトの 言語知識と処理のモデル化

Pattern Lattice を使った ( ヒトの ) 言語知識と処理のモデル化 ∗

黒田 航

長谷部 陽一郎