Pattern Lattice を使った ( ヒトの ) 言語知識と処理のモデル化 ∗
黒田 航
NICTけいはんな研究所 言語基盤グループ
長谷部 陽一郎
同志社大学/NICT Modified on 05/14, 09, 03/23, 22, 15; 01/17, 16, 15/2009; Created on 01/12/2009
1 はじめに
1.1 超語彙的パターンの遍在性
第一著者が協力者1)と一緒に進めて来た複層意味 フレーム分析(MSFA)を使った意味タグづけ[40,
41, 44, 43, 23]の研究から,私たちは次が妥当だと
考えている:
(1) 文s=w1·w2···wn(e.g.,その絵は壁にかかって いた,その男は医者にかかっていた)で特定の 状況σ(e.g.,〈吊り下がり〉,〈(不)定期受診療〉) の喚起(evocation)が起こる時,σの喚起は,wi による喚起Σ(wi)={σi,1,σi,2, . . .}の単なる積 集合ではなく,sを構成する超語彙的パターン p1,p2, . . . (e.g.,その絵はY にかかっていた,そ のXは壁にかかっていた,その男はYにかかっ ていた,そのX は医者にかかっていた)による 喚起の和集合(の統合)であると記述すべきで ある.
この点を例を挙げて示そう:
(2) a. その絵は壁にかかっていた.
b. その男は医者にかかっていた.
(3) a. ?*その絵は医者にかかっていた.
b. ?*その男は壁にかかっていた.
(2)と(3)の比較から,〈吊り下がり〉(part-of〈展 示〉)の状況や〈(不)定期受診療〉の喚起は,「その絵 (は)」「その男(は)」「壁に」「医者に」「かかってい た」という個々の句によるものではなく,(4)-(5)に よるものだということがわかる:
(4) (2a)を構成する超語彙的パターン
∗この論文は同一著者のNLP15での発表論文の増補改訂版 である.主に字数制限で書けなかった部分を追加してい る.
1)李在鎬(元NICT/現日本語教育機構),野澤元(元NICT/現 京都教育大学),渋谷良方(元NICT/現京都外国語大学)
a. そのX1は壁にかかっていた b. その絵はX2にかかっていた
(5) (2b)を構成する超語彙的パターン
a. そのX1は医者にかかっていた b. その男はX2にかかっていた
そうである理由は,(3)で〈吊り下げ〉の状況の喚 起と〈(不)定期受診療〉の状況の喚起が競合し,結 果として「かかる」の語義の競合が起こっているか らである.このような競合が実データで観察される ことは稀であるが,認知心理学的には確実に存在す るプロセスである2).このような競合が起こる理由 を,例えば図1に示した超語彙的パターンの同時並 行的状況喚起の効果を想定しないで説明することは 難しい.
1.2 超語彙的パターンの効率的発見
前述の意味タグづけの作業では,記述の粒度こそ 異なるが,(4)-(5)に示したのと同じタイプの超語 彙的パターンによる状況喚起の必要性が繰返し現 われる.これまではそれらをすべて逐一,人手で認 定して来たが,それは効率が悪いことが判明してい る,言語表現と人の理解する内容の対応づけを指定 したデータベースの大規模化のために,状況と優 先して対応づけるべき超語彙パターンをなるべく 効率良く見つけたいという希望がある3).この論文
ではPattern Latticeの理論とその計算機上の実装に
よって,その需要の実現に基礎を敷くことを目標と する.
1.3 構成
§2で研究背景と基礎理論を,§2.3で実装の一例 を解説し,§3で理論的問題を議論する.
2)反応時間を調べる実験で簡単に実証できると思う
3)状況喚起性(の見こみ)の高い超語彙的パターンを効率的 に自動認識するという課題は,非線型表現のデータベー ス化[32]の効率化とも関係する.
Formal Dimension
Semantic/Pragmatic Dimension
その 絵 は 医者 に かかって いた
その 絵
は X2
に かかって いた
その
X1 は
医者
に かかって いた 吊り下がり
<診察>の状況/
フレーム
<展示>の状況/フ レーム 側抑制
i i
i
i i i
i i
i i i i
e e
e2
側抑制 側抑制
i: instance-of relation
e: evoking relation; e2: secondary evoking relation
図1 (3a)で生じる(4b)と(5a)の同時喚起による(「かかる」の)語義の競合のモデル: iはinstance-of 関係を,eはevoke関係を表わす(e2は派生的)
2 パターンの理論の必要性
2.1 記憶基盤の言語処理の基礎づけ:創造性再考
N. Chomskyが生成文法の枠組み[3]の中で提唱
し,その後,多くの研究者に受け入れらた幾つか のテーゼの一つに,(6)の言語の創造性のテーゼが ある:
(6) a. ヒトは自分が聞いた/読んだことのない新 しい表現を聞いた/読んだ時に,それを理解 できる.
b. ヒトは自分が聞いた/読んだことのない新 しい表現を作り出せる.
Chomskyは(6)を説明するために生成文法を考
案したと主張している.だが,(6)を説明する4)の に,本当に生成文法は必要だろうか?少なくともヒ トの記憶に関して別の見方を取り,(7)にあるよう な仮説を想定する限り,生成文法と同じくらい信憑 性のあるモデルを考えることは(理論的には)難し くない:
4)本稿では追求しないが,(6a)と(6b)は同列に扱うことは できない.実際,これらの間には驚くべき非対称性があ る.ヒトが(6a)の意味で創造的なのは妥当な想定かも知 れないが,ヒトの産出は実際にはかなり保守的であり,ヒ トが(6b)の意味で創造的であるかどうかは疑問が残る.
(7) 極端(に豊か)な記憶の仮説5)
a. ヒトは思い出せない(=意識の中に呼び出 せない)ような記憶を膨大に蓄積している.
b. 意識的に思い出せない多くの記憶も,適当 な刺激があれば思い出せる6).
要するにヒトは経験したことをすべて(暗黙知と して)記憶しているが,そのほとんどが思い出せな い状態にある(経験の内容は「覚えるは易し,思い 出すは難し」(easy to store, hard to recall/retrieve)と いう奇妙な特性をもつ).
(7)を想定する限り,(6a)の問題は,次のような 記憶ベースの言語の知識系と処理系を考えることで 解決できる見こみがある:
(8) a. ヒトは自分が聞いたことのない表現eを聞 いた/読んだ時に,それを理解できるのは,
eと同一ではないが,それと部分的に一致 する(つまりeに「似た」)表現の集合e′1, e′2, . . . ,e′nを(その自覚はないが)覚えてい
5)詳細は[37]を参照されたい.
6)これは,思い出し/想起が抑制の解除によって起こるとい うモデルがありえるということである.思い出しを抑制 の解除としてモデル化するのは一般的ではないが,この 可能性は[19,§6.5]でも示唆されているし,計算モデルと して[28]のEMILEも存在する.
て,eの意味を,e′1,e′2, . . . ,e′nの意味を組 み合わせて構築している.
b. ヒトは今までに自分が聞いた/読んだこと のない,新しい表現eを作り出せるのは,
eで言うべき意味を,e′1,e′2, . . . ,e′nの意味 m′1,m′2, . . . ,m′nを組み合わせて構成でき,
それに見合うようにe′1,e′2, . . . ,e′nを統合 できるからである.
(8a) は ([5] の よ う な 枠 組 み に 限 ら ず),今 の 言 語 処 理 が 明 示 的 ,暗 示 的 に 置 い て い る 想 定 で ある.例えば機械翻訳の分野で用例/事例ベース の (機 械) 翻 訳 (example-based (machine) transla- tion: EB(M)T) [13, 21]や記憶ベースの (機械) 翻 訳(memory-based (machine) translation: MB(M)T) [22]という形で実装されている処理系はいずれもこ の想定の下で行われている.だが,(8b)は(8a)ほ ど一般的には了解されていない.この非対称性は奇 妙である.
同じことを別の視点で記述するとこうなる: 現在 の言語処理の主流は事例基盤であるが,過去をふり 返ると,90年代に文法基盤モデルから事例基盤モ デルの移行があったことがわかる.それまでの言語 処理では文法基盤の研究が主流だった(アナロジー
翻訳[21, 22]はその嚆矢である).その理由は二つ
ある:消極面では規則基盤の処理の限界が見え,積 極面では大規模コーパスが利用可能になり,統計的 手法が分野を席捲した.
だが,言語処理を産出(production)時の処理と受
領(reception)時の処理に分けた時,うまく行ってい
るのは後者のみである.実際,統計処理と互換性の ある事例基盤の言語産出のモデルは,今の時点で明 確なモデルとしては存在していない.本発表の狙い は事例集合のPattern Lattice (PL*)の理論によって この空隙を埋めることにある.
(8b)でも(8a)でも本質的な条件は,効率の良い 類似例の検索である.これを可能にするのは何か?
—これがPL*を使って示そうとすることである.
2.2 事例と事例集合のパターンのラティス
§2.2.1で事例の定項の変項化という操作を定義
し,その定義の下に§2.2.3で単一事例eのパター ンラティスPL(e)を定義する.その定義を,続く
§2.2.5で事例集合を扱えるように一般化する.
2.2.1 事例の定項の変項化の定義
事例eを適切にT(e)= [t1,t2, . . . ,tn]に分割する モデルが与えられているとする(この理論が満足す
べき条件については§3.1.2で後述するが,基本的な 点は何らかの教師なし学習(e.g., [47])でもっとも らしい分割が与えられればそれで十分だという点で ある).この仮定の下で,T の適当な定項tiを変項 X で置換する操作をtiのX による変項化と定義し,
この操作の産物をeから派生したパターン(patterns derived frome)と定義する.例えばe=「彼は歌っ て踊った」の分割は(適当な分割のモデルMの下で は)T(M,e)= [彼,は,歌っ,て,踊っ,た]であり,5 番目の部分「踊っ」をXで変項化したものは「彼は 歌ってX た」というパターンである.変項Xのタ イプに制約を設けるかどうかは独立の問題とする.
2.2.2 言語情報の内部表現に関する想定
知覚された言語情報は内部表現(mental represen-
tations)に変換され,処理・維持される必要がある.
内部表現は,言語学や言語処理では言語表現の解析
(parses)と同一視されるのが通例であるが,私たち
はモデル化の出発点として,解析が(再利用の可能 性を最大にするために)次の特徴をもつべきである と考える:7)
(9) a. 最小限の事前知識で盲目的に/機械的に実 行可能(intelligence-free);
b. 再分析(=解析のやり直し)不要(reanalysis- free).
私たちは§2.2.1で定義したパターンがこれらの
条件を満足する内部表現であると考える.
2.2.3 単一事例eのパターンラティスPL(e)
§2.2.1の変項化の定義の下で,事例eのパターン
ラティスPL(e)を次のように定義する:
(10) a. eの分割の結果をT(e)= [t1,t2, . . . ,tk]と する.T(e)の要素を再帰的に単一の変項 で変項化し,得られたパターンのべき集合 をP(e)とする.
b. 次のis-a関係の下でのP(e)の半順序集 合をeのパターンラティスPL(e)と定義 する.
c. pi,pj∈P(e)であるパターンpiのn番目 の要素pi[n]とパターン pj のn番目の要 素pj[n]との関係で,i) pi[n] =pj[n]であ
7)句構造はこれらの条件(特に(i)の条件)を満足しない.例 えば句構造解析では[A B C]をパースするのに[A [B C]]
と[[A B] C]の曖昧性を解消する必要があるが,パターン
を使った表現では[A B C]は[A B C]のままであり,問題 の曖昧性は「解消」の必要がない.
るか,ii) pj[n]が変項ならば,[piis-apj] である.
PL(e)の頂点(top)はk個の変項のみからなるパ
ターンで,PL(e)の底(bottom)はk個の定項のみか らなる事例=eである.
豊かな事例記憶の想定の下では,パターンは事例 集合へのインデックスになっていればよい.別の言 い方をするとパターンはスキーマとして事例とは独 立に自律的な内容をもっている必要はない(その内 容は常に事例集合の値の期待値として与えられる).
2.2.4 パターンのランクとPL(e)の部分集合への
分割
パターンpに含まれる定項の数をpのランクと 定義する.例えばp= [彼,は,X,て,X,た] (i.e., [彼, は,V1,て,V2,た] is-ap)のランクは4である.
ランクは定項の数でPL(e)を部分集合に分割す る.一般にeがk個の部分に分割される時,PL(e) の Rank 0 は k 個 の 変 項 の み か ら な る パ タ ー ン X X···X (= top)のみをもつ集合,Rankkは{e(=
bottom)}である.
2.2.5 事例集合のパターンラティスPL*
PL(e)は一つの事例eのパターンラティスであ
る.PL(e)はeと分割数が同じ事例と互換性がある
が,異なる分割数のPLとは互換性がない.この点 は次の仕方で異なる長さのパターンを統合すること で解決できる:
(11) 変項の再帰的単純化:8) 任意の連続したl個の 変項列X と連続したl−1個の変項列X′につ いて,[X′is-aX]が成立する.
事例集合E={e1,e2, . . . ,en}のパターンラティ
スPL(E)を参照の便宜のため,PL*で表わす9).
2.3 PL*の試験的実装: Pattern Lattice Builder
§2 のPL*の定義に基づいて PL*の処理システ ム Pattern Lattice Builder (PLB) を 試 作 的 に 実 装 し ,http://www.kotonoba.net/rubyfca/
patternで公開した.i) 一行に一事例 (要素分 割はスペース挿入で指定)でN行までの入力を受け つけ,PL*を可視化する(上記のWebサーバー上で のNの上限は30個だが,ローカルインストールで は自由に変更できる).その際,
8)PLBの実装ではl個の変項を一つの変項に置換するとい う簡略形で実装している.
9)なお,PL*の底は事例ではない.
(12) a. ii)指定した事例に寄与するis-aリンクを
色づけする;
b. iii)同一ランク内でパターンのもつ事例数
のzスコアを求め,それを色温度に変換し た(これにより,生産的=データの説明力の 高いパターンをそうでないパターンから区 別できる)10)
の機能をもたせた.図2 に{彼,は,歌っ,た; 彼, は,踊っ,た;彼,は,歌っ,て,踊っ,た;彼,は,踊っ, て,歌っ,た}を与えた時のPLBの出力例を示す.
Rank 3では[彼 は た]の生産性がもっとも高く,
それに続くのが[彼 歌っ た]と[彼 踊っ た]で あることがわかる.
2.4 PL*上の統語処理と意味処理
ランクがkの実例eは,ランクがk−1の(超)語 彙的パターンp1,p2, . . . ,pkの重ね合わせ(=素性の 論理和)である.従って,eはp1,p2, . . . ,pkから非 排他的に意味的,音韻的資源を継承する.これはe の意味処理の際に,ランクが低い超語彙的パターン の方がランクの相対的に高い(超)語彙的パターン よりも実例に「近く」,その分だけ影響が強いこと を意味している(§3.2.2で例を示す構文効果の原因 はこれだと考えられる).
残念ながら,本稿ではPL*上での意味処理の詳細 に立ち入る十分な余裕はない.興味がある方は[39]
を参照されたい.しかし,本稿の範囲内でお必要最 低限のことは言及しておきたい.
2.4.1 超語彙的単位の状況喚起の記述
私たちがPL*を使った記述したいと考えたのは 超語彙的単位(superlexical units)による状況喚起の 効果である.MSFAを使った意味タグづけの仕事
[44, 43]などから,次の特徴が一般に成立すること
がわかっている[42]:.
(13) 言語の単位(e.g.,形態素,語,句,文,連文)が 状況を喚起する力は(ある程度の大きさまでは) その大きさに比例する(従って,状況の喚起力 は形態素より語の方が強く,語よりも句の方が 強く,句よりも文の方が強い).
これは次のことを含意する:
(14) どんなに精緻なものであっても,語の意味記述
10)ここでzスコアを利用するという案は出口雅也からの示唆 による.色温度への変換に使用したのはhttp://www.
graphviz.org.doc/info/colors.htmlのrdbu9 color scheme (区間の幅は0.5z).
図2 Rank 0, Rank 1, . . . , Rank 6のパターンの個数は,おのおの1, 6, 22, 38, 31, 12, 2 (合計112)である
を積み重ねて行くだけでは,十分な文の意味記 述には到達できない可能性がある.
PL*はこの「経験的な問題」をもっとも直接的な 形で解決するために考案された.PL*上での意味処 理には次の特徴がある:
(15) 一般に,事例eの意味の記述にランクがiの (超)語彙的パターンの意味が必要になるのは,
ランクがi+1の超語彙的パターンによる記述 が不充分である場合に限る.
別の言い方をすると,超語彙的単位の意味記述が 十分であれば,語彙的単位の意味記述は不要だと言 うことであり,これが[24]の言うIdiom Principle や[25]の言う言語表現の定型性(formulaicness)の 基盤である11).
2.4.2 PL*が暗黙に表わしているもの
ここで注意が必要なのは次の点である:
(16) a. ランクkの超語彙的パターンの意味は,(全 部でk個ある)のランクk−1の超語彙的 パターンの意味で十分に表現されていると は限らない(従って,超語彙的パターンの 意味は語の意味には還元できない). b. PL*は事例eの意味計算(と音韻計算)の際
の資源の利用の優先順位を表わしている: PL*のノードはランクが低いほど(つまり 事例寄りであるほど)貢献度が高く,ラン クが高いほど(つまり語彙的であるほど) 貢献度が低い.
§3.2.2で(16a)の例を見る.
(16)はPL*の理論の帰結であると同時に,それは 言語の認知科学がPL*の理論を必要とした理由でも ある.
2.4.3 PL*は何を表わしているか
(16)の前提として,私たちはPL*がオンラインの 解析結果であるのではなく,それがヒトの言語の知 識それ自体であると考える.私たちが提案するPL 基盤の言語の知識のモデルは,文法は可能な限り小 さく,辞書/事例記憶の役割が可能な限り大きいよ
11)Idiom Principleや定型性は記述的一般化=経験則であり,
それが成立するメカニズムは不問になっていることに注 意されたい.言語の知識がPL*で記述されるようなもの であるということが,これらが成立する条件を特定して いる.
うなモデルである12).
2.4.4 PL*基盤の処理はヒトの脳の中ではどうや
って実現されているか?
この点に関して,次のように問うことは無意味で はないだろう: 一人の個人の全言語的知識を記述す るような大規模なPL*を実装するにはどんなシステ ムが必要か?
PL*基盤の処理システムは高度な並列性を必要と し,検索トリックがないとうまくゆかない.この点 で,普通の計算機上で,ヒトの言語知識全体を表現 するような大規模なPL*の効果的な実装は非常に困 難であることを私たちは進んで認める.だが,それ は大規模なPL*の実装が不可能だということではな い.少なくともそれはヒトの脳によっては実現され ていると考える必要がある13).ヒトが行なってい る驚くべき効率の記憶検索を十分にうまく説明する モデルなら,それが可能になるはずである.幸い,
非常に魅力的なヒトの想起の計算モデルが[28]に よって提案されている.彼の提案するEMILEモデ ルはPL*の実装の最良の候補であるように思う.
2.4.5 PMAとの関係
今となってみると,第一著者が提案したPattern Matching Analysis (PMA) [14, 15]はPL(e)のRank 1のパターンの組合わせで事例eの統語構造を記述 するものであったことがわかる.それは統語構造を 記述するのに十分だが,構文効果を説明するのに は十分ではないことがわかる14).構文効果の説明 はRankが低い=定項の数の多い超語彙的パターン からの意味継承が,Rankの高い=定項の少ないパ ターンからの意味継承に優先するという条件があ る場合にのみ成立する.そういう意味では,PMA
はPattern Latticeの理論に吸収されていると言って
良い.
3 議論
PLには実装に拠らない不利点と利点とがある.
これらについておのおの論じる.
12)もう一点,スキーマ(schemas)の役割も可能な限り小さ い.実際,このモデル化ではスキーマには事例集合の効果 的なインデクスとして機能する以上のことは要求されて いない.別の言い方をすると,スキーマは生成的な装置で はない.
13)次の点は進んで認めるべきである:ヒトの長期記憶には限 界がなく,多くの記憶が抑制によって想起を妨げられて いるだけである[19, 28].
14)これは[42]で指摘した.
3.1 PL*基盤の記述の不利点
3.1.1 分割数の増大と組合わせ爆発
Pattern Latticeを使った最大の難点は,おそらく
(A)組合わせ爆発に起因する記憶と処理の非効率 性,並びに(B)規模の拡大可能性(scalability)の問 題である.
PL(e)のノード数は,eがn個の分割をもつ場合,
2nである.PL∗の複雑性Cは,eごとの分割の数 k,分割の異なり数lで決まるが,lよりkに依存す る度合いが強い.分割数が大きくなると組合わせ爆 発が起こる.
事例の分割数kに計算論的な上限があるという事 実は,言語処理の観点から見る限り難点でしかない が,言語の認知科学の観点から見ると,逆に重要な 含意をもつ.
3.1.2 処理範囲の最適化
今のところ十分な根拠を示すことはできないが,
組合わせ爆発に関連して一つ,興味深いと思われる 点がある:
(17) 特にeの分割数とPL(e)の複雑性の対応には,
(分割数が7を境にして) (相転移に似た)質的変 化がある.
分割数kは多ければ良いというわけではなく,課 題に応じて最適値が決まるようである.経験的に は,単文の項構造を記述するのに十分な被覆率を確 保するには7個(=[3, 1, 3])の分割が必要で,頻度 は低い少し複雑な場合を取り入れるためには9個
(=[4, 1, 4])の分割が必要になるという感じである.
具体的に言うと,PL(e)を構成する全パターンの うち,意味をもつという直観が容易に得られるパ ターンの比率rを考えると,文節数が7個を超える と,rが急に低くなるように思える15).これは依存 関係の候補を見つけるための窓が,標的の左(=過 去)に−3個(か−4個),右(=未来)に+3個(か+4 個)ぐらいのスパンにあるということである.この 観察は今のところ主観的なものにすぎないが,将来 的には7個を境に本当にそのような変化があるのか を検証したい.
3.1.3 分割の最適化と処理の複層化
分割数/計算の複雑性の自然な上限が存在するな らば,それは言語単位の時間的幅/処理の深さに応 じて,最適な分割が,異なったレベルに幾つか併存
15)この数に不思議な数7 [20]との関係を読み取るのは,必 ずしも牽強付会とは言えないだろう.
することが理論的に必然化するとも考えられる16). 例えば(M) 語の内部構造=形態論での分割の最適 化,(S)文の内部構造=狭義の統語論での分割の最適 化,(D)話の内部構造=広義の統語論での分割の最 適化は別のものであり,かつ,おのおのが言語の処 理レベルに対応していると考えられる17).分割単 位の恣意性は,PL*の理論の弱点というより,処理 の複層化された分割の複数の最適化を保証する利点 であると考えるべき可能性が残される18).
3.1.4 段階を踏んだパターンの獲得
組合わせ爆発は機械上の言語処理で問題になるば かりでなく,言語獲得においても深刻な問題とな る.だが,別の見方をすると,言語獲得の際に子供 がどうやって組合わせ爆発を問題を回避しているか という形で,言語獲得の謎を解明する契機になる可 能性もある.
語彙的パターン(=R1のパターン)とランクの低 い超語彙的パターン(e.g., R2, R3)は,分割数の影 響を強く受けず,それらは分割数が大きい場合でも 流用可能であることに注意されたい.これから,子 供はランクの低い語彙的,超語彙的パターンを先に 獲得し,それをランクの高い,複雑な事例に流用す るという戦略を取っている可能性が考えられる.こ れは規模の拡大可能性を保証する「最初は少なく (starting small)」[6, 4]の原理に従っていると考え られる.
以上の理由から,PL*では分割単位の認定の問題 を,eの分割数kの決定の問題から意図的に独立さ せない.
16)近年の統計科学の進歩[46, 47]により,このような処理に も計算論的な妥当性が保証できる可能性が出てきたのは,
非常に喜ばしいことである.
17)扱う現象のタイプによって,形態素規模の分割が妥当な 場合,語句規模の分割が妥当な場合,文=節規模の分割が 妥当な場合があるということは言語学では経験的に知ら
れている(それはしばしば言語理論のモジュール化の正当
化の理由になる).だが,この理由は自明ではない(普遍 文法(UG)をもち出し,それが元から幾つかのモジュー
ル群(e.g.,形態論モジュール,統語論モジュール,談話モ
ジュール)に分れていると言ったたところで,それは何の 説明でもない).
18)日本語に関して言うと,M, S, Dレベルでの助詞の機能分 化がありそうだ:「∼と」「∼て」「∼で」「∼た」「∼だ」は 述語間の共起関係(Dレベル)を,「∼が」「∼を」などは述 語内の要素間の共起関係(Sレベル)を,「∼な」「∼の」(と
「∼に」)は,句内の要素間の共起関係(Mレベル)をエン コードしているようだ.
3.2 PL*基盤の記述の利点
PLの利点は(以上の不利点と引換えにではある が)少なくとも(18)に示した,互いに関連しあった 利点をもつ:
(18) a. ヒトの言語処理の記述と説明において,言 語学的理論(aka先入観)の干渉を最小限に できる(少なくとも句構造は不要であり,
極端なことを言うと品詞ラベルも不要19)). b. 構文効果[10, 11, 45, 29]に代表される超語
彙的パターン/非線型表現[32, 31]の意味 貢献を非アドホックに,体系的に記述可能 3.2.1 構文の必然性20)
本 稿 で 提 案 す る PL* の 記 述 理 論 は ,構 文/構 成 体 文 法 (Construction Grammar) の 諸 理 論 と 違 い[9, 10, 11],(文法上の)構文/構成体((grammat- ical) constructions) 21)の存在を想定する必要がな い.構文文法が定義する意味での構文は,PL*の記 述理論では生産性の高い(超)語彙的パターン(の一 部)のことである.見方を変えれば,次のようにも
言える: PL*の理論は事例記憶の言語処理をモデル
化することで,ヒトの「言語の知識」(=文法)の記 述に構文/構成体が必要不可欠である根本的理由を 正当化している.従って,PL*の理論は構文/構成体 の理論の基礎理論となる.この点を§3.2.2で具体 例を通じて説明する.
3.2.2 構文「効果」の説明の実例
李[45]は(19)の用法でニ格名詞句を認可するの は「消え(る)」の語彙的な意味ではないと論じてい る:22)
(19) a. 患者が診察室に消えた
b. テールランプが(暗)闇に消えた c. エルフの船が光の中に消え. . . d. ヒュウガが地割れに消えた
構文上の意味は[N1がN2にV]というパターン に帰着できるわけではない.(20)は移動の意味はも たない:
19)この点は教師なし学習で分割が学習できる[47]という点 からも支持される.
20)2009/05/09に加筆.
21)言語学でのconstructionsの定訳は「構文」であるが,これ は望ましくない含意があるため,その訳として「構成体」
も併記した.
22)同じ「消え」という動詞が使われているが,語義は同一で はない.語義は「消滅し」や「消失し」との交替条件と相 関している.
(20) a. 彼が知人に会った
b. 子供が親に似ている(のは当然だ)
李の結論は,構文上の意味の担い手は抽象的な パターン[N1がN2にV]ではなく,[[Human]が [Location∨Space]にV]のような,N1, N2の意味 クラスに言及するもう少し具体的なパターンだとい うものである.
意味クラスは(i)事例集合を通じて(分布類似度 の高いクラスとして)獲得される,(ii)意味クラスは (有限集合に限って言うと)値の集合で表現できると いう二点を考えると,PLは明示的に[N1がN2に V]のような「格パターン」のNの意味クラスに言 及してはないが,それが表わすのと同じタイプの一 般化を表現できる.そればかりでなく,PLベース の記述では,パターン間の階層的関係を明示的,か つ体系的に記述できるという利点がある.実際,次 のことがPL*の定義から予測され,事実は予測の通 りだと思われる:
(21) パターンを構成する変項は,ランクが高いほ
ど(e.g.,R=1, 2)潜在的意味クラスとの対応が
弱く,ランクが低いほど意味クラスとの対応が 良い.
(22) 構文「効果」は(21)の想定の下で作用する超語 彙的パターンの変項の補完の産物である23). 3.2.3 [XがYにV]のPL*の一部
図3に(23)のPL*を示す: (23) a. 彼 が 部屋 に 消え た
b. 彼 が 部屋 に 入っ た c. 彼 が 部屋 に 入っ て 消え た
(23)の文は超語彙的パターン5-2 [彼 が 部屋 に た] (とその親である4-1 [彼 が 部屋 に ])を共有し ている点に注意されたい.(23a)の解釈が(23b)と
(23c)の解釈に関連づけられるための十分条件を記
述している.
23)例えば,図2の5-2 [彼 は 歌っ て た]の空所に[踊っ]を 補完するのは,日本人を母語にする話者には特に難しい ことではない(が,十分な事例記憶をもたない非母語話者 には難しい可能性がある).このような種の補完が暗黙に 起っていることで構文効果が生じると説明すれば,具体 的な語に言及しない抽象的構文(e.g., [N1がN2にV])が 移動の意味をもっている/エンコードしているという(過 剰般化に繋がる)想定はしなくて済む.
図3 (23)のPL*:色温度が高いものが同一ランク内で相対的に説明力のあるパターン
3.2.4 言語処理での「文法」の役割の最小化 PL*基盤の処理システムでは,「文法」の役割は 極小化されている.極論すると,PL*基盤の処理シ ステムは「辞書」だけで動いていると言っても良い (明らかに句構造はない).そればかりか,品詞ラベ ルすら相対的に無用化されている(少なくとも変項 の実現値への意味的に制約条件を明示的にエンコー ドすれば,品詞の上での制約は(あっても困らない が)必要不可欠ではない).しかし,記述に必要な般 化は十分に起こっており,効果的な選択制限の記述 すら可能である.
実際,この特徴の派生的な効果として,池原ら
[32, 31]が進めてきたパターン翻訳で非線型パター
ンを自動的に発見することが可能である24). 3.3 言語の創造性は「豊かな事例記憶」の随伴事象
本発表で私たちは(8)の記憶ベースの言語知識 のモデル化として事例集合のPattern Lattice (PL*) を提案した25).PLは事例基盤の言語処理で有用な データ構造に基礎を与えるだけでなく,理論言語学 で用法基盤アプローチ(Usage-based Approach)と 呼ばれる枠組み[1]にも理論的基礎を提供すると考 えられる.
ここでPL*基盤の用法基盤/事例基盤モデルは次 の重要な含意をもつことを指摘したい:
(24) (8)で特徴づけた記憶ベースの言語知識と処理
のモデル化が正しいならば,
a. 言語の創造性は豊かな記憶の産物の随伴事 象である;
b. 表層形に関するパターン的/スキーマ的知
識(e.g., コロケーション)が深層にあると
想定される概念構造と同じ位か,あるいは それよりも重要である.
3.3.1 ヒトの創造性について
言語処理学会での第一著者の発表を聞いた飯田 龍(東工大)氏から,(24a)の点と[12]の提唱した memory-prediction frameworkとの類似性を指摘さ れた.確かめたところ,彼の指摘が正しいことがわ かった.強いて違いを挙げるとすれば,Hawkinsの 理論では想起の際の抑制系の役割が重要視されてい ない.そのため,彼の理論では具体事例の記憶のさ れ方と記憶されている事例の想起の際の役割に曖昧
24)PL*の理論化の動機の一つはこれであった.
25)第一著者が開発したPattern Matching Analysis (PMA) [14,
15, 42]は,記憶ベースの記述モデルの具現化の一つとし
て構想された.
性が残っているという印象を受けるが,これは総体 としての類似性に較べれば些細な違いである.
3.3.2 不正確な想起の効用
(7)で触れたように,想起の基本的な仕組みが恒 常的な想起の抑制の一時的な緩和であると考えるの は,定説とは言い難いけれど,理不尽なことではな い.それが実現されるための条件を考えると,想起 されるべき内容同士の定常的な側抑制が一時的に弱 まることで想起が実現されると考えることは,理論 的にはありえることである.もちろん,この想定を 指示する証拠はない.また,これを突きつめると,
次のことを認める必要がある:
(25) 想起が想起されるべき内容の互いの側抑制が弱 まることで実現されると想定すると,
a. 想起される内容を制御するのは原理的に難 しく,
b. 逆の言い方をすると,想起される内容は必 然的に不正確なものになる.
この問題は検索型の想起では生じない.想起する 内容は互いに干渉しないからである.だが,単純な 検索型の想起では,膨大な事例記憶からミリ秒単位 で非常に詳細で具体的な内容を思い出せるほど効率 的な想起を実現するのは難しいだろう.
この落差が避け難いものであるなら,それは次の 理論的予測を与えてくれる:
(26) ヒトの記憶の仕組みは,進化論的に考えて,想 起の内容の正確さより,有限時間内,それも極 めて短い時間内に想起が達成することが優先さ れて成立していると考えてよい.
憶測ではあるが,ここで論を飛躍させると,次の ように言えるのではないか?
(27) ヒトの創造性は(少なくとも部分的には)ヒト (の脳)の行なう想起の不正確さに起因する.
証拠には乏しいが,これまでの推論が正しいな ら,想起の不正確さには創造性という最大限に意外 な効用が伴うということになる.
3.3.3 概念メタファー理論や概念ブレンド理論と
の係わりについて
(24b)の重要な帰結の一つは,いわゆる概念メタ
ファー(Conceptual Metaphor) [17, 18, 33, 34]は支 持者から期待されているほど体系的でも,事実に対 する説明力もないということである.この論文では
詳細には立ち入らないが,要点は複数の超語彙的パ ターンからの同時並行的喚起が概念メタファー成立 の条件だという点にある26).
例えば(28)で[[議論は戦争だ]](=[[ARGUMENT IS WAR]]) [17, 18]メタファーが関与するのは,(29a) のパターンが〈武力的攻撃〉(part=of〈戦争〉)を喚起
し,(29b)のパターンが〈議論の上での相互作用〉を
喚起し,それらが(無意識のうちに)統合されるとい う形である:27)
(28) 彼は相手の議論の弱点を攻撃した.
(29) a. 彼は相手のX(の弱点)を攻撃した.
b. 彼は相手の議論(の弱点)をVした.
(29a)は元領域である〈戦争〉領域を,(29b)は 先領域である〈議論〉領域を喚起する超語彙的 パターンである.
私たちの説明は概念ブレンド理論[7, 8]のそれに 近いが,次の点で概念ブレンド理論のそれより制約 されている:概念ブレンド理論は,特定の表現で特 定の状況だけが喚起され,他の状況が喚起されない 理由を説明していない(実際のところ,超語彙的喚 起を自明視している).どんな超語彙的パターンが どんな状況をどれぐらいの強さで喚起するかが事前 に十分な精度で記述されていない限り,任意の文の 文意が複数の状況記述の統合(i.e.,ブレンド)とし て表わされるというのは単に後知恵というより恒真 的記述にしかならない(この点のより詳しい議論は [16]を参照されたい).実際,ブレンド理論の「説 明」であれ私たちの記述であれ,それらはすべて後 知恵であり,現時点では経験科学的な意味での「予 測力」というものはない.それに予測力が伴うよう になるのは,超語彙的パターンのデータベース化が 完了してからの話である.それにはPL*のような 記述装置が不可欠である.
3.3.4 PL*基盤の記述は「バカバカしい」か? 言語学者の中には,PL*を使った言語の知識の記 述を「バカバカしい」と感じる人が少なくないとい うことは想定内である.彼らがそう思う理由はわか らないわけではないが,これはモデル化の出発点と 目標地点の違いである.私たちはヒトの言語の知識
=文法をモデル化する際に,それをヒトの言語の処 理から独立させないという条件を設けた(文法を記
26)これは大石[26, 27]の「メタファーの実現形が構文(con-
structions)として振舞う」という論点とも整合する.
27)本稿では詳細を十分に論じることは適当ではない.関心 のある読者は[35, 38, 36]に当られたい.
述するとしても,計算機上での実装可能性が保証さ れていない記述は幾らでも可能だからである).文 法的知識の最小限化はその設定の自然な帰結であ り,それが一部の研究者にとって「バカバカしく」
見えるのは理解に難くない.それは確かに「有意義 な一般化を表現していない」ように見える.だが,
PL*基盤のモデルが有意義な一般化を表現している かどうかは,言語学者の直観的評価に基づいて決ま ることでなく,ヒトの言語処理上の妥当性に基づい て決まることである.この際に私たちが強く意識す るのは,文法が何であるかに関する先入観を排する べきであるという点である.私たちが提案したモデ ルが,その最大の内在的困難である規模の拡大可能 性を満足し,かつ記述的に妥当な理論的予測を行な うならば,どんなにバカバカしく見えようと,それ は妥当なモデルとして評価されるべきだろう.
4 課題と将来への展望
4.1 課題 4.1.1 大規模化
PLBにデータベースをもたせ,超語彙的パター ンのデータベース化を行いたい.これにより十分な 被覆率をもった超語彙的パターン/非線型表現=構文 のデータベースが得られる可能性が現実的なものと なる.
4.1.2 具現化の条件の精緻化
現時点での実装では,変項の具現化には意味制 約が課せられていない.例えば[彼,は,X,に,言っ, た]のX の実現値の集合は事例の与え方によって {陽気,相手, . . .}のような意味的に異質なクラスに なるのを避けられない28).これが過剰般化の原因 になるのは明らかである.
もっとも簡単な解決は,パターンを構成する変項 を意味素性で表現し,事例化に意味素性のフィル ターをかけることである.これにより,例えばP1:
[彼,は,X[+concrete,+human, . . . ],に,言っ,た]と P2: [彼, は,X[−concrete, −human, . . . ], に, 言っ, た]とが別のパターンとして区別され,[彼,は,相手 [+human],に,言っ,た]はP1だけの,[彼,は,陽気 [−human],に,言っ,た]はP2だけの実現となる.
理論的には,こうして問題が解決できるのは明ら かだが,そのために必要な要素技術が成熟してい
28)ここで品詞を区別するのは,i)論点先取となり,ii) PL*の 開発動機に反するので,モデルを可能な限り簡単にした いなら,それは導入すべきではない.
ないため,実装は先送りにしている.幸い,日本語
WordNet [2]が一般公開されたたので,その情報を
使った実装を考えている.
4.1.3 パターンの統合処理の明示化
本稿が提案する言語処理では,文sの解釈とはs のPLを含んだPL*を構成する(超)語彙的パターン がマッチする事例集合に分散されている意味情報を (選択的に)統合することである.紙面の都合もあ り,この情報統合がどんな処理であるかは本稿では 明示できなかった.この処理の定式化は[39,§2.4]
にあるが,実装は行われていない.近い将来,それ を試みる予定である.
4.2 幾つかの応用可能性29)
可能性を思いついただけで実装されてないが,
PL*には幾つかの応用があるように思う.
4.2.1 対訳アラインメントの高精度化
対訳関係にある(e,e′)のPL*を構築し,PL(e)と PL(e′)との間で対訳関係が取れるパターンの集合 を特定する.この対応づけは統計翻訳で使われてい るフレーズテーブルの対案(か少なくとも改良案) になる.今のところは人手でやるしかないかも知れ ないが,この作業を半自動化できれば機械翻訳の精 度は向上するように思う.自動獲得されたフレーズ テーブルは,言語学者の観点から見るとまだまだ精 度が低いように思うし,取り出される単位が恣意的 であるように見える.
4.2.2 コーパス事例の単純化
新聞コーパスであれ,他の分野のコーパスであ れ,多くの場合に実例は複雑すぎる.実例をそのま ま言語資源として使うには,幾つかの点で効率が悪 い.実際,単語規模のデータベースと実例のデータ ベースの中間レベルには,句のデータベースなど があってよいはずである(換言表現のデータベース
[30, 48, 49]などは,この規模の言語資源として意
図されているのだと思う).それとは別の方向性と して,既製のコーパスの事例がすべて単文化された もの,謂わば「単純化コーパス」があれば便利だと 考えている人は少なくないと思う.もちろん,これ を実現するための技術困難はそれなりにある(苦労 の割には見返りが少ないのでNLP関係者はこの仕 事に誰も手をつけていないのだと思う).
PL*は常に,複文を重文を単純化したパターンが 含まれる.それらを高精度と他の有用性の低いパ ターンから区別できれば,単純化コーパスを(半)
29)2009/01/17に追加.
自動的に構築できる(ただし,これには分割の多い PL*が効率的に扱えるようになっていないといけな いので,ここには「卵が先か,鶏が先か」という悪 循環があるかも知れない).
5 終わりに
本論文は膨大な事例記憶の仮説[37]に基づく言 語処理モデルをPattern Latticeの下での類似例に分 散された情報の統合という形でモデル化した.提案 されたモデルは,次の特徴をもつ: i)文法の役割を 最小化する; ii)文法記述における構文/構成体の必 然性を正当化し,構文「効果」を説明する; iii)非線 型表現[32]のデータベース化の効率化を支援する.
更に,iv)「言語の創造性」が「(極端に)豊かな事例 記憶」の副産物であるという主張を支援し,v)事例 ベースの言語処理(e.g.,用例機械翻訳)の概念的基 礎を提供する(統計科学が与えるのは,事例ベース 言語処理の「理論」的基礎であって,概念的基礎で はない).
参考文献
[1] M. Barlow and S. Kemmer, editors.2000. CSLI Pub- lications, 2000.
[2] F. Bond, H. Isahara, K. Uchimoto, T. Kuribayashi, and K. Kanzaki. Extending the Japanese WordNet. In言 語処理学会15回大会発表論文集. 2009. C1-4.
[3] N. Chomsky. Aspects of the Theory of Syntax. MIT Press, Cambridge, MA, 1965.
[4] C. M. Conway, M. R. Ellefson, and M. H. Chris- tiansen. When less is less and when less is more:
Starting small with staged input. InProceedings of the 25th Annual Conference of the Cognitive Science Society, pages 270–275. Mahwah, NJ: Lawrence Erl- baum, 2003.
[5] W. Daelemans and A. van den Bosch.Memory-based Natural Language Processing. Cambridge Unversity Press, Cambridge, UK, 2005.
[6] J. L. Elman. Learning and development in neural net- works: The importance of starting small. Cognition, 48(1):71–99, 1993.
[7] G. R. Fauconnier. Mappings in Thought and Lan- guage. Cambridge, MA: Cambridge University Press, 1997.
[8] G. R. Fauconnier and M. Turner. Conceptual projec- tions and middle spaces. Cognitive Science Techni- cal Report (TR-9401), Cognitive Science Department, UCSD, 1994.
[9] C. J. Fillmore, P. Kay, and K. O’Connor. Regularity and idiomaticity in grammatical constructions: The
case oflet alone.Language, 64(3):501–538, 1988.
[10] A. D. Goldberg. Constructions: A Construction Grammar Approach to Argument Structure. Univer- sity of Chicago Press, Chicago, IL, 1995.
[11] A. E. Goldberg. Constructions at Work. New York:
Oxford, 2006.
[12] J. Hawkins and S. Blakeslee. On Intelligence: How a New Understanding of the Brain Will Lead to the Creation of Truly Intelligent Machines. Times Books;
Adapted edition, 2004. [邦訳『考える脳 考えるコン ピューター』(伊藤文英訳).ランダムハウス講談社.].
[13] J. Hutchins. Example-based machine translation:
A review and commentary. Machine Translation, 19:197–211, 2005.
[14] K. Kuroda. Foundations of PATTERN MATCHING
ANALYSIS: A New Method Proposed for the Cogni- tively Realistic Description of Natural Language Syn- tax. PhD thesis, Kyoto University, Japan, 2000.
[15] K. Kuroda. Presenting the PATTERN MATCHING
ANALYSIS, a framework proposed for the realistic de- scription of natural language syntax. Journal of En- glish Linguistic Society, 17:71–80, 2001.
[16] K. Kuroda, K. Nakamoto, Y. Shibuya, and H. Isahara.
Toward a more textual, as opposed to conceptual, approach in metaphor research: A case study of how to cook a husband. InProceedings of the 29th Annual Meeting of the Cognitive Science Society, pages 1199–1204, 2007. [URL: http://clsl.
hi.h.kyoto-u.ac.jp/∼kkuroda/papers/
kuroda-et-al-07-cogsci-paper.pdf].
[17] G. Lakoff and M. Johnson. Metaphors We Live By.
University of Chicago Press, 1980. [邦訳:『レトリッ クと人生』(渡部昇一ほか 訳).大修館.].
[18] G. Lakoff and M. Johnson. The Philosophy in the Flesh. Basic Books, 1999.
[19] J. L. McGaugh. 記憶と情動の脳科学:「忘れにくい 記憶」の作られかた(B1514).講談社, 2006. Transla- tion ofMemory and Emotion: The Making of Lasting Memories, Columbia University Press, 2003.
[20] George A. Miller. The magical number seven, plus or minus two. The Psychological Review, 63(2):81–97, 1956.
[21] S. Sato. A mimd implementation of example-based translation on cm. In RWC Technical Report, TR- 9401, pages 35–36, 1994. [citeseer.ist.psu.
edu/sato94mimd.html.
[22] S. Sato and M. Nagao. Toward memory-based trans- lation. InProceedings of COLING-90, Helsinki, Fin- land, pages 247–252, 1990.
[23] Y. Shibuya, K. Kuroda, J.-H. Lee, and H. Isa- hara. Specifying deeper semantics of a text using MSFA. IEIECE Techical Report, 106(299):27–32, 2006. NLC2006-27 (2006-10).
[24] J. M. Sinclair. Corpus, Concordance, Collocation.
Oxford University Press, 1991.
[25] A. Wray.Formulaic Language and the Lexicon. Cam- bridge University Press, Cambridge/New York, 2002.
[26] 大石 亨. 概念メタファー理論と構文文法の統合、お よびその含意. In日本認知言語学会論文集Vol. 9, 2009.
[27] 大石 亨.類義語による比喩的意味の使い分けとその 表示方法:<浮上>に関する動詞の分析. In特定領 域研究「日本語コーパス」平成20年度公開ワーク ショップサテライトセッション予稿集, pages 3–12, 2009.
[28] 月元 敬. 抑制に基づく記憶検索理論の構成. 風間書 房, 2008.
[29] 中本 敬子,李 在鎬, and黒田 航.日本語の語順選好は 動詞に還元できない文レベルの意味と相関する:心 理実験に基づく日本語の構文研究への提案. 認知科 学, 13:334–352, 2006.「文理解」特集号.
[30] 乾 健太郎and藤田 篤.言い換え技術に関する研究動 向.自然言語処理, 11(5):151–198, 2004.招待論文. [31] 池原 悟,阿部 さつき,竹内 奈央,徳久 雅人, and村上
仁一. 意味的等価変換方式のための重文複文の統語 的意味的分類体系について. 情報処理学会研究報告, 2006-NL-176:1–8, 2006.
[32] 池原 悟,徳久 雅人,村上 仁一,佐良木 昌,池田 尚志, and宮崎 正弘. 非線形な重文複文の表現に対する 文型パターン辞書の開発. 情報処理学会研究報告, NL-170(25):157–164, 2005.
[33] 鍋島 弘治郎. 領域を結ぶのは何か:メタファー理論 における価値的類似性と構造的類似性. In日本認知 言語学会論文集第3巻, pages 12–22.日本認知言語 学会(JCLA), 2003.
[34] 鍋島 弘治郎. 黒田の疑問に答える:認知言語学から の回答.日本語学, 26(3):54–71, 2007.
[35] 黒田 航. 概念メタファーの体系性,生産性はどの程 度か? 日本語学, 24(6):38–57, 2005.
[36] 黒 田 航. メ タ フ ァ ー 理 解 の 状 況 基 盤 モ デ ル の 基 本 的 な 主 張: 概 念 メ タ フ ァ ー 理 論 と の 比 較 を 通 じ た 解 題. http:
//clsl.hi.h.kyoto-u.ac.jp/∼kkuroda/
papers/smmc-in-a-nutshell.pdf, 2007.
[37] 黒 田 航. 徹 底 し た 用 法 基 盤 主 義 の 下 で の 文 法 獲 得: 「 極 端 に 豊 か な 事 例 記 憶 」の 仮 説 で 描 く 新 し い 筋 書 き. 月 刊 言 語, 36(11):24–
34, 2007. 原 典 版: http://clsl.hi.
h.kyoto-u.ac.jp/∼kkuroda/papers/
la-with-rich-memory-full.pdf.
[38] 黒 田 航. 鍋 島 氏 か ら の 反 論 に 対 す る 幾 つ か の 異 論. http://clsl.hi.h.
kyoto-u.ac.jp/∼kkuroda/papers/
reply-to-nabeshima-07-abridged-v1-sc.
pdf, 2007.
[39] 黒田 航. なぜ超語彙的パターンが語彙的パター
ン よ り も 重 要 な の か?: 構 文「 効 果 」の 記 述 の た め の 基 礎 理 論 の 提 示. http://clsl.hi.
h.kyoto-u.ac.jp/∼kkuroda/papers/
constructions-as-bias-sources.pdf, 2008.
[40] 黒 田 航 and 井 佐 原 均. 複 層 意 味 フ レ ー ム 分 析 を 用 い た 意 味 役 割 タ グ つ き コ ー パ ス 評 価 版 の 公 開. In 言 語 処 理 学 会 11 回 大 会 論 文 集, pages ab–cd, 2005. [http:
//clsl.hi.h.kyoto-u.ac.jp/∼kkuroda/
papers/sr-tagging-nlp11-paper.pdf].
[41] 黒 田 航 and 井 佐 原 均. 複 層 意 味 フ レ ー ム 分 析
(MSFA)に意味役割の典型的実現値の情報を付加
してシソーラス化する試み. In言語処理学会第12 回大会発表論文集, pages 181–184, 2006.発表P1-11.
[42] 黒田 航and 中本 敬子. 文彩を生じさせる(語の) 意 味 の 相 互 作 用 の 実 体 は 何 か?: MSFAと PMA を 使 っ た 語 彙 的 意 味 記 述 と 超 語 彙 的 意 味 記 述 の 統 合. In Proceedings of the 24th Annual Meeting of the Japanese Cognitive Science Society (JCSS), pages 424–429, 2007. [URL: http://clsl.
hi.h.kyoto-u.ac.jp/∼kkuroda/papers/
msfa-meets-metaphor-jcss24-paper.
pdf].
[43] 黒田 航,李 在鎬,渋谷 良方, and井佐原 均.複層意味 フレーム分析(の簡略版)を使った意味役割タグづけ の現状:タグづけデータから派生する言語資源の紹 介を中心に. In言語処理学会14回大会発表論文集, 2008.
[44] 黒田 航,李 在鎬,渋谷 良方,河原 大輔, and井佐原 均. 自動獲得された大規模格フレーム辞書の精度向 上を見込んだ人手評価. In言語処理学会第13回年 次大会発表論文集, pages 1054–1057, 2007.
[45] 李 在鎬. 他動詞のゆらぎ現象に対する「構文」的ア プローチ.言語科学論集, 7:1–20, 2001.
[46] 持橋 大地and隅田 英一郎. 階層Pitman-Yor過程に 基づく可変長n-gram言語モデル.情報処理学会論文 誌, 48(12):4023–4032, 2007.
[47] 持橋 大地,山田 武士, and上田 修功.ベイズ階層言語 モデルによる教師なし形態素解析. In情報処理学会 研究報告2009-NL-190, 2009.
[48] 藤田 篤and乾 健太郎. クラス指向事例収集による 言い換えコーパスの構築. 自然言語処理, 13(3):133–
150, 2006.
[49] 藤 田 篤, 降 幡 建 太 郎, 乾 健 太 郎, and 松 本 裕 治. 語彙概念構造に基づく言い換え生成—機能動詞 構 文 の 言 い 換 え を 例 題 に. 情報処理学会論文誌, 47(6):1963–1975, 2006.