• 検索結果がありません。

英語俳句メーリングリストからの知識抽出

N/A
N/A
Protected

Academic year: 2021

シェア "英語俳句メーリングリストからの知識抽出"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会第 74 回全国大会. 5B-4. 英語俳句メーリングリストからの知識抽出 和田. 武†. 檀. 裕也‡. 愛媛大学総合情報メディアセンター†. 1.はじめに 郷土(愛媛県松山市)の俳人・正岡子規を記念 して 1994 年から開設している英語俳句メーリン グリスト(Shiki サーバの NOBO List)は、世界で 最初の Haiku ポータル・サイトの一つとして認 知され、国内外を問わず英語俳句愛好者等に広 く利用されている。本発表では、初心者でも英 語俳句が容易に投句できる支援システムの構築 を目指すために、長年蓄積されたコンテンツを 活用して、(1)NOBO List 等に投句された英語俳 句をデータベース化し、(2)このデータに形態素 解析を加えて英語俳句によく用いられる語彙を 抽出する研究を試みたので、これらについて報 告する。. 墨岡. 学‡. 松山大学経営学部‡. 表2は、2008 年 9 月の季語「Autumn」に投句さ れた 65 句のうち最初の3句を示している。英語 俳句は、3行詩が一般的で、切れ字は体言止め や、’…’’―’’;’などの記号が使われているこ とがわかる。中央列の NN は名詞、DT は冠詞、 VVZ は動詞、IN は前置詞、SENT は記号を表して いる。. 2.方法と結果 解析データは、NOBO List 等で開催している The Shiki Monthly Kukai に投句された 2008 年 1 月から 12 月までの 1403 句の英語俳句を用いた (表1)。この Kukai は、季語の部と季語なしの 2部構成である。. 表2.形態素解析 次に、出現頻度の高い語同士の関連を解析す れば、英語俳句の初心者でも容易に投句でき ると考え、 表2のデータを用いて月別投句語の このデータを、ドイツの Helmut Schmid 氏が クロス集計を行った。表3にその結果の一部を 開発した形態素解析ツール TreeTagger により、 示す。横軸が月で縦軸が語で、赤字は、季語を 投句語の品詞を同定して原形を求めた(表2)。 表す。冠詞や前置詞が多い中、季語に指定され リスト左列が投句語、中央が品詞、右列が原形 ていない月でも spring や night,autumn,moon な を表している。1 行目から 12 行目が1つの句で どが多く使用されている。また、1 句当たり冠詞 Characteristic extraction from an English haiku mailing list や前置詞等含めて平均 9 語で構成されているこ † Takeshi Wada ; Center for Information Technology, Ehime とがわかる。 University. ‡ Yuya Dan, Manabu Sumioka; Faculty of Business Admin図1に、コレスポンデンス分析(対応分析)を 表1.The Shiki Monthly kukai. istration, Matsuyama University.. 1-509. Copyright 2012 Information Processing Society of Japan. All Rights Reserved..

(2) 情報処理学会第 74 回全国大会. 原点から離れた行・列の要素の対応がよくわか り、原点に近いと第3軸、第4軸などを用いる とより対応がはっきりする。12 月には snow、 star、2 月には rusty など季語以外の語句が使用さ れていることがわかる。なお、コレスポンデン ス分析では、図1以外に固有値表と行間差・列 間差の有意性検定表、残差の有意性の検定表な ども出力される。固有値表をみると、累積寄与 率が第1軸で 14.3%、第2軸で 27.5%とそれほど 高くはなく、行間差・列間差の有意差検定表で は、第 10 軸まで有意になっている。残差の有意 性の検定では、第1軸だけでは表現できない 行・列の要素があり、2次元で表現することに 統計的意味があることを示している。 3.まとめ 英語俳句が容易に投句できる支援システムの 構築を目指す目的で、(1)2008 年に NOBO List 等 の The Shiki Monthly Kukai に投句された英語 俳句をデータベース化した。(2)形態素解析を加 表3.投句語の月別クロス集計 え投句語の月別クロス集計を求めた。(3)コレス ポンデンス分析により月別に英語俳句によく用 行った結果(原点部分を中心に)を示す。コレス いられる語句を抽出した。これにより、各月で ポンデンス分析は、クロス集計表の行の要素と 季語以外によく使用される語句があることがわ 列の要素を相関関係が最大になるように並び替 かった。今後は、2006 年から 2010 年までのデ え、類似する項目が隣り合うようになることで、 ータを合わせて解析し、(2)係り受け解析(キ 変数間の類似性や関連性を調べる分析方法であ ーワードと関係のある単語との組み合わせに る。今回の分析では、冠詞や前置詞は除いてい ついて解析)を行い、より初心者でも簡単に英 る。 語俳句が作成できるシステムの構築を目指し 図1.コレスポンデンス分析結果(一部) たい。. 図1の◇が列要素、×が行要素を示している。. 4.参考文献 [1] 岡亮衛「季語データベースの構築と俳句の季 語の自動判定の試み(2)」人文学とコンピュータ 49-3(2001) [2] 田中省作「形態素解析ツール -英語と TreeTagger を中心に-」 [3] 檀裕也、墨岡学、和田武「英語俳句の特徴抽 出と文書ベクトルの構成」情報処理学会第 73 回 全国大会 4B-5(2011) [4] 檀裕也、和田武、墨岡学「サポートベクター マシンによる英語俳句の抽出」情報処理学会第 72 回全国大会 2C-5(2010) [5] 墨岡学、井上博民、和田武、田中喜美代、 BOGDAN DAVID RICHARD 「 英 語 俳 句 サ イ ト Shiki の軌跡 -Shiki Team 年代記」情報処理学 会第 72 回全国大会 2H-1(2010) [6] 和田武、檀裕也、和田武、墨岡学「HAIKU サ ーバのアクセスログ解析と運用管理」情報処理 学会第 69 回全国大会 2D-4(2007). 1-510. Copyright 2012 Information Processing Society of Japan. All Rights Reserved..

(3)

参照

関連したドキュメント

脱型時期などの違いが強度発現に大きな差を及ぼすと

わかりやすい解説により、今言われているデジタル化の変革と

こらないように今から対策をとっておきた い、マンションを借りているが家主が修繕

 英語の関学の伝統を継承するのが「子どもと英 語」です。初等教育における英語教育に対応でき

歴史的にはニュージーランドの災害対応は自然災害から軍事目的のための Civil Defence 要素を含めたものに転換され、さらに自然災害対策に再度転換がなされるといった背景が

①配慮義務の内容として︑どの程度の措置をとる必要があるかについては︑粘り強い議論が行なわれた︒メンガー

単に,南北を指す磁石くらいはあったのではないかと思

「海にまつわる思い出」「森と海にはどんな関係があるのか」を切り口に