博士(情報科学) Eleanor Frances Margaret Clark
学 位 論 文 題 名
Normalization and Generation of Social IVIedia Casual English usingaLexical Base to Support Communication
(コミュニケーション支援のためのソーシャルメデイアにおける英語スラン グ表現を対象とした語彙ベースに基づくテキスト標準化および生成)
学位論文内容の要旨
近年のインター ネットの利用の急速 を普及に従い,ソ ーシヤルネットワークサイトやブログ,マイク ロプ ログ を どメディア のユーザが急増して いる.これらのユ ーザは文法・綴り ・旬読点をどの規則 から 逸脱 し たカジュア ルな英語スラング表 現を使用すること が多いため,これ らのテキストを理解 する必要性が増 大しつっある,この ようを状況に対し て,カジュアルで例外的を英語スラング表現の 標準 化が 研 究の対象と をっていることは非 常に少をく,これ まで自然言語処理 の分野では相当労カ を必要とする仕 事とみをされてきた .関連研究として は全自動,統計的を手法が圧倒的に多く見られ る一方,本学位 論文では手動と自動 の両方を融合した 手法を用い,この問題においてはこのような手 法がより適切を 手法であることを実 験により実証して いる.それゆえ,本研究の目的は自動的トーク ン化,マッチン グや置き換えをどの 要素手法と,手動 で作成した高品質で網羅性の高いデータベース と組 み合 わ せたシステ ムに用いられる独自 の知見を多くの人 々が使えるコミュ ニケーション支援の ための,フレー ズを含む語彙データ ベースとして得る ことである.
本学 位論 文 では,独自 の語彙ベースを応用 したカジュアルな 英語スラング表現 のテキスト処理を研 究課題とし,テ キストの標準化およ び生成を行った結 果について述べる.まず自動標準化のための実 験シ ステ ム(CECS: Casual English Conversion System)の 提案を行った.CECSの応用は2っある.
一っ は機 械 翻訳や情報 抽出をどの自然言語 処理タスクにおい てノイズの多いデ ータの前処理システ ムである,もう ーっは,現在の国境 を越えたコミュニ ケーションへの積極的を参加が困難である実質 的に 国際 標 準語となっ ている英語以外が母 国語であるユーザ のために,ソーシ ャルメディアにおけ る英 文の 読 書理 解カ を 支援 する シ ステ ムで あ る.CECSを 用い て 行っ た評 価 実験 は機械翻訳の前処 理実 験と コ ミュ ニケ ー ショ ンの た めの評価実験の2種類であ る.機械翻訳の前 処理実験では,CECS を用いて前処理 を行い,′l'witter上の文章を機械翻訳の入カとして評価を行ったが,前処理を行わを かっ た場 合 と比 較す る と前 処理 後 の翻訳されてい をいトークンが平均74.3%減 少し,翻訳が誤った トークンが平均37.2%減少 した.また,コミ ュニケーションのた めの評価実験では ,被験者の理解度 がSD法(Semantic Differential Method:意 味 差判 別法 )の5段階のス ケールにおいて平 均1ポイン ト 向 上 し た . こ れ ら の 実 験 結 果 か ら , 提 案 シ ス テ ム の 有 効 性 と 必 要 性 が 確 認 さ れ た . カジ ュア ル 橡英語スラ ング表現の普及に伴 う問題として,一 般のユーザにとっ てその文章の理解が 困難 とい う のはもちろ んだが,もうーつの 問題としてその文 章に多く見られる 独自性のあるスペル を作 成し , 文章中に入 れること自体も一般 のユーザにとって ,簡単ではをぃと 考えられる,そのた め,本研究では 標準化だけでをく, さらに,英語スラ ング表現を自動的に生成するシステムの提案を 行い,独自の音 節データベースを応 用する実験システ ム(CEGS: Casual English Generation System) の 開 発を 行 った .人 間 のコ ミュ ニ ケー ショ ン を支 援す る とぃ う最 終 的誼 目的 の 基にCEGSはCECS ―627―
とい う 双方 向の 機 能を有するシ ステムの開発を行 った,本実験システ ムの科学的を目的 は音節ベー スを 用 いる こと に より人間の独 創的の文章創造能 カを代行することが できるかという人 工知能的を ものである, また,工学的側面と しては,ソーシヤ ルメディアにおい てカジュアルを表現を書くこと が苦 手 顔世 代を 対 象としたカジ ュアル表現の自動 生成システムや,テ キストを用いる会 話システム の文 章 表現 の自 然 性を 向上 さ せる こと を どが考えられる.CEGSの評価 実験を行をった結 果,被験者 50名 に 対し て行 を った チュ ー リン グテ ス ト型 の実 験 では .CEGSの出 力文の人間らしさ が人間の書 いた 文 より やや 低 く評 価さ れ た. しか し ,こ の差 は5点 ス ケー ルで平均0.6点という小 さ毅もので あった.また ,CEGSの出力文の中 で,実際に人間の 書いた文より高く 評価された事例もあった.この 結果から,Twitt・erを どの文章に似た英 語のスラング表現を生成するタスクにおいて,CEGSが有効で あることが確 認された.
英文 の 電子 コミ ュ ニケーション を支援するための 語彙データベースを 応用したテキスト の標準化及 び生 成 シス テム の 実験結果より 本学位論文で提案 する手法が,ソーシ ャルメディア等に 頻繁に出現 する 英 語ス ラン グ 表現を処理す るために有効であ り,英語カが低い人 や年配の人をどを 含むユーザ のコ ミ ュニ ケー シ ョン のサ ポ ート を行 う ため のデ ー タベ ース の開発 に貢献することを 確認した.
‑ 628一
学位論文審査の要旨 主 査 教 授 荒木 健 治 副 査 教 授 山本 強 副査 教授 長谷山美紀
学 位 論 文 題 名
Normalization and Generation of Social rvIedia Casual English usingaLexical Base to Support Communication
( コ ミ ュ ニ ケ ー シ ョ ン 支 援 の た め のソ ー シャ ル メ デイ ア にお け る 英語 ス ラン グ 表 現 を 対 象 と し た 語 彙 ベ ー ス に 基 づ く テ キ ス ト 標 準 化 お よ び 生 成 )
近年 のインターネット の利用の急速を普及 に従い,ソーシャ ルネットワークサ イトやブログ,マイ ク ロプ ロ グを どメ デ ィア のユ ー ザが 急増 してい る.これらのユー ザは文法・綴り・ 句読点をどの規 則 から 逸 脱し たカ ジ ュア ルを 英 語ス ラン グ表現 を使用することが 多いため,これら のテキストを理 解する 必要性が増大しつ っある.このようを 状況に対して,カ ジュアルで例外的 を英語スラング表現 の 標準 化 が研 究の 対 象と をっ て いる こと は非常 に少をく,これま で自然言語処理の 分野では相当労 カを必 要とする仕事とみ 極されてきた,関連 研究としては全自 動,統計的を手法 が圧倒的に多く見ら れる一 方,本学位論文で は手動と自動の両方 を融合した手法を 用い,この問題に おいてはこのよう誼 手法が より適切教手法で あることを実験によ り実証している. それゆえ,本研究 の目的は自動的トー クン化 ,マッチングや置 き換えをどの要素手 法と,手動で作成 した高品質で網羅 性の高いデータベー ス と組 み 合わ せた シ ステ ムに 用 いら れる 独自の 知見を多くの人々 が使えるコミュニ ケーション支援 のため の,フレーズを含 む語彙データベース として得ることで ある.
本学 位 論文 では , 独自 の語 彙 ベー スを 応用し たカジュアルを英 語スラング表現の テキスト処理を 研 究課 題 とし ,テ キ スト の標 準 化お よび 生成を 行った結果につい て述べる.まず自 動標準化のため の 実験 シ ステ ム(CECS: Casual English Conversion System)の 提 案を 行っ た.CECSの応用は2っあ る .一 っ は機 械翻 訳 や情 報抽 出 をど の自 然言語 処理タスクにおい てノイズの多いデ ータの前処理シ ス テム で ある .も う ーつ は, 現 在の 国境 を越え たコミュニケーシ ョンへの積極的を 参加が困難であ る 実質 的 に国 際標 準 語と をっ て いる 英語 以外が 母国語であるユー ザのために,ソー シャルメディア に お け る 英 文の 読書 理 解カ を支 援 する シス テ ムで ある.CECSを 用い て行 っ た評 価実 験 は機 械翻 訳 の 前 処 理 実 験と コミ ュ ニケ ーシ ョ ンの ため の 評価 実験 の2種 類 であ る. 機 械翻 訳の 前 処理 実験 で は ,CECSを用 いて 前 処理を行い,Twitter上の文 章を機械翻訳の入 カとして評価を行 ったが,前処理 を 行わ を かっ た場 合 と比 較す る と前 処理 後 の翻 訳さ れ てい をぃ トークンが 平均74.3%減少し,翻訳 が 誤っ た トー クン が 平均37.2%減少した.また, コミュニケーショ ンのための評価実 験では,被験者 の 理解 度 がSD法(Semantic Differential Method:意 味 差判 別法 )の5段階のスケー ルにおいて平均 1ポ イ ン ト 向 上 し た . こ れ ら の 実 験 結 果 か ら , 提 案 シ ス テ ム の有 効性 と 必要 性が 確 認さ れた . カジ ュ アル を英 語 スラ ング 表 現の 普及 に伴う 問題として,一般 のユーザにとって その文章の理解 が 困難 と いう のは も ちろ んだ が ,も うー つの問 題としてその文章 に多く見られる独 自性のあるスペ
−629―
ルを作 成し ,文章 中に入 れるこ と自体 も一 般のユ ーザにとって,簡単ではをぃと考えられる.そのた め,本 研究 では標 準化だ けでを く,さ らに ,英語 スラング表現を自動的に生成するシステムの提案を 行い, 独自 の音節 データ ベース を応用 する 実験シ ステム(CEGS: Casual English Generation System) の 開発 を 行 っ た .人 間 の コ ミ ュニ ケ ー シ ョ ン を支 援 す る と いう 最 終 的 を 目的 の 基 にCEGSはCECS という 双方 向の機 能を有 するシ ステム の開 発を行 った. 本実験 シス テムの 科学的 を目的 は音節ベー スを用 いる ことに より人 間の独 創的の 文章 創造能 カを代 行する こと ができ るかと いう人 工知能的誼 もので ある .また ,工学 的側面 として は, ソーシ ヤルヌディアにおいてカジュアル顔表現を書くこと が苦手 を世 代を対 象とし たカジ ュアル 表現 の自動 生成シ ステム や, テキス トを用 いる会 話システム の 文章 表 現 の 自 然性を 向上さ せるこ とを どが考 えられ る.CEGSの評 価実験 を行橡 った結 果. 被験者 50名 に 対 し て 行教 っ た チ ュ ーリ ン グ テ スト型 の実験 では。CEGSの出 力文の 人間 らしさ が人間 の書 い た文 よ り や や 低く 評 価 さ れ た. し か し。こ の差 は5点 スケ ールで 平均0.6点と いう小 さを もので あった .ま た,CEGSの 出力 文の中 で,実 際に人 間の書いた文より高く評価された事例もあった.この 結果か ら,Twitterを どの 文章に 似た英 語のス ラング 表現 を生成 するタ スクにおいて,CEGSが有効で あるこ とが 確認さ れた,
英文 の電子 コミュ ニケー ショ ンを支 援する ための 語彙デ ータ ベース を応用 したテ キス トの標準化 及び生 成シ ステム の実験 結果よ り本学 位論 文で提 案する 手法が ,ソ ーシャ ルメデ ィア等 に頻繁に出 現する 英語 スラン グ表現 を処理 するた めに 有効で あり, 英語カ が低 い人や 年配の 人をど を含むユー ザのコ ミュ ニケー ション のサポ ートを 行う ための データ ベース の開 発に貢 献する ことを 確認した.
これ を要す るに, 著者は ,ソ ーシャ ルメデ ィア等に頻繁に出現する英語スラング表現を処理するた めのテ キス ト処理 手法を 提案し ,その 標準 化と生 成について実験システムを開発し,評価実験によっ て本手 法の 有効性 を示し たもの であり ,自 然言語 処理工 学の発 展に 貢献す るとこ ろ大を るものがあ る .よ っ て 著 者 は, 北 海 道 大 学博 士 ( 情 報 科 学) の 学 位 を 授与 さ れ る 資 格あ る も のと 認める ,
―630−