• 検索結果がありません。

博 士 ( 工 学 ) 松 原 雅 文

N/A
N/A
Protected

Academic year: 2021

シェア "博 士 ( 工 学 ) 松 原 雅 文"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

博 士 ( 工 学 ) 松 原 雅 文

学 位 論 文 題 名

携帯端末における帰納的学習を用いた 文字列情報の縮退および復元に関する研究

学位論文内容の要旨

  プロ グラ ミン グ言 語な ど, 人 為的 に規 定さ れた 言語 を人 工言 語と 呼ぶのに対して,日本 語 や英 語な ど, 人間 が日 常使 用 して いる 言語 を自 然言 語と 呼ぶ ,自 然言語処理とは,この 自 然言 語を 計算 機上 で取 り扱 う こと であ る. 人工 言語 は曖 味性 がな い,すなわち完全デー タ の 集 合 で あ る の に 対 し て , 自 然 言 語は 社会 の中 で自 然に 発生 し, 自然 に用 いら れて い る 言語 であ るた め, 一般 に多 く の曖 味性 を含 んで おり ,不 完全 デー タの集合であるとぃえ る .従 って ,自 然言 語を 計算 機 上で 取り 扱う こと は非 常に 困難 であ る.しかしながら,人 間 はこ の自 然言 語の 持つ 暖味 さ を解 消し ,デ ータ の不 完全 な部 分を 復元することにより,

完 全な デー タと して 処理 する こ とが 可能 であ る. この 能カ を解 明し ,計算機上で同様の処 理 を実 現す るこ とが 本研 究の 最 終目 的で ある ,

  一般 に, 人間 が自 然言 語を 理 解す る過 程に おい ては ,背 景知 識や 文脈情報,あるいは目 や 耳卆 ど五 感か らの 情報 も利 用 して いる と考 えら れる .こ れら すべ ての情報を計算機上で 取 り扱 うこ とは ,現 在の 技術 で は困 難で ある .そ こで ,本 研究 にお いてはテキストデータ の みを 取り 扱う こと とす る. テ キス トデ ータ を可 逆な 不完 全デ ータ に変換し,この変換の 際 に失 われ た情 報を 復元 する こ とを 考え る. この 変換 され た不 完全 データは,人間にとっ て も今 まで に取 り扱 った こと の ない デー タで ある .そ のた め. こ のようなデータに対し て ,背 景知 識や 文脈 情報 を利 用 する こと は困 難で ある と考 えら れる .しかしながら,人間 は この よう なデ ータ に対 して も 処理 を繰 り返 し学 習を 行う こと によ り,字面情報のみから で も失 われ た情 報を 復元 し, 次 第に 元の テキ スト デー タへ の変 換を 正しく行うことができ る よう にな って いく ,こ のよ う な処 理を 計算 機上 で実 現す るの が, 本研究の目的である.

  携帯 電話 等, 携帯 端末 の性 能 の進 歩に 伴い ,こ のよ うな 小型 端末 上で電子メール等のテ キ スト デー タを 処理 する 機会 と 必要 性が 増大 して いる .携 帯電 話は 現在広く使用されてい る 携帯 端末 であ る. 一般 的な 携 帯電 話は ,そ の大 きさ に制 約が あり ,大きなキーボード,

多 数の キー を備 える こと がで き ない .そ こで ,こ の少 ない キー を用 いて文字列を入カする た めに ,文 字列 情報 の縮 退を 考 える .端 末ヘ 入カ する べき 情報 を減 少させることにより,

携 帯電 話上 の少 ない キー から で も迅 速な 入カ が可 能と なる .そ して ,この入カの際に縮退 し た情 報を 復元 する こと を目 指 す. 携帯 電話 はそ の大 きさ の制 約か ら装備可能なキー数が

1013

(2)

限られるが,最低でも0〜9,#,*の12個のキーは装備しているのが普通である.この12 キーを用いて,例えば日本語を入カすることを考える,日本語には約50個のかな文字が 存在するので,1っのキーに複数の文字を割り当てる必要がある.一般的には,あ行,か 行などの一行が1っのキーに割り当てられている.また,一般的な入力方式としては,文 字循環指定方式が採用されているが,この入力方式では,1文字の入カに複数回の打鍵が 必要となる.よって本研究においては,迅速な入カを可能とするために文字情報縮退方式 を採用し,1文字の入カを1打で行うものとする.これにより,例えば「野球」を入カす る場合,文字循環指定方式では,1+2十5+3‑11回の打鍵数が必要なのに対し,文字情報 縮退方式では,1十1十1十1〓4回の打鍵数で入カが完了する,しかしながら,入カされた数 字1文字は意図したかな文字以外にも,それと同一行の他のかな文字にも対応することに なり,結果として入力数字列は多数の日本語文に対応し,暖味性が増大している.従って,

このような入力数字列は上述した不完全データであるといえる.この不完全性を解消し,

縮 退 し た 文 字 列 情 報 を 復 元 す る こ と が 本 研 究 の 具 体 的 な 目 的 で あ る ,   これを実証するために,本研究では,取り扱う対象を徐々に高度化し,それに耐えうる 応用システムを工学的に実現し,その性能評価を行っている.そこで最初に取り扱った対 象は,携帯端末向けの日本語入力手法である.この手法における入カデータは,かち文字 列の母音情報が縮退した数字列である.これを漢字かな混じり文である日本語文に正しく 変換することが本手法の目的である.入力数字列と日本語文とは,表層表現は一部異なる が記述体系は同じである.すなわち,入力数字列と日本語文においては文字の対応関係を 左から順に決定可能なので,表層表現が一致する部分を手掛かりとして,左から順に単語 に相当するセグメントを抽出することができる.このように字面情報に基づき,対応関係 を変換ルールとして随時獲得することが本手法の基本であり,これを帰納的学習と呼ぶ.

このようにして獲得された変換ルールを用いて変換を行っていくので,本手法においては 入カデータの増加に伴い,次第に変換精度を向上させることができる.評価実験の結果,

80[%]以上の変換精度が確認された.

  次に,携帯端末向けの中国語入力手法を対象とした.この手法の入カデータは,中国語 のピンインに対応した数字列である.ピンインとは,中国語の読みに相当し,ローマ字ア ルファベットにより表現される,入力数字列と中国語文とは,表層表現はまったく異なる が,記述体系は同じである.従って,左から順に1対1の対応を決定することができる.

しかしながら,日本語とは異なり,表層表現が一致する部分が存在しないため,対応を決 定する手掛かりが1組の変換例中には存在しない.そのため,ここで取り扱う対象は日本 語文に対して高度化されているといえる.そこで,本手法においては,2組の変換例を使 用し,それらの間で一致する文字列を手掛かりとして対応関係を獲得し,変換に利用して い く . 評 価 実 験 の 結 果 ,65[Vo]程 度 ま で の 変 換 精 度 の 上 昇 が 確 認 さ れ た .   次に,携帯端末向け機械翻訳手法を対象とした.日英機械翻訳を前提としているので,

本手法の入カデータは日本語のかな文字列に対応した数字列である.この数字列を英語文 に変換する,よって,入力数字列と英語文とは,表層表現も記述体系もまったく異なって

(3)

おり,手掛かりとなる部分が存在しても対応関係を1対川こ決定できない.そのため,こ の対象は上記2っの対象に比べて高度化されたデータであるといえる.そこで,この手法 においての対応関係は単語列単位で決定する,すなわち,単語の語順を含めて翻訳ルール として獲得し,翻訳に利用する.評価実験の結果,他手法と比較して高い翻訳効率が得ら れ,本手法の有効性が確認された.

  以上のように,高度化したデータに対しても本手法が有効であることが示され,人間と 同 等 に情 報 を 復元 す る能 カ を ,計 算 機に お い ても 実 現で き る 可能 性 が 示された ,

(4)

学位論文審査の要旨

学 位 論 文 題 名

携帯端末における帰納的学習を用いた 文字列情報の縮退および復元に関する研究

  著者 は , 携帯 端 末 にお い て 迅 速な 文 字列入カ を可能 とするた めに,文 字列の 情報を縮 退 さ せ て入 カ を 行い , そ の際 に 失 わ れた 情報を ,統計情 報を用 いた帰納 的学習 により磚 元す る手 法につ いて提案 した.

  著 者 は ,近 年 の 携帯 電 話 の普 及 と そ れに 伴 う 電子 メ ー ル利 用 者 数の 増 大 を考 慮 し ,携 帯 電 話に お け る文 字 列 処理 に 着 目 した .一般 的な携帯 電話は ,その大 きさに 制約があ り,

大き なキー ポード, 多数のキ ーを備 えること ができ ない.そ こで, この少なぃヽキーを用い て 文 字列 を 入 カす る た めに , 著 者 は文 字列の 情報を縮 退させ ることを 考えた .端末ー 与え る 情 報を 減 少 させ る こ とに よ り , 携帯 電話上 の少ない キーか らでも迅 速な入 カが可能 とな る . そ し て , こ の 入 カ の 際 に 縮 退 し た 情 報 を 復 元 す る こ と を 研 究 の目 的 と して い る ,   携帯 電話は その大き さの制 約から装 備可能な キーの 数が限ら れるが ,最低でも0〜9,#,

* の12個 のキ ー を 装備 し て いる , こ の12キ ー を用 い て ,例 え ば 日本 語 を 入カ す る 場合 , 日 本 語 に は 約50個 の か な 文 字 が 存 在 す るの で ,1つ の キ ーに 複 数 の文 字 を 割り 当 て る必 要 が ある . 一 般的 に は ,あ 行 , か 行な ど の 一行 が1っの キ ー に割 り当 てられ ている. この 割 り 当 て に 従い , か な1文 字 の入 カ を1打で 行 う .こ の よ うに し て ,文 字 列 の情 報 を 縮退 さ せ るこ と に より 迅 速 な入 カ を 可 能と し て いる . し かし な が ら, 入カさ れた数 字1文 字は 意 図 した か な 文字 以 外 にも , そ れ と同 一行の 複数のか な文字 にも対応 するこ とになり ,結 果 と して 入 力 数字 列 は 多数 の 日 本 語文 に対応 し,曖昧 性が非 常に増大 してい る.この 縮退 しだ 文字列 情報を復 元するこ とが本 研究の目 的であ る.

  こ れ を 実現 す る ため に , 提案 手 法 に おい て は 実例 か ら 表層 表 現 が一 致 す る部 分 を 手掛 か り とし て , 対応 関 係 を変 換 ル ー ルと して獲 得する. さらに ,獲得さ れた変 換ルール 同士 か ら 再帰 的 に 変換 ル ー ルを 獲 得 す るこ とによ り,抽象 度の異 なるさま ざまな 変換ルー ルを 効 率 よく 獲 得 可能 で あ る. こ の よ うに 表層表 現に基づ き,対 応関係を 変換ル ールとし て随 時 獲 得す る こ とが 提 案 手法 の 基 本 であ り,こ れを帰納 的学習 と呼んで いる. このよう にし て 獲 得 さ れ た変 換 ル ール を 用 いて 次 回 か らの 変 換 を行 う の で, 提 案 手法 に お いて は 入 力

治 直

健 由

木 木

荒 青

授 授

教 教

査 査

主 副

(5)

データの増加に伴い,次第にその変換精度を向上させることができる.また,変換の際に 同一箇所において変換候補が競合した場合には,各変換ルールが持っゆう度を評価し,そ の時点で最適な変換候補を決定する.このゆう度評価には,隣接する文字列とのっながり を考慮した変換を行うために,文字n−gramにより獲得される統計的な値が加味されてい る.このように,提案手法では学習機能と統計情報を利用して文字列の暖味さを解消し,

縮退した文字列情報の復元を行っている.

  提案手法の持つ情報復元能カの高さを実証するために,著者は取り扱う対象を徐々に高 度化し,それに耐えうる応用システムを工学的に実現し,その性能評価を行った.最初に 取り扱った対象は,携帯端末向けの日本語入力手法である,この手法における入カデータ は,かな文字列の母音情報が縮退した数字列である.これを漢字かな混じり文である日本 語文に正しく変換することがこの手法の目的である.入力数字列と日本語文とは,表層表 現は一部異なるが記述体系は同じである.すなわち,入力数字列と日本語文においては文 字列の対応関係を左から順に決定可能なので,表層表現が一致する部分を手掛かりとし て,左から順に単語に相当する変換ルールを抽出することができる.このようにして獲得 された変換ルールを用いて変換を行うので,提案手法においては入カデータの増加に伴 い,次第に変換精度を向上させることができる.評価実験の結果,80[%]以上の変換精度 が確認された,

  次に著者は,携帯端末向けの中国語入力手法を対象とした.この手法の入カデータは,

中国語のピンインに対応した数字列である.ピンインとは,中国語の読みに相当し,ロー マ字アルファベットにより表現される.入力数字列と中国語文とは,表層表現はまったく 異なるが,記述体系は同じである.従って,左から順に1対1の対応を決定することがで きる.しかしながら,日本語とは異なり,表層表現が一致する部分が存在しないため,対 応を決定する手掛かりが1組の変換例中には存在しない,そのため,ここで取り扱う対象 は日本語文に対して高度化されている.そこで,この手法においては,2組の変換例を使 用し,それらの間で一致する文字列を手掛かりとして対応関係を獲得し,統計情報を考慮 して変換に利用する.評価実験の結果,80[O]程度までの変換精度の上昇が確認された.

  次に著者は,携帯端末向け機械翻訳手法を対象とした.日英機械翻訳を前提としている ので.この手法の入カデータは日本語のかな文字列に対応した数字列である.この数字列 を英語文に変換する.よって,入力数字列と英語文とは,表層表現も記述体系もまったく 異なっており,手掛かりとなる部分が存在しても対応関係を1対1に決定できない.その ため,この対象は上記2っの対象に比べて高度化されている,そこで,この手法において の対応関係は単語列単位で決定する.すなわち,単語の語順を含めて翻訳ルールとして獲 得し,翻訳に利用する.評価実験の結果,他手法と比較してlO[o]程度高い翻訳効率が得 られ,提案手法の有効性が確認された.このように高度化したデータに対しても提案手法 が有効であることが確認された.

  著者は論文全体を通じて,研究領域の現状の分析,新規提案内容の記述,有効性の主 張,研究領域における位置付けを正確に行ったと判定する.

  以上を要約すると,著者は文字列情報を縮退させて入カを行い,その際に失われた情報

1017 ‑

(6)

を統計情報を用いた帰納的学習により復元する手法を提案し,少数のキーのみを備えた携 帯電話などの小型端末において,容易かつ迅速に日本語の入力,中国語の入力,さらに日 本語文から英語文への翻訳を行たうことが可能であることを示した.本研究を通じての,

情報メディア工学,自然言語処理工学の発展に貢献するところ大なるものがある.よって,

著 者 は 北 海 道 大 学 博 士 ( 工 学 ) の 学 位 を 授 与 さ れ る 資 格 あ る も の と 認 め る .

参照

関連したドキュメント

日本企業において、中国人従業員を部下にもつ、或いはもったことのある日本人上

    6 章は 以上の モデルに したが って作成 したKamui 環境について述べる。Kamui 環 境ではオ プジェ クトの記 述言語 として、 C++ をぺ ースに したKamui‑C とLisp をべー

いとされてきた。これに対し著者は,日本語と中国語を比較すると,文全体の構造は異なるが個

第 4 章では、 eh について論じる。

「開成標準」の宋版資料での字体の定着につい

   ポンプ・プローブ測定では、電子応答に対応する単調な緩和信号とこれに重畳した振動 成分が 観測され た。フ ーリエ解 析の結 果、この振動成分は、 2.5THz

非母語話者間の平等を主張した点については、前述の World Englishes と共通してい る。しかし、World