• 検索結果がありません。

博 士 ( 工 学 ) 吉 澤 真 吾

N/A
N/A
Protected

Academic year: 2021

シェア "博 士 ( 工 学 ) 吉 澤 真 吾"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

博 士 ( 工 学 ) 吉 澤 真 吾

     学 位 論 文 題 名

VLSI Architecture of Robust Speech Recognition System      ( ロ バ ス ト 音 声 認 識 シ ス テ ム の VLSI ア ー キ テ ク チ ャ )

学 位 論 文 内 容 の 要 旨

  現 在,高度情報処理システムに おいて,音声,画像処理技 術に基づくメディア処理は不 可欠なも のと なりつっある.その中でも高 度ヒューマンインターフェ イスとして期待される分野と して音声 認識 がある.現在の音声認識シス テムはコンピューター上で 動作し,比較的静かな室内環 境で使用 する 場合が多いが,今後は室外環 境へと使用範囲の拡大することが期待されている.しかしながら,

室外 環境の場合では,騒音(人の 話し声,自動車走行など),マイク性能の低下,話者とマイク問の 距離 の拡大など,音声認識システ ムの動作環境が悪いことが 前提となり,そのような劣悪 な環境で も認 識精度を維持することが必要 である,また,室外では認 識装置は携帯できるように小 型でかつ 極低 消費電カであることが求めら れる.携帯機器ではバッテ リ,容量の制限があるので, バッテリ ー消 費を抑えるための低電力化が 重要である,また,音声認 識装置を音声入カインターフ ェイスと して 利用する場合,例えば,音声 入カによる機器操作,対話 によるロボットの操作では, 認識精度 と も 応 答 速 度 が 求 め ら れ る . っ ま り , 認 識 処 理 を 短 時 間 で 終 え る こ と が 重 要 と な る .

  小型 化,低消費電力化,高速処理 を実現する有カな方法とし て,音声認識処理を汎用プロセッサ で実行 するソフトウェア処理から認 識処理に特化した専用回路 を用いてハードウェア処理を移行す る 方法 が ある .本 研究 では , ハー ドウェア処 理で行うことを前提とした 音声認識処理VLSIアーキ テクチ ャを取り扱う,また,ハード ウェア処理の観点から,こ れまでソフトウェア処理では計算時 間の増 大により困難であった高精度 な雑音ロバストアルゴリズ ムを導入する,本研究では音声入カ か ら認 識 結果出カ までの全ての処理を実行す る回路を1個のチップに実装 することを目標として,

以下の 項目について研究を行った,

・ 高 速 及 処 理 及 び 低 消 費 電 カ を 実 現 す る 音 声 認 識 処 理VLSIア ー キ テ ク チ ャ の 設 計

・多くの 雑音環境に対して認識精度 を維持することのできるロバ ストアルゴリズムとそのアルゴズ ムのVLSI実装

・ 音 声 認 識 , 音 声 分 析 , ロ バ ス ト 処 理 を 統 合 し た ロ バ ス ト 音 声 認 識 シ ス テ ム のVLSI設 計

こ れまでの多くの音声認識の 研究はソフ卜ウェア上での実 装を前提としていたため,音声認識処理 回 路アーキテクチャの研究例 はこれまでに数件程度しかな い.その研究例も認識計算処理の一部の み をハードウェアで実装し, 他の部分は汎用プロセッサで 演算処理を行うことを想定している.先 行 研 究と 比較しての本研 究の新規性は,(l)認識処理 全体を実行することのできるVLSIアーキテク     ー55ー

(2)

チャを提 案し,提案アーキテクチャと 汎用プロセッサの認識処理 での処理速度,消費電カの評価比 較を行い ,定量的な効果を示している こと. (2)従来のソフトウ ェア処理の観点からは困難と考え ら れて いた 新 しいロバストアルゴ リズムを提案し,回路に実装 したこと.(3)マイクからの 音声入 カから認 識結果の出カまでロバスト処 理を含めたロバスト音声認 識チップや検証用ポードの試作を 報 告し たこ と .以 上の3点 が挙 げら れる . 上記 の研 究項 目に 対 する成果は以下にまとめら れる.

・ 音声 認識 処 理VLSIア ーキ テク チ ャでは隠れマ ルコフモデル法単語音声認識 アルゴリズムのハー ドウェア化 について検討を行った.隠 れマルコフモデルの計算手順 について,並行処理とパイプラ イン処理が 可能でかつハードウェア効 率の高い計算方法を提示し, 上記の計算手順に基づぃた回路 アーキテク チャを提案した:提案アー キテクチャはメモりでのデー タ記憶処理回数を削減し,並列 処理とメモ リ部に対するゲーテッドク ロックの導入による.性能評 価では汎用プロセッサで同じ演 算を処理す る場合と比べて,処理時間 が約1/50,消費エネルギー量 が約1/10となることを示した.

・ロバスト音声認識アル ゴルズムでは,ケプストラム(パワースペクトラムに対して対数変換,逆フ ーリエ変換を行う)領域 の時間軌跡に着目した手法を提案した.ケプトスラム時間軌跡における最大 値と最小値間の距離を規 格化することにより,加法性 雑音の影響を低減できるこ とを提示し,同じ く時間軌跡に対するバン ドパスフイルタをかける手法 を組み合わせる.この提案 手法が従来手法と 比較して多くの種類での 雑音環境下で高い認識精度をもっことを示し,また,元来の認識性能(雑音 が な ぃ 場 合 で の 認 識 精 度 ) を 劣 化 さ せ な ぃ こ と を 評 価 実 験 に よ り 示 し た .

・ロ バ スト 音声 認識 シス テ ムのVLSI設計では,上記の隠 れマルコフモデル法認識処理 回路とケプ トスラム領域ロバス ト処理回路とメルケプスト ラム分析による音声分析回路 を統合した音声認識シ ステ ム を設 計し た. 設計 し た回 路は ディジタルCMOSチッ プ上にて実装した.また,音 声認識シス テ ム の 動 作 検 証 とハ ー ドウ ェア 設計 を支 援 する もの とし て ,設 計支 援CADの 開発 とFPGAボー ド による評価ボードの 構築を行い,その実装例を 報告した,

56

(3)

学位論文審査の要旨

     学位論文題名

VLSI Architecture of Robust Speech Recognition System      (ロバスト音声認識システムのVLSI アーキテクチャ)

  現在,高度情報処理システムにおいて,音声,画像処理技術に基づくメディア処理は不可欠なも のとなりつっある.その中でも高度ヒューマンインターフェイスとして期待される分野として音声 認識がある.現在の音声認識システムはコンピューター上で動作し,比較的静かな室内環境で使用 する場合が多いが,今後は室外環境へと使用範囲の拡大することが期待されている,しかしながら,

室外環境の場合では,騒音(人の話し声,自動車走行など),マイク性能の低下,話者とマイク聞の 距離の拡大など,音声認識システムの動作環境が悪いことが前提となり,そのような劣悪な環境で も認識精度を維持することが必要である.また,室外では認識装置は携帯できるように小型でかつ 極低消費電カであることが求められる.携帯機器ではバッテリー容量の制限があるので,バッテリ ー消費を抑えるための低電力化が重要である.また,音声認識装置を音声入カインターフェイスと して利用する場合,例えば,音声入カによる機器操作,対話によるロボットの操作では,認識精度 と も 応 答 速 度 が 求 め ら れ る . っ ま り , 認 識 処 理 を 短 時 間 で 終 え る こ と が 重 要 と な る ,

  小型化,低消費電力化,高速処理を実現する有カな方法として,音声認識処理を汎用プロセッサ で実行するソフトウェア処理から認識処理に特化した専用回路を用いてハードウェア処理を移行す る方法がある,本研究で は,ハードウェア処理で行うことを前提とした音声認識処理VLSIアーキ テクチャを取り扱う,また,ハードウェア処理の観点から,これまでソフトウェア処理では計算時 間の増大により困難であった高精度な雑音ロバストアルゴリズムを導入する.本研究では音声入カ から認識結果出カまでの全ての処理を実行する回路を1個のチップに実装することを目標として,

以下の項目について研究を行った.

・ 高 速 及 処 理 及 び 低 消 費 電 カ を 実 現 す る 音 声 認 識 処 理VLSIア ー キ テ ク チ ャ の 設 計

・多くの雑音環境に対して認識精度を維持することのできるロバストアルゴリズムとそのアルゴズ ムのVLSI実装

57

一 雄

則 孝

(4)

・ 音 声 認 識 , 音 声 分 析 , ロ バ ス ト 処理 を 統 合し た ロ バス ト 音 声 認識 シ ス テム のVLSI設 計   これまでの多くの音声認識の研究はソフトウェア上での実装を前提としていたため,音声認識処 理回路アーキテクチャの研究例はこれまでに数件程度しかない,その研究例も認識計算処理の一部 のみをハードウェアで実装し,他の部分は汎用プロセッサで演算処理を行うことを想定している.

先行研究と比較しての本研究の新規性は,(1)認識処理全体を実行することのできるVLSIアーキテ クチャを提案し,提案アーキテクチャと汎用プロセッサの認識処理での処理速度,消費電カの評価 比較を行い,定量的な効果を示していること.(2)従来のソフトウェア処理の観点からは困難と考 えられていた新しいロバストアルゴリズムを提案し,回路に実装したこ・と. (3)マイクからの音声 入カから認識結果の出カまでロバスト処理を含めたロバスト音声認識チップや検証用ボードの試作 を報告したこと,以上の3点が挙げられる.上記の研究項目に対する成果は以下にまとめられる.

  ロバスト音声認識アルゴルズムでは,ケプストラム(パワースペク,トラムに対して対数変換,逆フ ーリエ変換を行う)領域の時間軌跡に着目した手法を提案した.ケプトスラム時間軌跡における最大 値と最小値間の距離を規格化することにより,加法性雑音の影響を低減できることを提示し,同じ く時間軌跡に対するバンドパスフイルタをかける手法を組み合わせる.この提案手法が従来手法と 比較して多くの種類での雑音環境下で高い認識精度をもっことを示し,また,元来の認識性能(雑音 が な い 場 合 で の 認 識 精 度 ) を 劣 化 さ せ な い こ と を 評 価 実 験 に よ り 示 し た , ( 第3章 )

  音声認識処理VLSIアーキテクチャでは隠れマルコフモデル法単語音声認識アルゴリズムのハー ドウェア化について検討を行った.隠れマルコフモデルの計算手順について,並行処理とパイプラ イン処理が可能でかつハードウェア効率の高い計算方法を提示し,上記の計算手順に基づぃた回路 アーキテクチャを提案した.提案アーキテクチャはメモりでのデータ記憶処理回数を削減し,並列 処理とメモリ部に対するゲーテッドクロックの導入による.性能評価では汎用プロセッサで同じ演 算を処理する場合と比べて,処理時間が約1/50,消費エネルギー量が約1/10となることを示した.

(第4章)

  ロバスト音声認識システムのVLSI設計では,上記の隠れマルコフモデル法認識処理回路とケプ トスラム領域ロバスト処理回路とメルケプストラム分析による音声分析回路を統合した音声認識シ ステムを設計した.設計した回路はディジタルCMOSチップ上にて実装した.また,音声認識シス テムの 動作検証 とハード ウェア 設計を支 援する ものとし て,設 計支援CADの開発とFPGAボード による評価ボードの構築を行い,その実装例を報告した.(第5章)

  これを要するに,筆者は,新たなロバスト音声認識手法とそのLSI実現の検討を行い,種々の雑 音に有効なロバスト性を持つ新しいフイルタを求め,その有効性を示した。さらに、そのハードウ エア実現を行い、実時間音声認識システムの開発を行った。これにより,音声情報処理・実時間シ ステムLSIの設計に関する多くの有益な知見を得ており,電子情報工学の分野に貢献するところ大 なるものがある。

  よ っ て 筆 者 は , 北 海 道 大学 博 士 (工 学 ) の学 位 を 授与 さ れ る 資格 あ る もの と 認 める 。

58

参照

関連したドキュメント

ギ一最小化によって画像内から対象物体の領域を抽出するアクテイプネットを利用すること

[r]

(8 )垂直磁気記録の画像記録方式として,長手磁気記録のVTR

[r]

[r]

これを要するに、著者は、高冷却速度の凝固法をCIS の合成に適用し、冷却 速度と微細組織の関係を検討することから、新知見を得たものであり、材料 工学お よび ェネ ルギ ー工学 の発

[r]

境,役 割分担 や競 合解消 ならび に合理 的思考に影響するPSF(PerfomanceShapingFactor )や性格のモデル化を含 み.実 際の運 転チ ーム行 動シミ ュレー ショ