• 検索結果がありません。

音声入力システム用問題向き言語の開発

N/A
N/A
Protected

Academic year: 2021

シェア "音声入力システム用問題向き言語の開発"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

小!特集

最近の音声入出力技術

書声入力システム用

∪.D.C.519.る82.7:〔る81.327.13・015:801・4〕

向き言語の開発

Development

of

Problem

Oriented

Language

for

Voice

EntrY

SYStemS

本稿で述べる音声入力用問題向き言語は,特定話者用の汎用形音声認識装置(HR-100ⅠIl))の基本的な支援ソフトウェアとして開発したもので,音声入力手順と処理手 続きを容易に記述できるようにした音声入力専用の高級言語である。その特長は, 複雑な音声入力手順の標準化,木構造形の音声入力構文及び徹底した構造化記述方 式の採用にある。 本言語を利用することにより,音声応用業務の音声入力構文の直弓妾記述が可能と なり,認識の対象範囲を動的に指定する構文予測認識を自動的に行なえるとともに, 十分構造化され保守性に優れた音声応用ソフトウェアを短期間で効率よく開発できる。 n

言 最近の音声認識とその関連技術の著しい進展につれ,人間 にとって最も自然である音声入力がマンマシンシステムの有 望な入力手段として注目を集めている。 しかし,実際に音声入力をある業務に適用する場合,高度 の音声認識技術をもってしても,音声自体があまりにも人間 側に近いがための新たな問題と要請を提起する。例えば,

(1)同一環境下で常に安定した発声は望めない。

(2)誤発声は日常的で,かつ記録性に乏しい。

(3)会話形で実時間応答処理が必要である。

(4)非手続き形の実行処理要求が望まれる。

などであー),これら対策上同一時点で認識すべき単語をでき る限り少なくすること,認識結果の確認,入力語の取消しの ような実行時プロセスの変更などは実用上必須となる。 また,音声入力は第一線の作業現場での直接的な使用形態 が多く,入力手順や処理手続きの変更プ頃度が高い環ゴ菟にある のに対し,専門プログラマがいるケースは少ない。 本稿の音声入力言語は,上記のような問題解決を目的に開 発したエンドユーザー向けの高級言語である。 凶

音声入力言語の!特長

本言語は,音声入力応用業務に幅広く適用できることをね らいとした問題向き構造化記述言語である。入力したい単語 の集合に対しユーザーが自由に入力順序を示す構文を定義し,

入力語が認識されたとき行なうべき操作(アクション)を容易

に記述可能としている。主な特長点を以下に示す。

(1)入力語群の定義

話者が入力する語の集まr)を語群化して,構造的に定義で きる。また,音声入力実行時に,認識語名と実際の語番との 対応づけができる。

(2)音声入力構文の簡易記述

書声応用業務で使用する入力語の構文図に即して,容易に 記述できる。 ※1)プログラム構造の簡明化を目的とした手法で,ソフトウェアの開 発・保守が容易になる。 秋本文之* 凡仇g〟加たg如才mog。

山野紘一*

方∂i。んJ‰m。れ。

磯崎真;台*

sん叫i∫ざ。Z。んg 長沢

潔**g加βんf〃αgαざα†〟α

(3)標準的な音声入力実行時処理群

音声入力実行時に共通的な処理(認識範囲の設定,確認,取 消しなど)を標準化して,システム機能として具備している。

(4)構造化記述一l)言語

認識語,構文,手続きなどの各定義部を独立させるととも に,入力構文の分岐を制限し簡明な記述形式としている。

(5)ユーザープログラムとの結合

ユーザーが別途作成したプログラムと容易に結合できるよ うに工夫している。 B

言語設計の基本的考え方

3.1音声入力処理の標準化 音声入力制御の際,ある単語を認識処理するために必要と なる標準手順を図1に示す。同国では,同一認識範囲内の単

語列(例えば,ある意味をもつ数字列)を入力する場合は特定

回数の繰返しで実現することも表わしている。 本言語では,ある入力時点で同一認識範囲に属する語の集 まりに対して語群(カテゴリー)を前もって定義し,図=こ示 した標準入力手順と対応づけて一つの構文としている。換言 すると一つの構文は,認識語,構文分岐,前処理,後処理, 反復回数などから成ることを意味する。ある音声応用業務は この構二丈を単位とL,組合せ川貞序づけにより全体の入力構文 を形成する。 したがって,ユーザーにとっては,図1の音声入力手順と 上述の入力構文をどれだけ簡単に記述できるかが大きな関心 事となる。このため,本言語システムの標準的な支援機能と して,認識範囲の自動設定,促し,複【唱,取消しなど処】空手 続き群を具備させ,音声入力にかかわるユーザー負担の最′ト 化を図った。 3.2 音声入力構文 音声入力の代表的な応用例として,荷物の番号,経路,行 先地を音声入力することによって仕分け制御する簡単なモデ ルの入力構文図を図2に示す。同図中の円内のSO,Slなど の記号は,一つの構文の代表名であり,矢印は次に入力される 語を規定する構文への状態移動を示す。本構文図を前もって 登録しておくことにより,入力語の予測認識が可能となる。 *日立製作所システム開発研究所 **日立製作所戸塚工場 23

(2)

832 日立評論 VOL.63 No.12(198卜12) 開 始 範囲指定 促し処理 再送処理 取消処理 復唱処理 反復処理 YES YES YES 発声及び認識 促し? 前処王里 認識要求 結果取込 合否判定 食 取消し? N.0 復唱? N8 後処理 反復? N8 終 了 図l 音声入力処理の標準手順 同一認識範囲内の単語又は単語列を, 入力処王里するために必要な棟準手続きを示している。 一般的にこのような構文を定義するためには,同図中にも表 現されているように構文の枝分かれ,逆戻り,反復の記述が 必要となる。 これらの記述を無秩序に許すと,構文は複雑になりすぎて 解析が困難となる。このため,入力構文の分岐は親子関係を 表現する木構造形式を基本とし,直系上位及び1こ位への分岐 だけを認め無制限分岐を禁止した。 3.3 盲静システムの構成 音声入力をある業務に適用する場合,まず図2に示したよ うな構文図が必要であり,これをもとに音声入力70ログラム を開発することになる。本言語70ログラムは,HR-100ⅠⅠシ ステム自体で開発が可能であり,同じくマイクロコンピュー タシステム開発装置SD202)でも可能である。 ある音声応用業務システムを開発する場合の開発支援ソフ トウェアの関係をまとめ,音声入力言語で記述した原始プロ グラムは,画面エディタを用いてフロッピーディスクファイ ルに格納し,次に音声入力言語コンパイラによって,いった ん中間語に翻訳し,制御プログラムのもとでインタプリタに よって解釈実行する。 3.4 音声入力処理の実行制御方式 実際の音声入力処理の実行時に問題となる点は,異常事態 の発生への対処方法である。機器の誤動作のほか,発声すべ き音声を間違えた場合や不明瞭な発声で誤認識した場一合の措 置などは,音声入力実行時に随所で要求される機能であり, 24 (はと秒 初期状怒h SO く数字〉 反復 ⊥爾蕃 Sl 経 街 継 絡 .先 ;....∴続 S2 咽内〉: くアジ方 くアプリガ S3 S4 S5 く地名1〉 く地名診 く地名3〉 S6 く′っぎ〉 くおぉり〉 終 了 准 患r S7 図2 荷物仕分け制御の音声入力構文図 荷物の番号,経路,行先地 などを音声入力することによって,仕分け制御する場合の入力構文を示す。 ユーザー A コて 話 入 力 操作コマ≠..ド 、(音声登録,処理業伝書衷) HR-100ⅠⅠ 制御プログラム コンノ〈イル リ.ス ト ′実行鈷果 ‥コマンゞい マクロ 簡 易 画面 エ 原 始 プロダラヰ 音声入力言語 コンパイラ 中間層 ㌻テキスト 音 声 入 力 インタプリタ 図3 音声入力言語システムの全体構成 音声入力装置(HR-100ⅠⅠ) を用いて,音声入力J芯用プログラムを開発する場合の支援ソフトウェアの関係 を表わLている。 またそれらは使いやすくするために動的に変更できることが 望まれる。 本システムでは,これらの要求にこたえるため,原始プロ グラムをコンパイラでいったん中間語テキストに変換し,イ ンタ70リタによって実時間で解釈実行していく方式を採用し,

異常処理は実行時に呼び出される標準ルーチン(実行時ルーチ

ン)で対処できるようにした。前掲図1の音声入力標準手順に

合わせて,実行時ルーチンとしては次の6種類を準備した。 1 2 3 4 5

取消し処理〔CANCEL〕

音声認識確度〔SCORE〕

認識レベル差〔LEVEL〕

促し処理〔PROMPT〕

復唱処理〔ECHO〕

(3)

書声入力システム用問題向き言語の開発 833 入力条件指定部

「己≡

.+

「.

部 士冗 解 語 言 音 声 入 力 テ キ スト (中間語形式)

L二

マクロ発行 マクロ処理部 ジ部 一言 畑削 〆送 実行制御部 実行時 ルーチン 実行時 ルーチン 実行時 ルーチン

嘉1

プロ セス

_+

 ̄「

サブルーチン リンケージ部

ユーザー サブルーチン ユーザー サブルーチン ユーザー サブルーチン 図4 音声入力処理の実行制御方式 インタプリタの処理構造と制御 プログラムの関係を表わLたもので,コンパイル結果後の中間語形式プログラ ムの≠弊釈実行方式を示す。

(6)デバッグ〔DEBUG〕

これら実行時ルーチンは,各種指定変数の記述をも含めて 言語仕様に織り込むこととした。 インタプリタの主要機能を要約すると, 1 2 3 4 中間語形式の音声入力テキストの解釈実行 制御70ログラムとの送受信マクロ処理 実行時ルーチンの起動制御 ユーザーサブルーチンヘの分岐制御 などである。 インタプリタと制御プログラムとの関係を,音声入力処理 の実行制御方式としてまとめて図4に示す。

【】言語仕様

4.1 プログラムの構成 一つの音声入力処理プログラムの構成を図5に示す。音声 入力条件,認識単語,処理手続き,構文定義部など,全体は 六つの独立した機能で構成される。 音声応用業務処理の実行で最も大切な構文定義部の記述例 を図6に示す。同園は,前掲図2の荷物仕分け制御の入力構 文図を音声入力言語で記述したもので,簡明な表現になって いる。なおこの例では,音声入力に関する標準処理をすべて 利用するものとして,前処理手続き名,後処理手続き名の記 認識語定義部 変数定義部 手続き定義部 構文定義部 初期設定部 ●音声入力上の標準実行処理条 件を指定する。 ●認識言吾及び語群の階層定義と 語蕃割付け ●処理手続き部で参照する変数, 配列及び外部手続きの宣言 ●音声入力時のアクション手続 きの定義でCALL文により外 部手続き呼び出し可能。 ●音声入力単語の入力膜序,前 処理,後処理,反復回数など 入力構文を規定。 ●音声入力処理の開蜘こ先立つ 準備作業の記述 図5 音声入力応用プログラムの構成 本国に示す各部を音声入力言 語で記述することによって,音声応用業務システムが開発できる。 0 0 0 5 3

/

I S Y N T A × D E F ⅠN Ⅰ 丁 0 N P A R 丁 書

/

0 0 0 5 4 S 0 S Y N A X 0 0 0 5 5 1 ( H A + Ⅰ M E > S 1 ) 0 0 0 5 6 E N D S 0 0 0 5 7 S l S Y N T A X 0 0 0 5 8 1 % N U M B E R

/

5 0 0 0 5 9 2 r K 0 K U N A Ⅰ > S 3 0 0 0 8 0 A S Ⅰ A > S 4 0 0 0 6 l A M E R Ⅰ C A > S 5 ) 0 0 0 8 2 3 ( 丁 5 ∪ G Ⅰ > † 0 0 0 6 3 0 W A R Ⅰ

/

P E N D ) 0 0 0 6 4 S 3 S Y N 丁A X 0 0 0 6 5 1 % C H Ⅰ M E 王 T 0 0 0 6 6 E N D S 0 0 0 6 7 S 4 S Y N T A X 0 0 0 6 8% C H Ⅰ M E Ⅰ2 0 0 0 6 9 E N D S 0 0 0 7 0 S 5 S Y N T A X 0 0 0 7 1 % C H ⅠM E Ⅰ 3 0 0 0 7 2 E N D S 0 0 0 7 3 E N D S 図6 音声入力構文の記述例 前掲図2の仕分け制御モデルの音声入力 構文部分・を,音声入力言語で記述Lた例である。 25

(4)

834 日立評論 VOL.63 No.12=98l-12) オプション定義部 CANCEL SCORE しEVEL PROMPT ECHO DEBUG カテゴリー定義部 (OPT10N) 取消しを示す認識語の指定 許容認識確度点数の指定 第l位と第2位の点数差 標準促し手続きの指定 標準復唱手続きの指定 デバッグモードでの実行 (CATEGORY) カテゴリー名:認識語=語番又は* カテゴリー名:カテゴリー名 変 数 定 義 部 (DECLARE) 変数,配列(1次元),外部手続きの定義 手続き定義部 DECLARE 実行文,式 構 文 定 義 部 (PROCEDURE) 局部変数の定義 内部手続きの記述 (SYNTAX) 構文エントリ,構文ブロックの定義 初 期 設 定 部 手続き定義と同一仕様 (START)

正二二]

算術演算式 論理演算式 関係演算式 実 行 文 DO DO WHルE IF THEN ELSE CALL BREAK 組 込 関 数 @WORD @ADDR 十-*/(四則演算子) NOT,AND,OR,×OR =,<,>,≦,≧ 単純DOブロック 繰返しDOブロック 条件式が真なら実行 条件式が偽なら実行 内部,外部手続き呼出し プログラム実行の一時中断 入力音声の語蕃参照 変数,配列の先頭番地参照 @・lD 変数の値と認識語番の比較 @WA 認識語表の先頭番地参照 図7 書声入力言語の詳細仕様 本国に示した言語の使い方を知れば,音声入力応用プログラムを記述できる。 述を省略している。 4.2 言語仕様の詳細 本言語の詳細仕様を図7に示す。同図では図4に示したプ ログラム構成の各定義部にほぼ対応している。式,実行文, 組込関数は,手続き定義部及び初期設定部で記述可能である。 ユーザーサブルーチンなどの外部手続きを呼び出す場合は 手続き定義部でCALL文を用いる。呼び出す外部手続きは, 変数定義部で宣言し,引き数(最大10個)は手続き部で宣言す ることによって簡単に引き数の受卓度しができる。 実行文などの一般的な記述形式はPL/H3)スタイルとし, ユーザーが新たに覚える部分を少なくするとともに,無条件 Jump命令を禁止するなど,言語仕様上から必然的に構造化さ れるようにしている。 同

適用結果と検討

本言語は日立製作所社内の数事例システムに適用し,その 有効性が確認されている。今後更に多くの応用が計画されて いる。 本言語システム採用の第一の利点は,音声入力構 ̄丈の記述性 にある。これをアセンブリ言語で記述する場合の労力に比べ, 開発期間で約÷に短縮できる。この比較では,本言語システム がもつ標準入力処理手続き群などの開発工数は除外している。 第二の利点は,ユーザープログラムとの結合の容易性であ

る。このため,既に稼動している生産合理化システム(例えば,

部品加工,自動倉庫,検査業務など)に音声入力を比較的答易 に導入できた4)。 第三の利点は,徹底した構造化記述方式としたため,プロ 26 グラムの共同開発が容易になr)テーパッグ面,保守面でも宗頁著 な効果が認められた。 今後,標準実行時処理群などを拡充し,よりいっそう記述 性を向上していく必要がある。 Ia

富 者声入力応用業務フロログラムの開発負担.の軽減を目的とし て,音声入力言語及び言語プロセッサを開発した。本言語シ ステムは,汎用形音声入力装置(HR-100ⅠⅠ)で稼動するもの で,音声入力構文を容易に記述でき,しかも自動的な構文予 測認識を可能としている。また,音声入力にかかわる複雑な 処理手順は,すべてシステム標準機能とし,かつユーザー固 有処理の記述も可能とした。 本言語の仕様設計では,プログラム構造の簡明化に多くの 工夫を施した。このため,プログラム開発,保守性に優れた 能力をもっている。今後本言語が広く利用されるように努力 を重ねる予定である。 参考文献 1)木村,外:汎用形音声入力装置"HR-100ⅠⅠ''の開発,日立評 論,63,11,825∼830(昭56-11) 2) 日立製作所:日立マイクロコンビュ【タンステムFDOSユー ザーズマニュアル(昭53-2) 3)吉村,外:マイクロコンピュータ用高級言語PL/Hシステム, 日立評論,61,4,305∼310(昭54-4) 4)姫路,外:音声入力応用検査情報処理システム``voCAL''の 開発と適用、日立評論.63,11,835∼838(昭56-11)

参照

関連したドキュメント

本稿 は昭和56年度文部省科学研究費 ・奨励

音節の外側に解放されることがない】)。ところがこ

また,文献 [7] ではGDPの70%を占めるサービス業に おけるIT化を重点的に支援することについて提言して

 TV会議やハンズフリー電話においては、音声のスピーカからマイク

語基の種類、標準語語幹 a語幹 o語幹 u語幹 si語幹 独立語基(基本形,推量形1) ex ・1 ▼▲ ・1 ▽△

(4) 現地参加者からの質問は、従来通り講演会場内設置のマイクを使用した音声による質問となり ます。WEB 参加者からの質問は、Zoom

 日本語教育現場における音声教育が困難な原因は、いつ、何を、どのように指

チツヂヅに共通する音声条件は,いずれも狭母音の前であることである。だからと