Publication 論文鈴村研究室大規模データ処理・ストリームコンピューティング

(1)

処理系を用い音声処理

西井俊鈴村豊太郎

東京工業大学〒_152-8550東京都目黒区大岡山_2-12-1 IBM^{東京基礎研究所} ^〒242-8502 ^{神奈川県大和} ^鶴間 1623-14 E-mail: [email protected], [email protected]

あ本研究，々刻々流計算処理操作を行う出来処理処理系を用い並列音声識を実装．処理系記述力音声識並列散，処理拡張容易行えを示，識処理を₄ ₁₆ 構成散並列環境ン比較、_13.8倍ッ得．，処理ッを大保，識精度を過度いう，音声識ビビ幅着目，入力大いビ幅を，識精度を犠牲ッを向機構を実装．機構

ッ識精度両方を保出来を実験的示．

ワ処理，_DSMS，_DSPS，_{System S}，_SPADE，音声識，ビ，_Julius

Highly Scalable Speech Processing on Data Stream Processing System

Shunsuke NISHII and Toyotaro SUZUMURA

Tokyo Institute of Technology 2-12-1 Ookayama, Meguro-ku, Tokyo, 152-8550 Japan IBM Research - Tokyo 1623-14 Shimotsuruma, Yamato-shi, Kanagawa, 242-8502 Japan

E-mail: [email protected], [email protected]

Abstract In this paper we describe the implementation and evaluation of a Julius-backended parallel and scalable speech recognition system on the data stream management system ``System S'' developed by IBM Research. Our experimental result on our parallel and distributed environment with 4 nodes and 16 cores shows that the throughput can be significantly increased by a factor of 13.8 when compared with that on a single core. We also demonstrate that the beam management module in our system can keep throughput and recognition accuracy with varying input data rate.

Keyword Data Stream Processing, DSMS, DSPS, System S, SPADE, Speech Recognition, Beam Search, Julius

1. ^研究 ^背景

日，ああゆ場所大規模的電子的音声

や行わ，う音声い何

音声処理を施技術求い．例え，企業

ン顧オ

音声識，処理を加えオ伝え

内容を伝えい，ンン違う発言をいいを確，中ワ

オ必要情報をオ

表示，ン品質向様々

用途用い．う，音

声処理有用性高いいえ．，

処理_[1] ，々刻々流大量を

保管オン

処理計算昨活発研究，

IBM System S[2][3]^やM.I.T. Borealis[1] ^ソ

処理系びン提案い．

従来音声処理研究 _[4] ，

う音声処理を，処理

を用い様々処理を統括的，高い拡張性を有

管理．，本研究

処理系_{System S}を基，汎用的音声識オ

を実装，ビ評価簡単並列音声

識を実装．

通常，音声識性能指標識精度，ッ，遅延発生いい応答間一

立降固定あ．識精度

ッオ関係あ，ッを高

識精度を犠牲必要生．入力

一定い場合問題い

，入力状況変化場合，入力

いッを高必要

．一方，入力高い識精度を高，ッをい，処理遅延生，応答間増大う．，う環境状

況応識精度ッ優先を変化

機構有効あ．，本研究識器識精度処理間最影響をえあビ幅着目，現在入力応最適ビ

幅を設定機構を実装．

(2)

[Nodepools]

nodepool Computer[] := ("node0", "node1")

[Application]

stream TCPData(data0 : Integer, data1 : Float) := Source()["ctcp://some_address", csvFormat]{}

-> node(Computer, 0), partition["part0"]

stream LimmitedData(data0 : Integer) := Functor(TCPData)[data1 >= 1.5]{}

stream Average(avg : Integer)

:= Aggregate(LimmitedData<count(10),count(1)>) []{avg := Avg(data0)} -> node(Computer, 0), partition["part1"] Nil := Sink(Average)[“file:///average.csv”, csvFormat]{}

２ _SPADE 一例

降章，第₂章関連研究い述．第

3^章 ^処理 ^い ^述 ^，^第4^章 ^音

声識い簡単明．第₅章設計実装，第

6^章 ^評価，第7^章 ^本論文 ^を述 ^．

2. ^関連研究

[4] ^音声処理 ^ビ ^関 ^研究 ^あ ^，

処理能力ビ評価，想定

ビい必要数を求手法

を提案い．本研究，処理を汎用

的扱う処理

を用い点，び ₁ 当処理能力を状況応変化い点当研究異．

[5] ^， ^処理系

ン関研究多い．ン

，入力増大流一部を

削除，遅延を防性を

をい．本研究ビ幅管理異方法あ，入力増大

性をいう点ン類似い

いえ．

3. ^処理 System S

3.1 ^処理

処理[1][2][3][6][7] ^， ^処 ^生成

情報流をび，を蓄積

逐次処理いいう新い計算あ．ッ処理計算象を全蓄積計算従来手法違い，応答要求場合や，系列前後僅

を参照い計算や，全蓄積物理的困難処理適い．う手法音声や動画

ン一部処理利用い，

処理を抽象汎用化，幅広い処理適

用う洗練処理系い点

従来異い．

う処理系を DSMS / DSPS (Data Stream Management / Processing System) ^ぶ ^， ^一例 M.I.T. Borealis[1]^やIBM Research System S[2][3] ^存

在，数活発研究い．多 _DSMS ン実行を前提い，_Borealis

System S ^散環境 ^実行 ^能 ^あ ^．

3.2 System S SPADE

System S[2][3] ^， ^直感的 ^{処理を記述}

SPADE[6] ^いう言語，自動性能最適化機構を持

SPADE ^ン ^，処理基 ^あ SPC[7] ^構成

．

SPADE ^高級 ^言的言語 ^，処理 ^象 ^あ

，処理を行うオ関係を記述

処理を実行，間や間通信や，

ン立を意識ン

能あ．広範処理適用能汎用組込オを持，単純処理組込オ

を設定実装．汎用オ十場合，_C++や_Javaを用い定義

独自オや関数作成い．

SPADE ^， 1 ^う ^ン ^{や最適化を段階的}

行う高度最適化を施．_SODA_[2] 実行中割当変更う動的最適化

，処理全体高速化い．

2 SPADE ^例 ^，^あ TCP^ソ ^ッ

1 SPADE ^ン [6] ^{引用}

(3)

を信，_data1 _1.5 均値を求書出いう処理を表い．

[Nodepool] ^{処理を行う} ^を指定 ^部 ^，

，_node0 _node1 指定い．[Application] 降実際処理を記述部，_stream文次記

い前，次行オ

処理内容を表い．_Source を付

オ，ン

some_address TCP^{接続を行い，}CSV^形式 ^を

data0^，data1 ^いう ^を作成 ^．Source

TCP ^外 ^やDB ^能 ^あ ^．

次行 _nodeや_partition オをや

ッ実行を指定部， _Computer

0^番目， node0 ^実行 ^を指定 ^あ ^．^次

オ _partition を指定い，_partition

オ一ッ動作，を_{System S}

FUSION ^ぶ．次 ^オ ^，Functor

中様々処理を行うオ，条

件文を用い選別を行い．_Functor 内外複雑関数を利用，関数

自身定義．_Aggregate を

一定区間区，区中操作を

行うオ，十個ッを

を一動い，中均値を

avg ^出力 ^い ^． ^う ^操作 Windowing

．最後 _Sinkオ _Sourceオ

存在，を様々形式出力オあ．

System S ^， ^を条件 ^合わ ^複数 ^割

Split^や，逆 ^を一 Join^，

期を行う_Barrier 多様組込オ

定義オ _UDOPを持，複雑

処理応能い．_UDOP 実際処理外通信や管理部書

ンを自動生成，処理部を_C++や_Java 記述い．，汎用オ

表現い複雑処理や操作を実現，

UDOP ^自体 ^オ ^様 ^化

高度柔軟性，再利用性恩恵を．

多処理組込オ用意，

間や間通信を行う開

発間を短縮点や，定義オや関数複雑柔軟処理能あ点，やッ

指定容易あ点 _{System S} 処

理や研究適い言え，本研究

処理系 _{System S}を使用

．

4. ^音声 ^識 ^処理性能 ^要因

4.1 ^音声 ^識 ^略

音声識，人発音声を入力発内容を文章出力処理あ．音声識，音声を特徴量系列_{X = x}₁_{, x}₂_,_{…, x}_T 変換，文章を_W

置い確率_P(W|X)を最大化う文章を求

．

，_P(W|X)を直接求困難あ，則

基次式う変形．

式中 P(X|W), P(W) ^を求 ^使用 ^統計 ^を

音響，言語いい，隠 (HMM; Hidden Markov Model)^，N-gram ^を

用い主流あ．

音声識ンン，_HTK_[8]_{, Julius}_[9][10]_{, T}

3

decoder[11] ^存在 ^，本研究 SPADE

UDOP ^音声 ^識オ ^を実装 ^際 ^便宜

Julius 4.1.4^を ^用 ^．

4.2 ^ビ

Julius ^，音響 ^言語 ^を ^索 ^ッ

ワを構築，入力音声 tree-trellis ^索[12] ^基

い音声識を行う．全

体 ₂ 構成，第一強い近似を用い粗い索解文章候補を絞込，結果基い第細識を行い，最終的出力を得

．第一，第，ッワ解索

全経路い索を行う，高い

仮計算を行い外仮を棄却手法をい．索手法をビび，ビ

足幅をビ幅ぶ．

音声識処理い処理間大部を占第一処理あ．精度高い音声識を行う，広い索空間解文識仮候補残確率を高，第一ビ幅値を十大

い．一方値を大識

要間大う．，第一

ビ幅設定 _Julius 識精度び処理間

最大影響．

降節，第一ビ幅を単純

ビ幅ぶ．

5. ^設計 ^実装

System S ^びSPADE^を用い ^音声 ^識

を実装． ₃ 大

を示， ₄ 個々オ

(4)

細構成を示．， _SPADEソ

を_Appendix 記載．_Appendix ソ中番

号振い箇所， ₄ 応番号オ記述を表わい．

節，_5.1~5.3 節設計理念議論等

を述，_5.4節各い明．

5.5^節 ^掘 ^，個々 ^オ ^処理

い明．

5.1 ^拡張性 ^ビ

並列散処理性，様々音声処理拡

張性を考慮設計を行．

SPADE ^行数 ^わ 120 ^行程度 ^あ ^，

SPADE ^を用い ^複数 ^わ ^並列 ^散処理

簡単記述を示い．，並列散処理を行う，_1~2行目並列数記述び

24~27^行目 ^{記述を変更} ^，

容易

．，音声識を行う

実装い， _71~75行目記述い

(4) “Decoder@j_Transcription”

“UDOP SpeechDecoder” ^続 ^形 ^{処理を追記} ^，^音声識を基様々音声処理拡張

．

5.2 ^音声 ^識オ

3 ^中 ^識器 ^い ^音声 ^識を実行

，内部外部音声識を実際行うを用意必要あ．本研究，_3.2節述 _UDOP 音声識オを実装．

オ， ₄ (4)SpeechDecoder ^当 ^． ^音

声識オ，本研究外用い

う，汎用的オ実装

い．オッンンン _Julius

あ libjulius, libsent^を用い ^． ^， ^オ

5.3^節 ^後述 ^理由 ^，Julius ^ビ ^幅

値を実行中変更う実装

い．，オ実装際，実装び評価容易性，音声発区間₁ を入力

，区間入力完了識処理を開始方法を．

5.3 ^ビ ^{幅管理機構}

4.2 ^節 ^述 ^通 ^，音声 ^識 ^最 ^処理 ^間を要

第一処理あ，処理間ビ幅設定

依存．通常，_Julius ビ幅予

適値を設定，ンン起動降値を続

使用．，ビ幅設定

識精度，応答間，ッ変化，入力

小い，ッあ大値

を必要い．一方，入力大い

ッを大い処理追い，応答間増大う．本研究，_5.2節述

入力タ計測

ビム幅管理機構

入力×M M×N

×M

入力パサ認識器

×N 出力

入力時刻

入出力時刻タサイズビム幅

外部コマン

3 ^{構成}

4 ^細 ^構成

Source InputP arser

Functor

Aggregate

Split

Functor

UDOP

Spe e chDe code r

^Functor

UDOP

Be amManage r

^Source

Functor

入力パサ認識器出力

入力タ計測ビム幅管理機構

音声音声+ 付加情報

入力時刻

入力タ

出力

入出力時刻タサイズ

コマン認識結果認識器割り当て

Sink

ビム幅設定

認識結果+ 付加情報

0

1

2

3 4 5

6 7

8 9 B A

(5)

通，実行中ビ幅を再設定う音声識オを実装．，入力

応最適ビ幅を設定機構を実装．機構音声識オ様_UDOP 記述，

4^中 (B)BeamManager ^当 ^． ^機構 ^，

識器ビ幅設定値候補例: 400, 800, 1200

を利用者設定う．ビ幅，

利用者予用意計測用を

用いッを計測．後，実運用

，入力を視，ッ入力

を回い範最大ビ幅を選択，値現在識器ビ幅異場合識器

ビ幅を再設定を送．

5.4 ^構成

3 ^示 ^通 ^， ^大 ^入力 ^，

識器，入力計測，ビ幅管理 ₄

構成い．各

い明．

，入力ソッ通信入力を付，

System S ^内部 ^扱え ^形式 ^変換

あ，_M _M ッ並列動作．入力各ッ独立ソッ通信

を持，₁ ッッ集中

を防．，入力計算機

を使入力刻を付．入力刻

入力やッ測定用い．

次，識 _5.2節実装音声識オ

を用いあ，_N _N ッ並列

動作．_N並列識入力 _M並列入

力え，入力識

ッ割当ン

ビン法基決定．わ，入力入力を処理識 ₁番，₂番，_…，

N^番 ^を割 ^当 ^い ^，N^番 ^次 ^再び1^番 ^戻 ^，

いう風割当先を決．識音声識完了後，識結果を出力．，出力計算機

を使出力刻を求，入力刻，出力刻び

音声長をビ幅管理え．値

，ッ計測用い

入力測定，入力刻を現

在入力を測定．ビ幅管理

外部ン入力，₍₁₎ビ幅設定，₍₂₎ 現在ビ幅ッ計測，₍₃₎現在入

力最適ビ幅を設定， ₃通

動作を．う ₍₃₎ ，₍₂₎ 測定ッ

値現在入力処理能最

大ビ幅を選択．

5.5 ^を構成 ^オ

4 ^全体 ^細 ^を示 ^い

．全体 ₁₂ 目オ構成

，各オ ₍₀₎～(9), (A), (B) ^番号を割

振い．う ₍₀₎～₍₃₎ 入力，₍₄₎～₍₇₎

識，_{(8), (9)} 入力計測

，_{(A), (B)} ビ幅管理属．

各オ動作明を記．

(0) ^外部 ^{音声入力を}System S^内部 ^扱う

形式変換．

(1)^入力 ^刻 ^識器割 ^当 ^用 ^を付加．

(2)^{音声入力を各} ^識器 ^割．

(3)^入力 ^計測用 ^を ^出 ^．

(4)^音声 ^{識を行う．ビ} ^幅 ^設定 ^能． (5)^出力 ^{刻を付加．}

(6) ^ッ ^計測用 ^を ^出 ^．

(7) ^外部 ^{識結果を出力．} (8)^{入力情報を一定} ^窓幅 ^集計．

(9)^入力 ^計測．

(A) ^外部 ^ン ^を入力．

(B) ^を集積 ^，必要 ^ビ ^{幅を設定．}

6. ^評価

識ッ数

ッ性，びビ幅管理

動作い実験的評価．

6.1 ^実験環境

実験計算機環境，外部入力を行い出力を Opteron 1.6GHz L2 512KB (2 cores),

Memory 8GB^を1 ^，^入力 ^動作， ^び出力 ^刻

測定用い Phenom X4 2.0GHz L2 512KB (4 cores),

Memory 3.5GB^を1 ^， ^識 ^動作 ^用い

Phenom X4 2.5GHz L2 512KB (4 cores), Memory 8GB^を4

，入力測定びビ幅管理

0.0 5.0 10.0 15.0 20.0 25.0

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

最大同時処理人数

認識モジュのコア数_N

5 ^識 ^性

(6)

動作用い Phenom X4 2.5GHz L2 512KB (4 cores),

Memory 8GB^を1 ^用い ^． ^，^{計算機環境全体} ^ッ

ワ環境，_1Gbps ッ接続い．

ソ環境全共通，CentOS 5.2

2.6.18-92.el5 AMD64, gcc4.1.2, InfoSphere Streams 1.2 (System S) ^を用い ^．

6.2 ^識

音響，日本語言葉 _(JNAS)[13]

録い _52.4 間う，男性者_25.1 間，女性者_27.3 間音声基学習，特徴量

38^次元 MFCC+^Δ+^ΔΔ+^ΔE+^ΔΔE ^，16^混合 ^，

総状態数₃₀₀₀ triphone HMM^を用い ^．^言語 ^，

毎日新聞社 ₁₉₉₁～₂₀₀₂ 新聞記基学習

6^万語彙 3-gram^を用い ^． ^，ビ ^幅を除

Julius^設定 ^，ビ ^幅 ^値 1200

後述評価用ッ _RTF _1.0 値を設定．

6.3 ^評価用 ^ッ

評価入力えッ

，_JNAS 録い IPA-98-TestSet^を用い ^．

音響学習用い音声重複い音声あ

．実験ッを_set0，_set1 ₂

使用．_set0 IPA-98-TestSet ^う ^約20% ^音声 ^男性 1.8 ^，^女性1.9 ^，^合計3.7 ^，set1 ^残 ^約80%

音声男性_7.9 ，女性_8.6 ，合計_16.5 構成．

6.4 ^性 ^評価

入力並列数_Mを₄ ，ビ幅を₁₂₀₀ 固定

，識並列数_Nを₁～₁₆ 変化識全体ッを計測．入力

，入力 _set0全体を用い

． ₅ 結果を示．縦軸値ッ単最大処理人数あ，値 _RTF 逆数一致．

，ン動作最大処理人数 _1.4，₄

16 ^並列動作 ^最大 ^処理人数 19.3 ^あ

．，₁₆ 並列動作ッン動作 _13.8倍を示い．，際 _set0 単語誤率 _5.9% あ． 0.0

10.0 20.0 30.0 40.0 50.0

1 10 19 28 37 46 55 64 73 82 91 100 109 118 127 136 145 154

入力タ人数

入力タ系列番号

6 set1 ^{入力} ^変化 7 set1 ^{識誤} ^率

1 1 .5

9 .5 8 .8 ^{9 .5}

0.0 2.0 4.0 6.0 8.0 10.0 12.0 14.0

固定400 固定800 固定1200 可変

単語誤り率(%)

ビム幅

0.0 1.0 2.0 3.0 4.0 5.0 6.0

1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 106 111 116 121 126 131 136 141 146 151 156

応答時間RTF

入力タ系列

固定4 0 0 固定8 0 0 固定1 2 0 0 可変

8 set1 ^{応答} ^間 ^実 ^{間係数} ^応答 ^{間平音声} ^間

(7)

6.5 ^ビ ^幅管理 ^動作 ^評価

ビ幅管理動作，入力応ビ幅を再設定，高

応答間増大動作

を実証．入力並列数_M ₄，識並列数_N ₁₆ ．設定ビ幅候補

，400, 800, 1200 ^う ^現在 ^入力

最適を選ぶう．際ッを計測

set0^を用い ^． ^ッ set1^を用い

，，入力をえ速度を ₆ 示通変化

行．条件ッ応答

間び単語識誤率を，ビ幅値を400, 800, 1200

値固定場合比較を行．

ッ各音声単語誤率を ₇ ，応答間を ₈ 示．，応答間，各発区間

発終了出力間．ビ

幅変場合，ビ幅高，高ビ幅設定， ₇ 示通，単語誤率ビ幅を₄₀₀ 変幅最小値固定場合小，ビ幅を₁₂₀₀ 変幅最大値固定場合大．， ₈ 結果，ビ幅を変場合，₁₂₀₀ 固定場合比

，高応答間増大抑えい

．う，ビ幅管理ッ

識精度両方を保．，ビ幅値をう設定場合，高

的応答間増大生い．，識器割当 _5.4節述通ンビンを用いい原因あ考え．わ，

割当一部識器負荷集中い，結果識器割当音声処理遅延

生う考え．

7. ^後 ^課題

本研究，処理系_{System S} 基い

Julius 4.1.2^を ^ッ ^ン ^使い，^汎用的 ^音声 ^識

オを実装．，音声識オを用い並列散音声識を構成，内

ッ識精度を保ビ幅管理を実装．評価実験，実装

識ッ数性，₁₆

ッ並列動作ッンッ動

作 _13.8 倍程度あを示．，実

験ビ幅管理う動作

ッ識精度両方を保を示．

回実装，入力識

割当ンビン法を用い．

う方法，識ッ量

生い，応答間定問題あ．を防方法，入力音声間を量近似，各ッ割当

合計音声間均等う割当いう方法考え．，各ッい処理待

大を見，最小いッを

割当方法考え， _SPADE 様

通常方法実装い．

，回実装音声識オ，音声入力を

一括識処理を始方式を用．

方式，発開始逐次入力，処理を進方式異，発完了応答間大

ういう問題あ．，逐次処理能音声識オ，び音声識を実装必要あ．

実装あ，_UDOP 駆動方式 _libjulius

ッ方式兼合い悪，_libjulius 逐

次処理能音声識オ実装困難あ．

，逐次処理能音声識オをうう方法考え．一，自前音声

識ンンを実装，あい _libjuliusを大改造

方法あ，既存資源を有効活用，

手法あ．う一，_libjulius 音声

識ンンを_{System S} 外部実行う実装，

ンンやをUDOP, source^オ

を用い実装方法挙．後者方法あ前者実装容易あ， _UDOP ンン

割当管理を行う適管理を実装いう利点あ．

，逐次処理方式識器₁ ッあ _CPU 使用率あ大い．，逐次処理一括処理う ₁ あ ₁ ッ固定

，多ッを立方効率良．

，計算機処理限界を超えい範稼働

ッ数最大値，識器全体ッ．

謝辞

本研究一部科学研究費補助金挑戦的萌芽研究課題

番号:22650017) ^助成 ^行わ ^．

(8)

参考文献

[1] D. J. Abadi, Y. Ahmad, M. Balazinska, U. Çetintemel, M. Cherniack, J.-H. Hwang, W. Lindner, A. S. Maskey, A. Rasin, E. Ryvkina, N. Tatbul, Y. Xing and S. Zdonik. The Design of the Borealis Stream Processing Engine. In P roc. CIDR, pages 277–289, 2005.

[2] J. Wolf, N. Bansal, K. Hildrum, S. Parek h, D. Rajan, R. Wagle, K.-L. Wu and L. Fleischer. SODA: An Optimizing Scheduler for Large-Scale Stream-Based Distributed Computer Systems. Middlewa re, 2008.

[3] B. Gedik, H. Andrade and K.-L. Wu. A Code Generation Approach to Optimizing High-Performance Distributed Data Stream Processing. In P roc. USENIX, pages 847-856, 2009.

[4] ^{荒金} ^{陽助}, ^川 ^{清志}, ^{金井} ^敦. ^{音声} ビ評価検討_. 情報処理学会論文 46(9), pp. 2269-2278, 2005.

[5] N. Tatbul, U. Cetintemel, S. Zdonik, M. Cherniack and M. Stonebraker. Load Shedding in a Data Stream Manager. In P roc. VLDB, 2003. [6] B. Gedik, H. Andrade, K.-L. Wu, P. S. Yu and M. Doo. SPADE: The System S Declarative Stream Processing Engine. In P roc. SIGMOD , pages 1123-1134, 2008.

[7] L. Amini, H. Andrade, R. Bhagwan, F. Eskesen, R. King, P. Selo, Y. Park and C. Venkatramani. SPC: A Distributed, Scalable Platform for Data Mining. DM-SSP , pages 27-37, 2006.

[8] S. Young, G. Evermann, T. Hain, D. Kershaw, G. Moore, J. Odell, D. Ollason, D. Povey, V. Valtchev and P. Woodland. The HTK book (for HTK Version 3.2). 2002.

[9] A. Lee and T. Kawahara. Recent Development of Open-Source Speech Recognition Engine Julius. Asia -P a cific Signa l a nd Infor ma tion P r ocessing Associa tion Annua l Summit a nd Confer ence (AP SIPA ASC), 2009.

[10] ^李 ^伸. 大語彙連続音声識ンン

Julius ver.4. 電子情報通信学会技術研究報告_. SP, ^{音声} 107(406), pp.307-312, 2007.

[11] P. R. Dixon, D.A Caseiro, T. Oonishi, S. Furui. The Titech Large Vocabulary WFST Speech Recognition System. IEEE ASRU , pages 443-448, 2007.

[12] A. Lee, T. Kawahara and S. Doshita. An Efficient Two-pass Search Algorithm using Word Trellis Index. In P roc. ICSLP , pages 1831-1834, 1998.

[13] ^{板橋} ^{秀一}, ^{山本} ^雄, ^{竹沢} , ^{小林} 哲則_.日本音響学会新聞記音声

構築_. 日本音響学会研究発表会講演論文集 1997(2), pp. 187-188, 1997.

(9)

Appendix SPADE^ソ

1#define SRC_NUM 4 2#define DEC_NUM 16 3

4#define INPUTPARSER_BLOCKSIZE 512*1024 5#define DEFAULT_BEAM 400

6#define INPUTRATE_AGG_RANGE 10 7

8#define SRC_HOST st00 9#define CMD_HOST se00 10#define SNK_HOST sa07 11

12[Application] 13ssr 14 15[Libdefs]

16incpath "~/udoplib/julius-4.1.4/libjulius/include/" 17incpath "~/udoplib/julius-4.1.4/libsent/include.fix/" 18libpath "~/udoplib/julius-4.1.4/libjulius/" 19libpath "~/udoplib/julius-4.1.4/libsent/" 20libs "julius"

21libs "sent" 22 23[Nodepools]

24nodepool n_src[] := ("st00") 25nodepool n_dec[] :=

26("st05","st06","st07","st08","st05","st06","st07","st08", 27 "st05","st06","st07","st08","st05","st06","st07","st08") 28nodepool n_misc[] := ("se00")

29 30[Program] 31

32# --- INPUT PARSER MODULE (@i) : Input@i* 33

34for_begin @i 0 to SRC_NUM - 1

35 stream Input@i_Source(id: String, speech: ShortList, nsamples: Integer) 36 := Source() ["stcp://SRC_HOST:627@i/",

37 udfbinformat="InputParser", blockSize = INPUTPARSER_BLOCKSIZE, noDelays] {} 38 -> node(n_src, 0), partition["p_src_r@i"]

39

40 stream Input@i_SpeechTag

41 (id: String, speech: ShortList, nsamples: Integer, itime: Long, selector: Integer) 42 := Functor(Input@i_Source) [] { itime := timeMicroseconds(),

43 selector := mod(toInteger(seqNum()) + @i * DEC_NUM / SRC_NUM, DEC_NUM) } 44 -> node(n_src, 0), partition["p_src_r@i"]

45

46 for_begin @j 0 to DEC_NUM - 1 47 stream Input@i_SplitTo@j

48 (id: String, speech: ShortList, nsamples: Integer, itime: Long, selector: Integer) 49 for_end

50 := Split(Input@i_SpeechTag) [selector] {} 51 -> node(n_src, 0), partition["p_src_r@i"] 52

53 stream Input@i_ITime(nsamples: Integer, itime: Long) 54 := Functor(Input@i_SpeechTag) [] {}

55 -> node(n_src, 0), partition["p_src_r@i"] 56for_end

57

58bundle B_Input_ITime := () 59for_begin @i 0 to SRC_NUM - 1 60 B_Input_ITime += Input@i_ITime

61for_end 62

63# --- SPEECH DECODER MODULE (@j) : Decoder@j* 64

65for_begin @j 0 to DEC_NUM - 1 66 bundle B_Decoder@j_SpeechTag := () 67 for_begin @i 0 to SRC_NUM - 1

68 B_Decoder@j_SpeechTag += Input@i_SplitTo@j 69 for_end

70

71 stream Decoder@j_Transcription(id: String, transcription: String, 72 nsamples: Integer, beam: Integer, itime: Long)

73 := Udop(B_Decoder@j_SpeechTag[:] ; BeamMan_Beam) ["SpeechDecoder"] 74 {beam="DEFAULT_BEAM"} -> node(n_dec, @j), partition["p_dec@j"] 75for_end

76

77# --- (SINK) : Sink* 78

79bundle B_Sink_Transcription := () 80for_begin @j 0 to DEC_NUM - 1

81 B_Sink_Transcription += Decoder@j_Transcription 82for_end

83

84stream Sink_Result(id: String, transcription: String, nsamples: Integer, 85beam: Integer, itime: Long, otime: Long)

86 := Functor(B_Sink_Transcription[:]) [] {otime := timeMicroseconds()} 87 -> node(n_src, 0), partition["p_src_otime"]

88

89stream Sink_TrainingData

90(nsamples: Integer, itime: Long, otime: Long) 91 := Functor(Sink_Result) [] {}

92 -> node(n_src, 0), partition["p_src_otime"] 93

94Null := Sink(Sink_Result)

95 ["ctcp://SNK_HOST:6281/", csvFormat, noDelays]{} 96 -> node(n_misc, 0), partition["p_misc_sinkt"] 97

98# --- INPUT RATE MODULE : InputRate* 99

100stream InputRate_Agg

101(sum_ns: Integer, last_ns: Integer, max_itime: Long, min_itime: Long) 102 := Aggregate(B_Input_ITime[:] <count(INPUTRATE_AGG_RANGE), count(1)>) 103 [] { Sum(nsamples), Last(nsamples), Max(itime), Min(itime)}

104 -> node(n_misc, 0), partition["p_misc_beam"] 105

106stream InputRate(irate: Double) 107 := Functor(InputRate_Agg) []

108 { (1000000.0d / 16000.0d) * toDouble(sum_ns - last_ns) / toDouble(max_itime - min_itime) } 109 -> node(n_misc, 0), partition["p_misc_beam"]

110

111# --- BEAM MANAGER MODULE : BeamMan* 112

113stream BeamMan_Command(command: String)

114 := Source() ["stcp://CMD_HOST:6280/", csvFormat, noDelays] {} 115 -> node(n_misc, 0), partition["p_misc_beam"]

116

117stream BeamMan_Beam(beam: Integer)

118 := Udop(BeamMan_Command ; Sink_TrainingData; InputRate)

119 ["BeamSetter"] { beam="DEFAULT_BEAM", agg_range="INPUTRATE_AGG_RANGE" } 120 -> node(n_misc, 0), partition["p_misc_beam"]

0

1

2

3

4

5

6

7

8

9

A

B

Publication 論文 鈴村研究室 大規模データ処理・ストリームコンピューティング

処理系を用い 音声処理

西井 俊 鈴村 豊太郎

Highly Scalable Speech Processing on Data Stream Processing System

Shunsuke NISHII and Toyotaro SUZUMURA

Functor

Aggregate

Split

Functor

Functor

Functor

Source

Functor

Sink

0

1

2

3

4 5

6 7

8 9 B A

Publication 論文鈴村研究室大規模データ処理・ストリームコンピューティング

処理系を用い音声処理

西井俊鈴村豊太郎

^Functor

^Source