• 検索結果がありません。

とは AITalk は 従来の機械音ではなく 人の声で合成する技術 コーパスベース音声合成方式を採用し より人間らしく自然な音声で自由に音声合成をすることが可能な 高品質音声合成エンジンです AITalk の特徴 豊富な話者と言語日本語話者は大人から子供まで男女 17 種類関西弁にも対応 言語の種類

N/A
N/A
Protected

Academic year: 2021

シェア "とは AITalk は 従来の機械音ではなく 人の声で合成する技術 コーパスベース音声合成方式を採用し より人間らしく自然な音声で自由に音声合成をすることが可能な 高品質音声合成エンジンです AITalk の特徴 豊富な話者と言語日本語話者は大人から子供まで男女 17 種類関西弁にも対応 言語の種類"

Copied!
19
0
0

読み込み中.... (全文を見る)

全文

(1)

株式会社エーアイ(AI, Inc.) 事業内容 ・音声合成システムにかかわるソリューションのご提供 ・上記導入にかかわるコンサルティング・周辺システム 所在地 本社 〒113-0024 東京都文京区西片1-15-15 KDX春日ビル10F 都営三田線春日駅 A6出口 徒歩2分 都営大江戸線春日駅 A6出口 徒歩2分 東京メトロ南北線後楽園駅8番出口 徒歩4分 TEL 03-6801-8461 / FAX 03-6801-8462 開発センター 〒619-0237 京都府相楽郡精華町光台2-2-2 株式会社国際電気通信基礎技術研究所(ATR)内 平成15年4月1日 役員 代表取締役 吉田 大介 取締役 廣飯 伸一 取締役 平井 啓之 取締役 古澤 仁 社外取締役 監査等委員 上條 弘 社外取締役 監査等委員 杉山 浩 社外取締役 監査等委員 飛松 純一 43,801,320円(資本準備金 13,600,000円) 主要株主構成 吉田 大介 株式会社ソルクシーズ 廣飯 伸一 平井 啓之 株式会社トラストシステム 株式会社国際電気通信基礎技術研究所 取引銀行 三井住友銀行 みずほ銀行 三菱東京UFJ銀行 主な取引先 株式会社NTTドコモ ヤフー株式会社 ソフトバンクロボティクス株式会社 株式会社システナ 日本NCR株式会社 三井情報株式会社 資本金 設立 会社名

(2)

AITalk®は、従来の機械音ではなく、人の声で合成する

技術、コーパスベース音声合成方式を採用し、より人間

らしく自然な音声で自由に音声合成をすることが可能な、

高品質音声合成エンジンです。

AITalk®の特徴

話者紹介

とは

日本語話者は大人から子供まで男女17種類 関西弁にも対応。言語の種類は36種類以上の 豊富な音声ラインナップ

豊富な話者と言語

使用するシチュエーションや ご用途に合わせた喜怒哀楽の 感情表現を実現

感情表現も実現

芸能人や声優、自分の声でも 短時間の収録で 音声合成用データに変換

誰の声でも合成データに

爽やかで若々しい声が特徴です。ナレーション、電話自 動応答、防災無線、エンタメ等、様々な用途で広くお使 いいただけます。

のぞみ

大人っぽく艶やかな印象の声です。様々なシーンに応用 可能で、VOICEROID+結月ゆかり※と同じ声です。

すみれ

明瞭性に長けているのが特徴です。電話自動応答 (CTI・IVR)や、動画作成時のナレーションなど、幅広 くお使いいただけます。

かほ

アニメやゲーム等のキャラクターやエンターテイメント での利用に最適です。 明るく元気な声が特徴です。製品案内やプロモーション の用途に最適です。

あかり

おちついた声が特徴です。ニュースの読み上げや音声ガ イダンスの用途に 適しています。 ななこ 可愛いらしく、ふんわりとした優しい声が特徴です。ア ニメキャラや、アプリや玩具、ゲーム等での利用にぴっ たりです。

れいな

誠実なトーンが特徴です。 説得力や注意をうながす場面 に適しています。

せいじ

汎用性にすぐれた声が特徴です。様々な場面で応用が可 能です。

おさむ

朴訥とした声が特徴です。朗読等に最適です。

ひろし

若々しく、個性的な声が特徴です。エンターテイメント 分野での利用に最適です。

たいち

優しく一生懸命さが伝わる話し方が特徴です。

あんず

鼻にかかった愛らしい女の子の声です。

ちひろ

可愛くゆっくりとした話し方が特徴です。

こうたろう

ハキハキとした賢そうな男の子の声です。

ゆうと

まき

ゆったりとした優しい話し方が特徴の女性話者です。

みやび(関西弁風)

明朗快活で、若々しい話し方が特徴の男性話者です。

やまと(関西弁風)

(3)

仕組み

製品一覧

AITalk®は、従来の機械音ではなく、人の声で合成する技術、コーパスベース音声合成方式を採用し、

より人間らしく自然な音声で自由に音声合成をすることが可能な、高品質音声合成エンジンです。

(4)

だれでも簡単にナレーション作成

感情表現

対応

AITalk®4 声の職人はパソコンにテキストを入力するだけで、手軽に音声ファイルが作成できるナレーション作成ソフト です。このソフトを使えば、誰でも簡単に直感的な操作で、高品質なナレーション音声の作成が可能になります。 従来の機能に加え、感情表現※1に対応。さらに様々なシーンでご利用いただけます。 コーパスベース音声合成機能に加え、微妙なフレーズ(イントネーション)の調整やスピード調整、音声ファイルの作成 などの役割をこなす、チューニングツールがもっと便利に使いやすくなりました。 さらに、利用シーンや用途によって、 標準語は女性7名、男性4名、女の子2名、男の子2名、関西弁風は女性1名、男性1名の中からお好きな音声を選ぶ事がで きます。 ※1感情対応話者はのぞみ(喜怒哀)、まき(喜怒哀)、れいな(喜怒哀)、たいち(喜)のみとなります。

より人間らしく人のもつ感情を表現できるようになりました

提供形態 PCインストール 主な用途 電話自動応答の音声 / 観光案内や館内放送のアナウンス / 教材やマニュアル、e-learningのコンテンツ作成

主な機能

感情表現にも対応することでシチュエーション や用途に合わせた感情表現を実現。

感情表現を実現

任意の文章を人間の声で合成します。

自由文音声合成

アクセントマークを移動するだけで最適なイン トネーションに調整することが可能です。

イントネーション調整

開始、文中、文末のポーズ長を自由に設定 することが可能です。

ポーズ長設定機能

地名や名前などの特殊な読み方をする単語を辞 書として登録・保存が可能です。

単語辞書機能

文中のテキストの読み方をルビで指定する ことが可能です。

ルビ機能

CSVファイル内の複数の単語を一括で登録する ことが可能です。※登録後に単語毎のアクセン ト編集が必要です。

単語一括登録

標準語女性7名、男性4名、女の子2名、男の子2名 関西弁風女性1名、男性1名の中からお好きな音声 を選ぶ事ができます。

豊富な話者のラインナップ

複数のテキストファイル(または中間言語ファ イル)から音声ファイル(または中間言語ファ イル)を一括作成できるようになりました。

音声ファイル一括作成

入力テキストの文字数をカウントすることがで きます。作成した音声ファイルの秒数も事前に 確認することができます。

各種カウント機能

0.5~4.0倍の範囲でスピードの調整が可能です。

話速変換

話者の抑揚を簡単に調整することが可能です

抑揚調整機能

(5)

CPU Pentium4 又はそれ以上の互換CPU(1GHz以上を推奨) メモリ 1GB以上(32bit)または2GB(64bit)以上 HDD インストールに2GB以上の空き容量が必要 ※1話者の場合、利用する話者数にしたがってより多くの空き容量が必要となります。 ディスプレイ XGA(1024×768)以上の解像度 サウンド DirectX 9.0c以降に対応したサウンドカード 光学ドライブ インストールにDVD-ROMが必要 USBポート ライセンス認証にUSBキーを利用するため、1つ以上の空きが必要 インターネット接続 Windows 8.1、10でのご利用には、インストール時にインターネット接続が必要 OS Windows10 日本語版(32bit/64bit) Windows8.1 日本語版(32bit/64bit) Windows7 日本語版 SP1(32bit/64bit) ※VirtualPC、VMWare、Windows7のXP mode等の仮想環境を除きます。 ※リモートデスクトップでは使用できません。 DPI 96DPIのみ動作保証

※日本語解析エンジンには、Berkeley Software Distribution License(BSD)に基づいてライセンスされているソフトウェア (CaboCha/CRF++/ChaSen/Darts/NAIST-jdic/UniDic)を使用しています。 出力ファイル フォーマット*1 44KHz 16ビット PCM形式/32KHz 16ビット PCM形式 22KHz 16ビット PCM形式/16KHz 16ビット PCM形式 11KHz 16ビット PCM形式/8KHz 16ビット PCM形式 11KHz 8ビット PCM形式/8KHz 8ビット PCM形式 11KHz μ-Law PCM形式/8KHz μ-Law PCM形式

仕様

1年目ライセンス(話者2名) 596,000円/1ライセンス 2年目以降利用ライセンス 96,000円/1年 1話者追加 150,000円/1話者 ※価格は税別です。 ※サポートサービスの提供はございません。 ※上記価格は一般企業様向け価格となります。その他に関しては別途お問合せください。 永年ライセンス(話者2名) 900,000円/1ライセンス 1話者追加 150,000円/1話者

年間利用ライセンス

永年利用ライセンス

製品価格

*1:音声はモノラルとなります。 ※あかり、ななこ、こうたろう、あんずは22KHzおよび11KHzには対応しておりません。 ※44kHzおよび32kHzを選択しても22kHzおよび16kHzからの音質向上はありません。作成した音声ファイルのご利用の中で、 44kHzおよび32kHzのファイルフォーマットが必要となる場合に選択してください。

(6)

外国語のナレーションを簡単作成

AITalk International®2013は、外国語対応ナレーション作成ソフトです。 近年では日本に訪れる外国人観光客

も増え、美術館や博物館等の観光スポットや、駅やデパート、家電量販店等外国人が多く利用するスポットでは、

外国語の音声ガイダンスが必須になりつつあります。

しかし、外国語でのガイダンスの作成は、外国人声優やナレーターの手配等、面倒なことも多く、気軽に作成は

できません。 また、収録後の差替えが必要になっても、「既に過去に採用した声優やナレーターが帰国していた

…」等のリスクもあります。

AITalk International®2013を使えば、作成したい外国語のテキストさえあれば、テキストを入力するだけで、

誰でも簡単に外国語のナレーション音声を作成することができ、さらに差替えも容易にすることができます。

様々な言語での音声合成を可能にします。

提供形態 PCインストール 主な用途 観光案内・館内・車内各種放送 合成した音声をwavファイルで保存可能です。

音声ファイル保存機能

1-9の話速設定が可能。

話速変換

1-9の音量設定が可能。

音量調整機能

0-1800msecで設定が可能。

改行ポーズ長設定機能

任意の文章を人間の声で合成します。

自由文音声合成

主な機能

英語、中国語、韓国語は勿論、ドイツ語やフランス語等、様々な言語で、手軽にナレーション音声を作成することができます。 ・アメリカ英語(男性、女性) ・広東語(女性) ・イタリア語(男性、女性) ・ポルトガル語(女性) ・ギリシャ語(男性、女性) ・インドネシア語(女性) ・インド英語(女性) ・ブラジル系ポルトガル語(女性) ・カタロニア語(女性) ・デンマーク語(女性) ・ノルウェー語(女性) ・スウェーデン語(男性、女性) ・イギリス英語(男性、女性) ・韓国語(女性) ・南アフリカ英語(女性) ・スペイン語(男性、女性) ・ヒンディー語(女性) ・アラビア語(男性) ・北米系スペイン語(男性、女性) ・ベルギー系オランダ語(女性) ・フィンランド語(男性) ・オランダ語(男性、女性) ・ポーランド語(女性) ・スロバキア語(女性) ・北京語(男性、女性) ・フランス語(男性、女性) ・ドイツ語(男性、女性) ・ロシア語(女性) ・タイ語(女性) ・オーストラリア英語(男性、女性) ・カナダ系フランス語(男性、女性) ・バスク語(女性) ・チェコ語(女性) ・ハンガリー語(女性) ・ルーマニア語(女性) ・トルコ語(女性)

対応言語

リニューアル中

(7)

CPU Pentium4 又はそれ以上の互換CPU(1GHz以上を推奨) メモリ 1GB以上(32bit)または2GB(64bit)以上 HDD 1GB以上の空き容量 ※ご利用になる音声データベースによってより多くの空き容量が必要となる場合があります。 OS Windows 7 SP1以降(32bit,64bit) Windows 8.1(32bit,64bit) Windows 10(32bit,64bit) ※64bit版は32bitモードでの動作となります。 ※Windows8.1、10の場合、インストール時にインターネットの接続が必要になります。 ファイルフォーマット PCM 16kHz 16bit(モノラル) PCM 11.025kHz 16bit(モノラル)(中国語・韓国語のみ) 音声データ audio/L16 永年利用ライセンス(1言語) 600,000円/1ライセンス 言語追加ライセンス 300,000円/1言語 ※価格は税別です。 ※サポートサービスの提供はございません。 ※ご法人様限定のライセンスとなります。 ※学校法人様の価格に関しては別途お問合せください。

製品価格

(8)

シンプルなAPIで自然な音声合成を実現

感情表現

対応

AITalk® SDKは、人間らしく自然な音声で自由に音声合成をする事ができ、ライブラリ(dllまたはso)でご提供する組 込み用途向け音声合成エンジンです。 さらに最新バージョン「AITalk®4 SDK」では、感情の調整も可能になりました※1 用途や好みによって、標準語は女性7名、男性4名、女の子2名、男の子2名、関西弁風は女性1名、男性1名の中からお好 きな音声を選ぶ事ができます。 ※1感情対応話者はのぞみ(喜怒哀)、まき(喜怒哀)、れいな(喜怒哀)、たいち(喜)のみとなります。

感情表現に対応した組み込み用音声合成エンジン

提供形態 ライブラリ(dll) 主な用途 パッケージソフトへの組込み / 電話自動応答の音声 / 機器へ の組込み / WEBキャンペーン・WEBサービス 感情表現にも対応することでシチュエーション や用途に合わせた感情表現を実現。 感情表現を実現 任意の文章を人間の声で合成します。 人の声をベースとした音声合成 アクセントマークを移動するだけで最適なイン トネーションに調整することが可能です。 イントネーション調整 地名や名前などの特殊な読み方をする単語を辞 書として登録・保存が可能です。 単語辞書機能 クアッドコアに最適化、高いパフォーマン スを実現します。 マルチスレッド対応 Windows用、Linux用それぞれの環境に適した、 利便の良いライブラリーをご提供致します。 ライブラリ(dllまたはso)でのご提供 標準語女性7名、男性4名、女の子2名、男の子2名 関西弁風女性1名、男性1名の中からお好きな音声 を選ぶ事ができます。 豊富な話者のラインナップ ※本オプションはWindows版のみのご提供と なっております。 チューニング実装機能の追加が可能(オプション)

主な機能

構成図

(9)

OS

・Windows10 日本語版(32bit/64bit) / ・Windows8.1 日本語版(32bit/64bit) / ・Windows8 日本語 版(32bit/64bit) / ・Windows7 日本語版 SP1(32bit/64bit) / ・Windows Server 2016 日本語版 / ・Windows Server 2012 R2 日本語版 / ・Windows Server 2012 日本語版 / ・Windows Server 2008 R2 SP1 日本語版

※VirtualPC、VMWare、Windows7のXP mode等の仮想環境を除きます。

CPU Intel Pentium 4 又はAMD Athlon 64以上のプロセッサ(マルチコア推奨)

メモリ 1GB以上(32bit)または2GB(64bit)以上

HDD/SSD 2GB以上の空き容量 *1

サウンド DrectX 9.0c以降に対応したサウンドカード(音声再生ライブラリを使用する場合)

実行環境 .NET Framework 3.5 SP1※.NET Frameworkで開発する場合

開発環境 ・Microsoft Visual Studio 2010 SP1/・Microsoft Visual Studio 2015 SP1

※上記環境以外は別途お問い合わせください。

ファイルフォーマッ ト*2

・22KHz 16bit PCM形式*3 / ・11KHz 16bit PCM形式*3 / ・16KHz 16bit Linear PCM /・8KHz 16bit Linear PCM / ・8KHz μ Law

対応中間言語フォー

マット ・AI独自規格 / ・JEITA TT-6004規格

Windows

OS

・Red Hat Enterprise Linux:6.6(x86/x64),7.1(x64) /・Cent OS 6.6(x86/x64),7.1.1503 (x64) /・Ubuntu(Server/Desktop):12.04 LTS(x86/x64),14.04 LTS(x64),

Ubuntu16.04 LTS (x64)

CPU Intel Pentium 4 又はAMD Athlon 64以上のプロセッサ(マルチコア推奨)

メモリ 1GB(32bit)または2GB(64bit)以上

HDD/SSD 2GB以上の空き容量 *1

ファイルフォーマッ ト*2

・22KHz 16bit PCM形式*3 /・11KHz 16bit PCM形式*3 /・16KHz 16bit Linear PCM /・8KHz 16bit Linear PCM /・8KHz μ Law 対応中間言語フォー マット ・AI独自規格 / ・JEITA TT-6004規格 *1:使用する話者が1名の場合。話者1名の追加につき、300MB程度 *2:音声はモノラルとなります。 *3:あかり、ななこ、こうたろう、あんずは22KHzおよび11KHzには対応しておりません

※日本語解析エンジンには、Berkeley Software Distribution License(BSD)に基づいてライセンスされているソフトウェア (CaboCha/CRF++/ChaSen/Darts/NAIST-jdic/UniDic)を使用しています。

(10)

高品質はそのままに 組込み用小型音声合成エンジン

感情表現

対応

人間らしく、自然な高品質音声合成AITalk®を、機器組込み向けに小型化したmicroAITalk®は、前バージョンからさら に機能を追加してmicroAITalk®3としてバージョンアップしました。 提供形態 機器組込み 主な用途 機器への組込み / ナビゲーション・PND / ゲーム / スマート フォンアプリケーション 人の声をベースとした高品質音声合成

自由文音声合成

日本語テキスト中で、各種パラメーター値の指定や、 ブックマークを付けることが可能になりました。

音声効果タグ機能

文中任意の位置にブックマークを設定することが 可能になりました。コールバック関数にてブック マークに関する情報を取得できます。

ブックマーク機能

単語辞書をファイルパス指定してロードすること が可能になりました。また、アンロードして、新 たな辞書をロードすることも可能になりました。

単語辞書のロード・アンロード

同じ漢字でも読み方が文章内で違う物等、ルビ 機能で読み方を指定できるようになりました。

ルビ機能

さまざまな機器への組込みが可能な低容量・低リ ソースを実現

低容量・低リソース

入力は、漢字かな交じり日本語テキスト及び、中間表 記(AI独自規格、JEITA TT-6004規格)に対応

入力対応

地名や名前などの特殊な読み方をする単語を辞書 として登録・保存が可能です。

ユーザー辞書機能

多彩なOS向けにポーティング可能

ポーティング

主な機能

構成図

(11)

OS CPU

Android 4 以上 ARM, Intel

iOS 8 以上 Apple A5以上

Linux version 4.1.19-v7+ (Raspbian) ARM Cortex-A53 (Raspberry Pi 3 Model B)

対応プラットフォーム

メモリ(RAM) 40MB以上(1話者の場合) 話者1名の追加につき約5MB追加 データサイズ(ROM) 50~70MB(1話者の場合) 話者1名の追加につき約40MB追加 出力データ形式 16KHz 16bit Linear PCM モノラル

基本スペック表 - 日本語解析あり -

メモリ(RAM) 26MB以上(1話者の場合) 話者1名の追加につき約5MB追加 データサイズ(ROM) 40~60MB(1話者の場合) 話者1名の追加につき約40MB追加 出力データ形式 16KHz 16bit Linear PCM モノラル

基本スペック表 - 日本語解析なし -

※1:日本語解析エンジンには、Berkeley Software Distribution

License(BSDライセンス)に基づいてライセンスされているソフトウェア(Chasen)を使用しています。 ※付属ツールはWindows版向けツールのみのご提供となります。

※Windows Embedded CE 6.0版、上記以外のLinux版、ニンテンドー3DS版についてはお問い合わせください。 ※上記以外のプラットフォームの対応についてはお問い合わせください。

(12)

WEB、電話等、さまざまなサービスをリアルタイムに

AITalk® Serverは、電話自動応答やインターネットサービスなど、ネットワークを利用し、マルチタスクで合成処理を 行う場合に最適なエンジンです。

マルチタスクで合成処理を行う場合に最適なServer設置型音声合成エンジン

提供形態 サーバー設置型 主な用途 電話自動応答の音声 / WEBキャンペーン・WEBサービス 地名や名前などの特殊な読み方をする単語を辞 書として登録・保存が可能です。

単語辞書機能

クアッドコアに最適化、高いパフォーマン スを実現します。

マルチスレッド対応

WEBサービス等でより使いやすいRESTイン ターフェースを採用。

RESTインターフェース (HTTP/1.1)

SSML(W3C勧告)対応で、多彩な調整を汎用 的なルールで指定することができます。

SSMLサポート

主な機能

動作環境

感情表現にも対応することでシチュエーション や用途に合わせた感情表現を実現。

感情表現を実現

任意の文章を人間の声で合成します。

人の声をベースとした音声合成

32bit 版AITalk Server (注2) 64bit 版AITalk Server OS(注1) Windows 7 (32bit/64bit)

Windows 8 (32bit/64bit) Windows 8.1 (32bit/64bit) Windows 10 (32bit/64bit) Windows Server 2008 R2 Windows Server 2012 Windows Server 2012 R2 Windows Server 2016 Windows 7 (64bit) Windows 8 (64bit) Windows 8.1 (64bit) Windows 10 (64bit) Windows Server 2008 R2 Windows Server 2012 Windows Server 2012 R2 Windows Server 2016

CPU Intel Core またはAMD Athlon64 以上の

x86 互換プロセッサで、マルチコア、SSE2 をサポートするもの

Intel Core またはAMD Athlon64 以上の x64 互換プロセッサで、マルチコア、SSE2 をサポートするもの メモリ 2GB以上 3GB以上 HDD/SSD 2GB 以上 ※1話者の場合です。利用する話者数にしたがってより多くの空き容量が必要となります。 ネットワークI/F TCP/IP アダプタ

音声データ 22kHz 16bit Linear PCM / 11kHz 16bit Linear PCM / 16kHz 16bit Linear PCM

8kHz 16bit Linear PCM / 11kHz 8bit Linear PCM / 8kHz 8bit Linear PCM 11kHz μ-Law / 8kHz μ-Law

Windows

(注1) 使用OS の最適なサービスパックまたはパッチがインストールされている必要があります。 (注2) 64 ビットOS の場合は、32 ビット互換モード上での動作となります。

*本アプリケーションは、下記ライセンス準拠のライブラリを使用しています、または、使用する場合があります。 ・日本語解析エンジン:Berkeley Software Distribution

License(BSD)に基づいてライセンスされているソフトウェア(CaboCha/CRF++/ChaSen/Darts/NAIST-jdic/UniDic) ・FreeBSDライセンス — PicoJSON

(13)

Linux

32bit 版AITalk Server (注4) 64bit 版AITalk Server OS (注1) (注2) (注3) Red Hat Enterprise Linux

6.7 (x86/x64) / 7.1 (x64) CentOS 6.7 (x86/x64) / 7.1.1503 (x64) Ubuntu (Server/Desktop) 12.04 LTS (x86/x64) / 14.04 LTS (x64) / 16.04 LTS (x64)

Red Hat Enterprise Linux 6.7 (x64) / 7.1 (x64) CentOS 6.7 (x64) / 7.1.1503 (x64) Ubuntu (Server/Desktop) 12.04 LTS (x64) / 14.04 LTS (x64) / 16.04 LTS (x64)

CPU Intel Core またはAMD Athlon 64 以上の

x86 互換プロセッサで、マルチコア、SSE2 をサポートするもの

Intel Core 2 またはAMDAthlon 64 以上の x64 互換プロセッサで、マルチコア、SSE2 をサポートするもの メモリ 2GB以上 3GB以上 HDD/SSD 2GB 以上 ※1話者の場合です。利用する話者数にしたがってより多くの空き容量が必要となります。 ネットワークI/F TCP/IP アダプタ

音声データ 22kHz 16bit Linear PCM / 11kHz 16bit Linear PCM / 16kHz 16bit Linear PCM

8kHz 16bit Linear PCM / 11kHz 8bit Linear PCM / 8kHz 8bit Linear PCM 11kHz μ-Law / 8kHz μ-Law

(注1) 使用OS の最適なサービスパックまたはパッチがインストールされている必要があります。 (注2) SMP 対応カーネルが必要です。

(注3) 共有ライブラリ(libgcc_s.so.1, libstdc++.so.6, libc.so.6, libm.so.6, libpthread.so.0, libdl.so.2, librt.so.1)が別途必要です。 32bit 版AITalk Server を64 ビットOS で動作させる場合は、32bit 版の共有ライブラリが必要となりますのでご注意ください。 (注4) 64 ビットOS の場合は、32 ビット互換モード上での動作となります。

*本アプリケーションは、下記ライセンス準拠のライブラリを使用しています、または、使用する場合があります。 ・日本語解析エンジン:Berkeley Software Distribution

License(BSD)に基づいてライセンスされているソフトウェア(CaboCha/CRF++/ChaSen/Darts/NAIST-jdic/UniDic) ・FreeBSDライセンス — PicoJSON

・MITライセンス — Expat

(14)

あの人の声や私の声も音声合成にできちゃいます

芸能人や声優、自分の声等を収録し、音声合成用のオリジナル日本語音声辞書を作成するサービスです。 テキストを入 力するだけで簡単にリアルな本人の声で喋らせる事が可能になるため、WEBキャンペーンや、スマートフォンのアプリ ケーション、ゲーム等様々なコンテンツの展開が可能になります。 提供形態 日本語音声辞書作成サービス 主な用途 WEBキャンペーン・WEBサービス / スマートフォンアプリ ケーション / ゲーム

Step.1 – 収録文章数の決定

予算、用途、完成度(何をどのように、どの程度で読ませたいか?)等 の条件から、プランを決定いたします。

Step.2 – 収録

それぞれのプランに応じた収録方法で、指定の文書を読んでいただき、 収録を行います。収録時間は収録文字数や、スピード、読み間違いなど 個人によって差がでますが、1時間~5時間程度が平均的です。

Step.3 – 音声辞書の作成

弊社内で、収録した音声を音声合成用に辞書化します。

制作フロー

(15)

ブロンズプラン シルバープラン ゴールドプラン プラチナプラン 収録 文章数 所定の200文章 所定の205文章 所定の676文章 所定の676文章+ 独自200文章以内 価格 40万円 90万円 300万円 500万円 収録時間 1時間程度 2~3時間程度 6-7時間程度 7-8時間程度 収録方法 ICレコーダーでの 収録 当社指定スタジオ (渋谷)での収録 当社指定スタジオ (渋谷)での収録 当社指定スタジオ (渋谷)での収録 制作期間 (目安) 1~2週間程度 2週間~1ヶ月程度 1~1.5ヶ月程度 2ヶ月程度 ※上記の価格は全て税別です。 ※音声辞書作成費用の他に、別途音声合成エンジンのライセンス費用が発生致します。ライセンス費用につきましては、別途お問合せ ください。 ※大阪での収録の場合には、20万円の追加費用が発生致します。 ※当社指定のスタジオ以外での収録を希望される場合には別途ご相談ください。 ※ブロンズプランにつきましては、1都3県(神奈川、埼玉、千葉)以外での収録を希望される場合には別途お見積もりとさせて頂き ます。詳細につきましては、別途ご相談ください。 ※制作期間は目安となり、実際の制作期間については別途お問い合わせください。

(16)

AIのクラウド型サービス

AITalk® 声の職人 クラウド版の特徴

クラウドサービス「AICloud」は株式会社エーアイの高品質音声合成エンジン「AITalk ® 」 をクラウドで手軽に利用できるサービスです。

誰でも簡単手軽にナレーション音声作成

誰でも手軽に高品質なナレーション作製ができる業務用パッケー ジソフト「AITalk® 声の職人」がWebブラウザ上で利用できるク ラウド版として登場!標準語15名の話者を追加料金なしで使える お得なサービスです。クラウド版だから複数拠点での利用にも対 応で音声コンテンツの作成が益々効率的になります!

単語辞書機能

人間の声に近い自然な音声

豊富な話者のラインナップ

オリジナル話者の利用も可能

直感的・簡単操作

いつでも最新のバージョンが利用可能

インストール不要。契約完了後すぐに使用可能

複数拠点でも使用可能

主な機能

地名や名前などの特殊な読み 方をする単語を辞書として登 録・保存が可能です。読み方 だけでなく、単語のイント ネーションも登録しておくこ とが可能です。

話速変換

0.5~4.0倍の範囲でスピード の調整が可能です。

抑揚調整機能

話者の抑揚を簡単に調整する ことが可能です。

ピッチ調整機能

0.5~2.0倍の範囲でピッチ (声の高さ)の調整が可能で す。

音量調整機能

0.5~2.0倍の範囲で音量の調整が 可能です。

音声一括保存

複数のテキストを同時に編集し音 声を一括で保存できます。

各種カウント機能

入力テキストの文字数をカウント することができます。また、作成 した音声ファイルの秒数も確認す ることができます。

SSML※対応

テキスト入力欄にXML(マーク アップ言語)形式で記述すること で、読上げの細かな制御が可能で す。話者の指定 / 音量、話速、 ピッチ、抑揚の調整 / ポーズ設定 / ヨミの指定等を文中の一部分の み指定し制御することが可能です。

イントネーション調整

アクセントマークを移動する だけで、最適なイントネー ションに調整することが可能 です。音量・話速・抑揚等の 細かい調整をアクセント区単 位で行う事や、調整したイン トネーションを登録しておく ことができます。

(17)

e-ラーニングコンテンツのナレー

ション用として

差替えも楽々、簡単手軽にナレーションを作成、質の 高いコンテンツが作成できます!

動画のナレーションとして

編集の際に発生するナレーションの差替えにもすぐに対応可能、 動画用のナレーションが手軽に低コスト作成できます!

電話の応答音声として

コールフローの変更や応答文の変更も即座に対応!自 社で手軽に電話応答音声が作成できます!

観光案内・館内放送用音声として

季節のイベントやお知らせ、案内用音声も手軽に作成できます!

自販機、コインロッカー、駐車場など、各種

機器・装置のガイダンス音声として

製品毎に手軽にガイダンス音声を作成し搭載すること ができます!

AITalk® 声の職人 クラウド版 ご利用開始までの流れ

Step.1 – お問い合わせ

お問い合わせフォームよりお問い合わせください。

Step.2 – AIからご連絡

担当営業より2営業日以内に折り返しご連絡いたします。※ご用途やプランなどをヒアリングさせていただきます。

Step.3 – お申込書ご送付

お申込書をお送りいただきます。

Step.4 – ID・PWご案内

当社よりID・PWを発行しメールにてお送りいたします。

Step.5 – ご利用開始

お申込みプランの内容に基づきご利用を開始頂けます。ご不明な点はお問い合わせください。

価格

単月ミニプラン 単月プラン 年間従量プラン 月・年間最大合成文字数 月間1,000文字まで 月間2,000文字まで 年間12,000文字まで 基本料金(消費税別) 30,000円/月 50,000円/月 360,000円/年 追加料金 30円/1文字 15円/1文字 10円/1文字 ユーザ辞書再登録オプション※1 15,000円/回 15,000円/回 15,000円/回 ※1 リピーター様向けのオプション費用です。ユーザー辞書は契約終了時までに、お客様側でダウンロードおよび次回利用時まで保管いただきます。 ※当サービスで作成した音声ファイルを2次販売(商用目的で配布)する場合には別途ロイヤリティが必要な場合があります。

(18)

AIのクラウド型サービス

主な機能

テキスト文 音声合成変換 単語辞書登録 スピード、ピッチ ボリューム調整 話者指定 クラウドサービス「AICloud」は株式会社エーアイの高品質音声合成エンジン「AITalk」 をクラウドで手軽に利用できるサービスです。

WEBサービスに最適!手軽に高品質な音声合成を利用

WEBサービスなどから、高品質音声合成エンジンAITalk®を SaaS型で利用できるサービスです。自社で音声合成用のServer構 築や運用をする必要がないため、WEBサービスやスマートフォン アプリ、キャンペーン他、様々なサービスで手軽に音声合成を利 用したサービスを開始することができます。

価格(税別)

ミニプラン ベーシックプラン プレミアムプラン 月間最大リクエスト数 300リクエストまで 5000リクエストまで 15000リクエストまで 基本料金(消費税別) 5,000円/月 50,000円/月 100,000円/月 追加料金(*1) 5,000円/200リクエスト 3,000円/250リクエスト 2,000円/300リクエスト 合成文字列上限 500文字/1リクエスト 1000文字/1リクエスト 1000文字/1リクエスト チューニング機能オプション (単語・フレーズ登録機能) 20,000円 20,000円 20,000円 *1:基本合成回数を超えた場合には、追加合成回数に応じて追加料金(別途消費税)が発生します。 *ベーシックプランまたはプレミアムプランご利用期間中に限り、本サービスで作成した音声ファイルを固定音声として再利用することがで きます。 *単語登録機能・イントネーション調整機能は関西弁話者には対応しておりません。ご了承ください。

製品サービスに関するお問合せご相談はこちら

電話による受付

03-6801-8461

受付時間 / 10:00-17:00(土日祝日および当社休業日を除く)

メールによる受付

http://www.ai-j.jp/cloud/contact/

http://www.ai-j.jp/ 〒113-0024 東京都文京区西片1-15-15KDX春日ビル10F 公式Facebookページ https://www.facebook.com/aitalk/ イントネーション調整 ※有料オプション ※有料オプション

(19)

主な機能

クラウドサービス「AICloud」は株式会社エーアイの高品質音声合成エンジン「AITalk」 をクラウドで手軽に利用できるサービスです。

HP読み上げサービス 聴くHPでアクセシビリティアップ!

Webサイトにタグを埋め込むだけで、簡単に今あるWebサイトが音声読 み上げ機能つきのサイトに変わります。利用者はボタンをクリックする だけでサイトの内容を聞くことができ、さらに読み上げのスピードを変 更したり、好みの音声を選択して聞くことができるサービスです。Web サイトのアクセシビリティを手軽に向上させることが可能です。

価格(税別)

・プレーヤーの再生ボタンをクリックすると、Webサイトを読上げます *1 ・ Webサイト読上げの音声を変更することができます ・ Webサイト読上げる音量、話速、声の高さを調整することができます *2 ・一括読上げする範囲を設定することができます ・マウスなどで選択した部分だけを読み上げることができます ・リンクや画像なども読上げるよう設定することができます *1 読上げ言語は日本語のみ対応となっております。ご了承ください。 *2 モバイル、タブレットでは音量を変更することはできません

音声読上げ機能

・読上げ中の文字列をハイライトして表示することができます。 ・読み上げ中の文字列を字幕として表示することができます。 ・文字の大きさは選択することが可能です。 ・再生プレイヤーのデザインを選択することができます。

視覚効果

お電話もしくはお問い合わせフォームよりお問い合わせください。

AITalk® Web読み職人の特徴

人間的で自然、豊富な話者から好みの声で読上げ可能

辞書登録機能を搭載

クラウド型で運用負担なし

男性3名、女性4名、計7名の中から好みの声でWebサイト の読上げができます。 固有名詞や新語など、読み間違いの単語の登録や、フレーズごとのア クセント調整や音量・話速・高さ・抑揚を登録することができます。 クラウド型のサービスなので面倒なServer運用などはありません。 タグを埋め込むだけですぐに利用開始できます。

誰でも簡単に操作可能

パソコンに慣れていない人や年配の人でも安心。再生ボタンを クリックするだけで、今開いているWebページを読上げます。

簡単操作に充実機能

文字の大きさ、読上げスピード、声の高さ、ボリューム、話者など を利用者は簡単操作で好みの設定にすることができます。

ダウンロードなどは不要

導入済みのページであれば面倒なソフトのインストールや ダウンロードは不要です。

Webサイト運用者

Webサイト利用者

参照

関連したドキュメント

人は何者なので︑これをみ心にとめられるのですか︒

チツヂヅに共通する音声条件は,いずれも狭母音の前であることである。だからと

C =>/ 法において式 %3;( のように閾値を設定し て原音付加を行ない,雑音抑圧音声を聞いてみたところ あまり音質の改善がなかった.図 ;

音節の外側に解放されることがない】)。ところがこ

 TV会議やハンズフリー電話においては、音声のスピーカからマイク

Classroom 上で PowerPoint をプレビューした状態だと音声は再生されません。一旦、自分の PC

(4) 現地参加者からの質問は、従来通り講演会場内設置のマイクを使用した音声による質問となり ます。WEB 参加者からの質問は、Zoom

具体音出現パターン パターン パターンからみた パターン からみた からみた音声置換 からみた 音声置換 音声置換の 音声置換 の の考察