AWSのPollyを試してみた

最近、こんな記事がありました。
Amazon PollyでAIアナウンサー、AWS機械学習がじわり浸透
人の代わりにしゃべってくれるアナウンサーっていうのは今後増えていくのでしょうか。
人が足りないから、補うっていうのは有りなのかなとは思いますが。

バーチャル女子アナ「沢村碧」、ソニーが提供開始 原稿を自動読み上げ

AWSのPollyについて

Polly

簡単に言うと、テキストから音声に変換してくれるサービスとなっています。
日本語については、現在女性の声1つとなっていますね。(Mizuki)
また、日本語だけではなく、英語・ロシア語などが発声可能となっています。

料金も、100万文字/4ドルとなっているので、なかなか安いと思います。
※原稿用紙2500枚程度ですね
詳しくは、こちら

テキストから音声に変換するAPIは、synthesizeSpeechとなっています。
細かい仕様は、こちらを参考にしてください。

サンプルソース

accessKeyId、secretAccessKeyは各々のIAMで追加したものを利用してください。

ソースの簡単な解説

synthesizeSpeechの返却値は、バイナリデータとなっています。
そのままでは利用ができないので

上記で、mp3のファイルとして変換して、audioタグに指定できるようにURLに再度変換しています。

play()で設定した音声ファイルが再生されると言った流れです。

声の調整について

PollyはSSMLを採用しています。
音声合成マークアップ言語(SSML)バージョン1.1
タグで声の高さ、速さなど色々細かく設定が可能ということです。

SSMLのわかりやすい説明をしているサイトが合ったのでご紹介
Amazon Pollyで使えるSSMLまとめ

これで、サイト内の文章を読ませたり、合成音声のアプリが作成が簡単に可能となりましたね。

あわせて読みたい

コメントを残す

Translate »
%d人のブロガーが「いいね」をつけました。