音声合成に関して色々やってみる


テキストを投げるとWAVが帰ってくるAPIを作りたい。

サービスとしてはいくつかあってDocomoは使いやすかった。

こういうのは制限もあるので自分で作ってみたい。

 

Lambdaでお試し

慣れてるし、他にいいのも思いつかないのでAWSを使う。

LambdaでテキストからWAVを作る処理を書いてトリガーでAPIを指定する。

Lambdaで実行ファイルを起動したいときは次みたいな処理をはさむ。

 

ためしにAquesTalkPiがLambdaで動かないかなと思ったけど無理だった。

 

音声合成ソフトについて

次に音声合成ソフトを色々調べてみた。

  • 組み込み用
    • AquesTalk,AquesTalk2:アクエスト規約に従う。
    • OpenJTalk:修正BSDライセンス。
  • フリーソフト(実行ファイル)
    • softalk(ソフトーク):Windows向け。Aquestalk使用でアクエスト規約に従う必要あり。
    • textalk(テキストーク):Windows向け。OpenJTalk使用。
    • AquesTalkPi:ラズベリーパイ向け。アクエスト規約に従う必要あり。

 

実行ファイルは基本Winbdows向けだし、いろいろ自由に使うためにOpenJTalk使って自分で実行ファイル作ることにする。

 

他にもnodejsのモジュールが2つ見つかったけど、やりたいことと微妙に違ったのとEC2でインストールできなかったのでこれらはいったん保留。

 

OpenJTalkのインストール

とりあえずWindowsにインストールしてみる。

ここを参考にした。

Open JTalkをWindowsでビルドして動かしてみる - 真実の楽譜(フルスコア)
オープンソースの日本語の音声合成エンジンOpen JTalk Open JTalk - HMM-based Text-to-Speech System 日本語合成エンジンなのに公式解説は英語だらけだし、 Windowsに...

Visual Studio 2015にVcvarsall.batがなかったので2013を追加インストール。

2015のときも思ったけど西暦よりバージョンが1少ないのは紛らわしい。

(今回はMicrosoft Visual Studio 12.0に配置された。)

 

これでWindows上で動作するようになりました。

今日はとりあえずここまで。

ここから先が果てしなく長そう…。


コメントを残す

メールアドレスが公開されることはありません。