TTSをAPIとして仕様する際の仕様やテクニックについてまとめております。

最後までお読みいただいてから、APIをお使いいただけますと幸いです。

まずは非常に簡易的にAPIを作成したため、3日ごとにAPIのパスが変わります。3日ごとに更新されたURLを送りさせていただきます。

環境構築

Python環境内に以下をインストールしてください。

pip install gradio_client

APIの仕様

from gradio_client import Client

client = Client(
		"<https://de9ae27951cc5b9f99.gradio.live/>",
    download_files="./path_to_dir" # 音声保存用ディレクトリを指定してください
)

result = client.predict(
		text="こんにちは!", # 文字列形式で、任意のテキストを入力してください
		spk_id="female_tsukuyomi", # 文字列形式で、話者idを指定してください
		api_name="/TTS" # 固定
)
print(result) # 保存先のパスが表示されます

text

任意の日本語文字列を指定できます。テクニックとして、主に以下が挙げられます。

また、弊社TTSの特徴として、「文章から感情を自動で推定し、読み上げてくれる」特徴があります。いくつか例を挙げます。

嬉しい感情を含む文章を入れた場合

入力文章

話者

出力音声

_tmp_gradio_4f70ab27d0f6473786995bae8414219f861140a5_tmpzwzvfwxw.wav