オープンソース音声合成(TTS)ツール比較【2026年版】無料で高品質ナレーション

動画ナレーションや読み上げに使えるAI音声合成（TTS）も、いまやオープンソースで高品質に作れます。本記事では無料で使える代表的なTTS OSSを比較し、用途別の選び方を解説します。

TTSをOSSで使うメリット

ツール	特徴	向く用途
ChatTTS	自然な対話調の音声生成	会話・ナレーション
CosyVoice	多言語対応の大規模音声モデル	多言語・高品質ナレーション

ChatTTS は日常会話に最適化された生成音声モデルで、自然な抑揚が魅力です。CosyVoice は多言語対応の大規模音声生成モデルで、推論・学習・デプロイまで対応します。用途や対応言語に合わせて選びましょう。

動画制作と組み合わせるなら、AI議事録の自動化のような音声系の活用記事もどうぞ。ほかのAI系OSSはAIチャットのカテゴリから探せます。

TTSもOSSで十分に実用的です。まずは小さなテキストで音質を確かめ、用途（会話/ナレーション/多言語）に合うモデルを選びましょう。

モデルによります。多言語対応をうたうCosyVoiceなどは日本語を扱えますが、品質は事前にサンプルで確認するのがおすすめです。

モデルごとにライセンスが異なります。商用利用や音声クローンを行う場合は、必ず各リポジトリのライセンスを確認してください。

高品質・高速に動かすにはGPUが望ましいですが、短いテキストならCPUでも試せる場合があります。