音声合成で動画生成を試みた話｜・の限界と肉声への回帰音声合成動画

日記

2026.04.25

動画コンテンツの制作にあたり、AI音声合成ツールをいくつか試してみた。結論から言うと、現時点では肉声でやっていくことになりそうだ。その経緯をまとめておきたい。

試したAI音声合成ツール

coeiroinkは日本語に特化したAI音声合成ソフトで、キャラクターボイスの生成が得意だ。感情表現が豊かな点は評価できるが、実際に使ってみるとイントネーションが不自然に感じる場面が多く、人間らしい自然な読み上げにはなりにくかった。

fish-speechはオープンソースの音声合成モデルで、多言語対応が強みだ。こちらも試してみたが、やはり機械音声感が強く、ロボットのような硬さがどうしても残ってしまった。日常的な動画のナレーションとして使うには、まだ厳しい印象だ。

どのツールを試しても共通して感じたのは、以下の課題だ。

技術的には進歩しているものの、視聴者が「違和感なく聞ける」レベルにするには、まだ調整が必要だと感じた。

完全に諦めたわけではなく、パラメーターの調整やプロンプトの工夫でどこまで改善できるか、もう少し試してみるつもりだ。ただ現実的な線として、肉声でナレーションを録音する方向も並行して検討している。

肉声のほうが当然ながら自然に聞こえるし、視聴者との距離感も縮まりやすい。動画制作の目標として毎日投稿を目指しているが、AI音声の調整が完了してからでも遅くはないと考えている。

AI音声合成は今後さらに進化していくはずなので、定期的に新しいツールも試しながら最適解を探していきたい。