音声合成で動画生成を試みた話|・の限界と肉声への回帰音声合成動画

日記

動画コンテンツの制作にあたり、AI音声合成ツールをいくつか試してみた。結論から言うと、現時点では肉声でやっていくことになりそうだ。その経緯をまとめておきたい。

試したAI音声合成ツール

coeiroink

coeiroinkは日本語に特化したAI音声合成ソフトで、キャラクターボイスの生成が得意だ。感情表現が豊かな点は評価できるが、実際に使ってみるとイントネーションが不自然に感じる場面が多く、人間らしい自然な読み上げにはなりにくかった。

fish-speech

fish-speechはオープンソースの音声合成モデルで、多言語対応が強みだ。こちらも試してみたが、やはり機械音声感が強く、ロボットのような硬さがどうしても残ってしまった。日常的な動画のナレーションとして使うには、まだ厳しい印象だ。

AI音声合成の現状と課題

どのツールを試しても共通して感じたのは、以下の課題だ。

  • イントネーションの不自然さ:文章の抑揚が人間の話し方と微妙にズレる
  • 機械音声感:どこか無機質でロボットっぽく聞こえてしまう
  • 感情表現の限界:文脈に合った自然な抑揚をつけるのが難しい

技術的には進歩しているものの、視聴者が「違和感なく聞ける」レベルにするには、まだ調整が必要だと感じた。

もう少し調整を続けてみる

完全に諦めたわけではなく、パラメーターの調整やプロンプトの工夫でどこまで改善できるか、もう少し試してみるつもりだ。ただ現実的な線として、肉声でナレーションを録音する方向も並行して検討している。

肉声のほうが当然ながら自然に聞こえるし、視聴者との距離感も縮まりやすい。動画制作の目標として毎日投稿を目指しているが、AI音声の調整が完了してからでも遅くはないと考えている。

まとめ

  • coeiroink・fish-speechを試したが、機械音声感が強く実用レベルに達しなかった
  • イントネーションの不自然さが最大の課題
  • 引き続き調整を試みつつ、肉声での制作も視野に入れる
  • 調整が完了したら毎日投稿を目指したい

AI音声合成は今後さらに進化していくはずなので、定期的に新しいツールも試しながら最適解を探していきたい。

コメント

タイトルとURLをコピーしました