画像から人が喋る映像を生成してくれる「D-ID」だが、イラストを元にすると失敗しやすい。

例えばこのイラストを使おうとしたが、何度試してもダメだった。

色合いが悪いと思い、こっちのイラストにしてみた が・・・・・駄目..!!!

「顔が上手く認識できないのが悪いんだ」と思った。
今後の編集のために背景を単色で塗りつぶし、服も塗りつぶしたものの、それでも失敗した…

というわけでどうやら、採用する顔の画像は正面で、できれば無表情であることが理想であるようだ。
プロンプトを書き換えていこう。

どうやら ”front facing,looking at camera“の2つを追加すると、上手くいきそうな形になった。
