画像から人が喋る映像を生成してくれる「D-ID」だが、イラストを元にすると失敗しやすい。
例えばこのイラストを使おうとしたが、何度試してもダメだった。
色合いが悪いと思い、こっちのイラストにしてみた が・・・・・駄目..!!!
「顔が上手く認識できないのが悪いんだ」と思った。
今後の編集のために背景を単色で塗りつぶし、服も塗りつぶしたものの、それでも失敗した…
というわけでどうやら、採用する顔の画像は正面で、できれば無表情であることが理想であるようだ。
プロンプトを書き換えていこう。
どうやら ”front facing,looking at camera“の2つを追加すると、上手くいきそうな形になった。