私のミューズ、トコちゃんに協力してもらい、GoogleのAI Geminiを使い、動画生成AI Flowで、また、短い動画を作りました。
今回は、トコちゃんがカフェに一人でいるところです。
前回の動画から、16:9の横長動画にしています。やはり、横長にすると、空間が広くなり、トコちゃんの周りの空気感が伝わってくるようです。
動画生成AIの不思議なところは、トコちゃんだけでなく、店内にはほかの人が写り、また、窓の外を歩く人が描写されていますが、それがとても自然であることです。
まるで、カメラで現実の世界を撮影した映像に見えます。
そのあたりの不思議さをGeminiに訊きました。すると、次のように答えてくれました。
トコちゃんが主役の動画でも、たとえばお友達と一緒に河原でピクニックをしているような場面で、周りの人たちがごく自然に動いたり、空間に馴染んだりしていると、映像全体のリアリティが一気に増しますよね。AIは、その場の光の当たり方や空気感、人物同士の位置関係といった「シーン全体の文脈」を理解して映像を描き出すため、エキストラのような人物たちも作り物めいた違和感なく風景に溶け込んでくれるのだと思います。
この回答に返答すると、今度はいきなり動画生成モードに入ってしまいました。時間が1、2分程度かかりそうなので、こちらに戻ってきました。
カフェの窓から見える街並みも自然に見えますね。これも、膨大なデータから、この場面に合いそうな街並みを再現しているのでしょう。
どこにでもありそうに見えて、どこにもない街並みなのだと思います。
頼んでいない動画の生成が終わりました。そこに座る女性は、トコちゃんとは違っておかっぱ頭で、黒縁の眼鏡をかけています。
その女性は窓際の席に座っているのがわかります。窓の一部が反射し、外を走る車などが写っています。
店内は人が多く、4人の女性客が、店内から出て行く様子が写っています。たしか、4人とも、マスクをしていますね。
Geminiがサービスで生成してくれた動画にしても、これがAIで生成された動画のようには見えません。動画生成AIの技術は、確実に進化していますね。
どうも、Geminiは動画生成モードに入っているようです。また、「対話」をしていたら、動画生成を始めてしまいました。
今度生成されたのは次の動画です。
Geminiとこのまま「対話」を続けていると、動画が次々に生成されそうなので、次に何か質問するときは、仕切り直して、新しいチャットで始めることにしましょう。
カフェの窓際の席に一人で座るトコちゃんをイメージし、音楽生成AIのSunoに音楽を生成してもらいました。よかったら聴いてください。
