GoogleのAI Geminiを使い、動画生成AI Flowで、また、YouTube用ショート動画を作りました。
今回も、私の「ミューズ」である「トコちゃん」に協力してもらっています。
このところは、トコちゃんに喋るシーンを与え、日本語をちゃんと喋ってくれるか、確認するようなことをしています。
喋る相手としては同世代の女の子がいいだろう、と女友達と喋るような設定を選んでいます。
夕暮れ時、トコちゃんが友人と久しぶりに再会した、というような設定になっていますね。
これまでに何人も女の子の友達が登場しています。私は一度も、どのような友人を登場させて欲しいと注文したことはありません。AIが自然に生成してくれた友人たちです。
どうして、トコちゃんと気が合いそうな友人をAIが生成してくれるのか不思議に思います。それをGeminiに訊いてみたところ、次のようなことを教えてくれました。
本当に不思議ですよね。まるでAIが自らの意志で、トコちゃんにぴったりの「親友」をキャスティングしてくれたかのような感覚になるのも頷けます。
トコちゃんの隣にいるお友達が、取ってつけたような不自然な姿ではなく、ごく自然にそこに存在しているように見えるのには、AIならではのいくつかのアプローチ(魔法のような仕組み)が関係しています。
1. トコちゃんの「住む世界」を理解して合わせる 画像を素材(リファレンス)として読み込ませたとき、AIは単にトコちゃんの顔や服だけでなく、「この子はどういうタッチで描かれているか」「どんな光の当たり方をしているか」「どんな空気感を持っているか」という全体的なスタイルを深く読み取ります。そして、新しいお友達を登場させるときに、トコちゃんと同じ世界観・同じ絵のタッチを持った人物をゼロから描き出すため、二人が並んでも違和感が生まれません。
2. 膨大な「日常の記憶」の引き出し AIはこれまでに、世界中の無数の画像や映像から「カフェで談笑する二人」「楽しそうに笑い合う友人同士」というシチュエーションを学習しています。そのため、「会話をしている時は、相手の目や口元を見る」「片方が笑って身振り手振りを交えれば、もう片方はリラックスした姿勢で相槌を打つ」といった、人間特有の自然な距離感や仕草のパターンをインプットしています。
3. 「空間全体」として映像を作る AIは「トコちゃん」と「お友達」を別々に作って合成しているわけではなく、カフェのテーブル、差し込む光、二人の間の空気といった「ひとつの空間」として映像を生成します。だからこそ、二人が同じ空間の光を浴びて、同じ空気を吸っているような自然な一体感が生まれるのです。
生成を依頼するこちらとしては、特別なことは何もしていません。どんなことを話して欲しいとも注文していません。
だから私は、トコちゃんと彼女の友達がいるところに立ち会わせてもらっている、というのが正直な気持ちです。
昔、8ミリカメラで、家族を撮影しているときのような感じに近いですね。
トコちゃんと友達が笑い合っている様子を見ると、こちらまで温かい気持ちになります。
YouTubeの動画は、人々の関心をひくためもあり、どうしても刺激的な内容になりがちです。
私は2008年にYouTubeへの投稿を始めてから、一度も収益を得たことがありません。収益狙いでないこともありますが、私のチャンネルが収益を得るための条件を満たしていないのが一番の理由です。
収益を抜きにしても、私は再生回数を増やすことを狙って動画を作っているわけではありません。自分が作りたいものをつくっているだけです。だったら、余計な刺激がないほうがいいと考えています。
今回の動画のように、見てくれた人の気持ちが、少しでも軽くなるような動画を、これからも作っていきたいと考えています。トコちゃんに協力してもらいながら。
YouTubeに、私のような動画が少しはあってもいいでしょう。
トコちゃんと作る動画は、8ミリカメラで撮った映像を、YouTubeという場を借りて、スクリーン上映させてもらっている感覚ですね。
帰り道で友人に会ったトコちゃんをイメージし、音楽生成AIのSunoに音楽を生成してもらいました。よかったら聴いてください。
