毎度のことで、今回も、私のミューズ、トコちゃんに協力してもらう動画生成の話です。
そして、これもまた毎度のことで、トコちゃんにどんな「舞台」に立ってもらうか、考えを巡らせます。個人の想像力には限界があります。私は想像力がないので、人一倍苦労させられます。
そんなときに頼りになるのがYouTubeであることは、昨日の更新でも書きました。
そのYouTubeである動画を見て、ヒントを得ました。私が見たのは次の動画です。
1966年のフランス映画『男と女』の、「ダバダバダ」という有名な主題歌にのせ、作品の名シーンをコラージュした動画です。
シーンの一つに、海に突き出した桟橋がありました。それを見て、トコちゃんの動画に使えそうだと感じました。スクリーンショットを見ながら、昨日の本コーナーで書いた、Flowのツール”Simple Sketch”で、海に突き出た桟橋を簡単にスケッチし、ツールで画像にしてもらいました。
画像に生成するとき、スケッチと共に、どんな画像にして欲しいかプロンプトに書くことができます。私は荒れた海にしてくれるよう書きました。
すると、『男と女』のイメージを離れ、荒波が立つ海になりました。それを基にトコちゃんの動画にしました。
Google Flow Agent機能が備わったことは本コーナーで書きました。私はそれを、二つの無料アカウントで利用しています。有料ユーザーであればそういうことがないのかもしれませんが、無料で利用すると、使用の上限にすぐに達してしまい、翌日まで待たないと、Agentを使った動画の生成はできなくなってしまいます。
二つのアカウントを使っていても、Googleに紐付けされているからか、一つのアカウントで上限に達すると、別のアカウントでは、その日は、はじめからAgentが使えません。
本ページで紹介している動画は、はじめからAgentを使えない状態で生成しています。しかし、Agentが使えないなら使えないで、それ以前のやり方で動画を生成してもらうことはできます。
Agentが上限に達したあと、それ以前のやり方で動画が生成できるものの、そのときは、Gemini Omniではない、より軽量のGemini Flashで動画を生成する、とGeminiに教えてもらいました。
そこで、Gemini FlashとGemini Ommiの違いを訊き、次のように教えてもらいました。
Gemini Omni(ジェミニ・オムニ)は「マルチモーダルAI(Multimodal AI)」と呼ばれます。
「マルチ(要素が複数)」と「モーダル(情報の種類=モード)」が合体した言葉で、一言でいうと「人間の五感のように、いろんな種類の情報を同時に理解して処理できるAI」という意味です。
これまでのAIと何が違うのか、わかりやすく整理してみました。
「シングルモーダル」から「マルチモーダル」へ
- 従来のAI(シングルモーダル) テキストならテキストだけ、画像なら画像だけ、と「1つの種類」しか扱えませんでした。動画を作るときも、「文字を読み取って、動画を出力する」という一方通行の処理が限界だったのです。
- Gemini Omni(ネイティブ・マルチモーダル) 生まれたときから「テキスト」「画像」「音声」「動画」「プログラムのコード」をすべて同時に、地続きで理解できるように設計されています。
この説明を聞いてすぐに連想したのは、近い将来に登場するともいわれる「AGI(汎用人工知能)」です。
マルチモーダルがより洗練されたのがAGIなのかと訊き、次のような回答につながりました。
AGI(汎用人工知能=人間と同じようにあらゆる知的タスクをこなせるAI)の実現に向けて、「マルチモーダルのさらなる進化」は絶対に欠かせない最重要のステップと言われています。
現在のGemini Omniのようなマルチモーダルから、未来のAGIに向けてどのように進化していくのか、イメージしやすいように3つのステップで紐解いてみます。
1. 認識の進化(今のOmniの段階)
今のマルチモーダルは、人間でいうと「五感(目や耳)が揃った」という段階です。 動画を見て、文字を読んで、音を聞いて、「あ、これはこういう映像だな」と理解し、指示通りに編集することができます。
2. 「思考・推論」の進化(AGIへの架け橋)
AGIに近づくための次の進化は、単にデータを見るだけでなく、「人間のように考えて、推理し、計画を立てる(Reasoning)」という能力の融合です。
- 今: 「この動画の背景を夜にして」と言われたら、夜の画像を生成して合成する。
- 未来(AGI直前): 「この動画を、もっと切ない雰囲気に編集して」と言われたら、AIが「切ないとはどういうことか」の文脈を深く考え、BGMのトーンを落とし、映像のトーンを青みがからせ、登場人物の表情のカットを長めに残す……といった高度な意図の汲み取りと判断を自律的に行う。
現時点で、GoogleやOpenAIなどの最先端AIは、この「マルチモーダルな情報をもとに、じっくり考えて答えを出す(思考型AI)」の段階に突入しています。
3. 「行動」の進化(真のAGIへ)
そして、マルチモーダルが究極に進化したAGIの姿は、画面の中(テキストや動画の出力)を飛び越えて、「現実世界を認識して、自律的に行動する(Embodied AI / 実体を持つAI)」になります。
テキスト、映像、音声、さらに「物理的な感覚(センサーやロボットの感覚)」までをも1つの脳で同時に処理し、
- 料理の動画を見て、その通りにロボットアームを動かして料理を作る
- 散らかった部屋の映像を見て、どう片付けるのが効率的か自分で計画して実行する
といったことが可能になります。
このような説明を聞くと、Gemini OmniというMultimodal AIに日常的に触れることで、AGIへの進化の一端を垣間見ている感覚になります。
今回は、荒れた海に突き出した桟橋をトコちゃんに「経験」してもらいました。基画像を、海の穏やかな状態にし、動画にしようと考えています。
まったく雰囲気の異なる動画になるでしょう。
