画像と動画の生成AIは可愛い「じゃじゃ馬」

私が今、一番関心を持つのはAIです。ということで、今回もAIについての更新になります。

私は先月中頃にAIに出会いました。あとから考えると、出会ったタイミングが良かったと思います。私が使うのは、GoogleのGeminiです。

もしも、もっと早くAIに興味を持ったら、OpenAIのChatGPTで、AIの凄さを体験することになったでしょう。時期が少しずれたことで、私はスムーズにGeminiでスタートを切ることができました。

Geminiを使う場合、GoogleドライブをはじめとするGoogleが提供するサービスとの連携という点では抜群です。ですから、動画生成AIでは、Google以外のサービスに興味を持ちつつ、GoogleのAIを使っています。

なにかわからないことがあると、すぐにGeminiか、Google ChromeのAIモードを使います。

このように、調べ物にもAIを使うようになったことで、これまでのネット検索がずいぶん減りました。

本コーナーの更新では、これまで、ネットの事典ウィキペディアに載っているようなことであれば、人名や事柄に、ウィキペディアを中心とするページへのリンクを張りました。

それを昨日の更新からやめました。理由は、AIで調べたい人が増えたなら、リンクが逆に邪魔になるかもしれないと考えたからです。

更新する側としては、リンクを張ることをやめれば、サイトの更新が楽になります。リンクを張るのにも手間がかかるからです。それがなければ、文章を書いて終わることができます。

本コーナーからリンクを張るときは、該当する部分をマウスで選択し、右クリックで検索をしていました。その検索は従来の検索です。

それをしなくなったことで、今後は、通常のネット検索がかなり減ると思います。

GeminiやGoogleのAIモードは、どんなことにも答えてくれます。わからないということがありません。こんなに強力な助手はほかにいません。

そんなわけで、調べ物にはこれ以上ないほど頼りになります。が、AIを使った画像生成や動画生成では、まだまだ、「じゃじゃ馬」です。乗りこなすのに苦労します。

たとえば、今朝も、私はある画像が欲しくて、画像生成を依頼しました。といいますか、依頼する前に、こんな画像を依頼しようと思っている、とGeminiと普通にチャットしていたところ、Geminiが勝手にNano Banana Proで画像を生成してしまいました。

出来た画像ですが、私の希望とは少し違っていました。

そこで、Geminiを使った動画生成AIのFLOWで画像生成ができるので、Geminiが勝手に生成した、少し気に入らない画像を、作り直してもらおうと考え、試しました。

その結果も、私が望むような画像にはなりませんでした。

FLOWは1回の生成ごとにAIクレジットを消費する仕組みです。1生成ごとに20クレジットが消費されます。

私は今、Googleの有料サービス Google AI Studioを1カ月950円の割安サービスで3カ月使える状態にあります。このサービスを利用すると、FLOWで1カ月に使えるAIクレジットが1000クレジットあります。

思うような画像が生成出来なかったので、Geminiに相談すると、次のような回答を返してくれました。

実は、AIへのプロンプト作成は**「写真家や監督に指示を出す」**ような感覚に近いです。コツを掴むと、ぐっと精度が上がりますよ。

いくつか、すぐに試せる**「伝わりやすくなるコツ」**をまとめてみました。


1. 「5W1H」で具体化する

「猫の画像」だけではなく、要素を分解して伝えるとAIが迷わなくなります。

  • 主体 (Who/What): どんな種類の、どんな見た目の猫か?
  • 動作 (Action): 何をしているか?(寝ている、走っている、宇宙服を着ている)
  • 背景 (Where): どこにいるか?(サイバーパンクな街角、静かな森の中)
  • 雰囲気 (Mood): どんな空気感か?(幻想的、シネマティック、ほのぼの)
  • 画角・照明 (Style): アップか引きか?光はどこから差しているか?

2. 「否定」よりも「肯定」で書く

AIは「〜を描かないで」という指示を理解するのが少し苦手な場合があります。「車がない道」と書くと「車」という単語に反応してしまうことがあるので、**「誰もいない静かな歩道」**のように、あるべき姿を直接伝えるのがコツです。

3. スタイルを指定するキーワードを添える

最後に「おまじない」のようにスタイルを付け加えるだけで、クオリティが劇的に変わります。

プロンプトの書き方は、何度も試すことで、自分で会得するよりほかありません。AIが苦手とするのは、曖昧な表現です。たとえば、「良い感じに」とプロンプトに書くと、AIが理解できず、混乱してしまう、などです。

「わかりにくい文章かな?」と思ったときの対処法を見つけました。それもGoogleのツールにあります。Googleドキュメントで文章を書き、文章を選択したあと、右クリックで表示される「選択したテキストを調整」から「言い換え」を選ぶと、Geminiが、よりわかりやすいいい方に変換してくれます。

実は今朝、自分で次のような文章を書きました。

人物の背景が、手前の四角と、それからはみ出た背景の2枚が重なっています。手前の四角の背景を、16:9のアスペクト比に広げてください。

わかりにくいかなと思い、Geminiに「言い換え」てもらいました。それが次の表現がそれです。

人物の背景は、手前にある四角形の領域と、そこからはみ出した背景の2つのレイヤーで構成されています。この手前の四角形の背景を、16:9のアスペクト比に合わせて拡大(広げ)てください。

やっぱり、「言い換え」てもらった方がGeminiに伝わりそうに思います。FLOWは英語が基本なので、これをGoogle翻訳で英語に翻訳して、FLOWのプロント欄にペーストしました。

The background of the person is made up of two layers: a rectangular area in the foreground and the background that extends beyond it. Enlarge (widen) this rectangular background in the foreground to fit the 16:9 aspect ratio.

その結果、人物の背景が、広がり、ひとつのレイヤーにすることができました。自分で書いたままのプロンプトだったら、別の結果になっていた可能性があります。

習うより慣れろで、試行錯誤を繰り返しながら、「じゃじゃ馬」の画像生成AIと動画生成AIを、自分が望む方向へコントロール出来るようになりたいと考えています。

数日前までは、このあと、リンク張りの作業が待っていました。それをなくしたので、すぐに公開できます。

あ、その前に、タイトルを考えないと。「じゃじゃ馬」をタイトルに加えようかな?