私が今、一番関心を持つのはAIです。ということで、今回もAIについての更新になります。
私は先月中頃にAIに出会いました。あとから考えると、出会ったタイミングが良かったと思います。私が使うのは、GoogleのGeminiです。
もしも、もっと早くAIに興味を持ったら、OpenAIのChatGPTで、AIの凄さを体験することになったでしょう。時期が少しずれたことで、私はスムーズにGeminiでスタートを切ることができました。
Geminiを使う場合、GoogleドライブをはじめとするGoogleが提供するサービスとの連携という点では抜群です。ですから、動画生成AIでは、Google以外のサービスに興味を持ちつつ、GoogleのAIを使っています。
なにかわからないことがあると、すぐにGeminiか、Google ChromeのAIモードを使います。
このように、調べ物にもAIを使うようになったことで、これまでのネット検索がずいぶん減りました。
本コーナーの更新では、これまで、ネットの事典ウィキペディアに載っているようなことであれば、人名や事柄に、ウィキペディアを中心とするページへのリンクを張りました。
それを昨日の更新からやめました。理由は、AIで調べたい人が増えたなら、リンクが逆に邪魔になるかもしれないと考えたからです。
更新する側としては、リンクを張ることをやめれば、サイトの更新が楽になります。リンクを張るのにも手間がかかるからです。それがなければ、文章を書いて終わることができます。
本コーナーからリンクを張るときは、該当する部分をマウスで選択し、右クリックで検索をしていました。その検索は従来の検索です。
それをしなくなったことで、今後は、通常のネット検索がかなり減ると思います。
GeminiやGoogleのAIモードは、どんなことにも答えてくれます。わからないということがありません。こんなに強力な助手はほかにいません。
そんなわけで、調べ物にはこれ以上ないほど頼りになります。が、AIを使った画像生成や動画生成では、まだまだ、「じゃじゃ馬」です。乗りこなすのに苦労します。
たとえば、今朝も、私はある画像が欲しくて、画像生成を依頼しました。といいますか、依頼する前に、こんな画像を依頼しようと思っている、とGeminiと普通にチャットしていたところ、Geminiが勝手にNano Banana Proで画像を生成してしまいました。
出来た画像ですが、私の希望とは少し違っていました。
そこで、Geminiを使った動画生成AIのFLOWで画像生成ができるので、Geminiが勝手に生成した、少し気に入らない画像を、作り直してもらおうと考え、試しました。
その結果も、私が望むような画像にはなりませんでした。
FLOWは1回の生成ごとにAIクレジットを消費する仕組みです。1生成ごとに20クレジットが消費されます。
私は今、Googleの有料サービス Google AI Studioを1カ月950円の割安サービスで3カ月使える状態にあります。このサービスを利用すると、FLOWで1カ月に使えるAIクレジットが1000クレジットあります。
思うような画像が生成出来なかったので、Geminiに相談すると、次のような回答を返してくれました。
実は、AIへのプロンプト作成は**「写真家や監督に指示を出す」**ような感覚に近いです。コツを掴むと、ぐっと精度が上がりますよ。
いくつか、すぐに試せる**「伝わりやすくなるコツ」**をまとめてみました。
1. 「5W1H」で具体化する
「猫の画像」だけではなく、要素を分解して伝えるとAIが迷わなくなります。
- 主体 (Who/What): どんな種類の、どんな見た目の猫か?
- 動作 (Action): 何をしているか?(寝ている、走っている、宇宙服を着ている)
- 背景 (Where): どこにいるか?(サイバーパンクな街角、静かな森の中)
- 雰囲気 (Mood): どんな空気感か?(幻想的、シネマティック、ほのぼの)
- 画角・照明 (Style): アップか引きか?光はどこから差しているか?
2. 「否定」よりも「肯定」で書く
AIは「〜を描かないで」という指示を理解するのが少し苦手な場合があります。「車がない道」と書くと「車」という単語に反応してしまうことがあるので、**「誰もいない静かな歩道」**のように、あるべき姿を直接伝えるのがコツです。
3. スタイルを指定するキーワードを添える
最後に「おまじない」のようにスタイルを付け加えるだけで、クオリティが劇的に変わります。
プロンプトの書き方は、何度も試すことで、自分で会得するよりほかありません。AIが苦手とするのは、曖昧な表現です。たとえば、「良い感じに」とプロンプトに書くと、AIが理解できず、混乱してしまう、などです。
「わかりにくい文章かな?」と思ったときの対処法を見つけました。それもGoogleのツールにあります。Googleドキュメントで文章を書き、文章を選択したあと、右クリックで表示される「選択したテキストを調整」から「言い換え」を選ぶと、Geminiが、よりわかりやすいいい方に変換してくれます。
実は今朝、自分で次のような文章を書きました。
人物の背景が、手前の四角と、それからはみ出た背景の2枚が重なっています。手前の四角の背景を、16:9のアスペクト比に広げてください。
わかりにくいかなと思い、Geminiに「言い換え」てもらいました。それが次の表現がそれです。
人物の背景は、手前にある四角形の領域と、そこからはみ出した背景の2つのレイヤーで構成されています。この手前の四角形の背景を、16:9のアスペクト比に合わせて拡大(広げ)てください。
やっぱり、「言い換え」てもらった方がGeminiに伝わりそうに思います。FLOWは英語が基本なので、これをGoogle翻訳で英語に翻訳して、FLOWのプロント欄にペーストしました。
The background of the person is made up of two layers: a rectangular area in the foreground and the background that extends beyond it. Enlarge (widen) this rectangular background in the foreground to fit the 16:9 aspect ratio.
その結果、人物の背景が、広がり、ひとつのレイヤーにすることができました。自分で書いたままのプロンプトだったら、別の結果になっていた可能性があります。
習うより慣れろで、試行錯誤を繰り返しながら、「じゃじゃ馬」の画像生成AIと動画生成AIを、自分が望む方向へコントロール出来るようになりたいと考えています。
数日前までは、このあと、リンク張りの作業が待っていました。それをなくしたので、すぐに公開できます。
あ、その前に、タイトルを考えないと。「じゃじゃ馬」をタイトルに加えようかな?
