文章生成AIの仕組み – インディの鞭　日々の独り言

生成AI（生成的人工知能）の能力の高さに気づいたことで、その個人的な利用に夢中となっています。

昨日は、画像生成AIのNano Banana Proの生成原理について、Googleの人工知能（AI）、Geminiに訊きました。

Geminiに訊く前、私は穿った見方をしていました。AIが画像生成ができるといっても、何もないところから画像を作れることはないだろう。だから、結局のところ、膨大に蓄積する画像データから、注文に見合うような画像を「検索」して提示してくれるだけではないのか？　と。

画像生成してもらうつもりが実体が「画像検索」だとしたら…（訂正あり）

しかし私のこの邪推は、事実とはかけ離れていることをGeminiに教えてもらいました。

私が想像したように、画像を何もないところから生成しているわけではないことはわかりました。しかし、「検索」によって、画像を選ぶだけというのは見当違いです。

砂嵐のテレビ画面から始まり、ノイズを少しずつ減らすようにして、画像が生成されるイメージです。この回答を得たことで、私は、自分が油絵具で描いた女性の簡単な肖像画をNano Banana Proに画像生成してもらうことにしました。

そのあと、Geniminiから離れ、別のAIサービスを利用して、生成された画像から、5秒間の動画を生成してもらいました。

基の画像は、私が描いた油彩画です。それを、画像生成AIのNano Banana Proを介して、GoogleのAI、Geminiで、生身の人間の写真のように生成してもらっています。その画像から、本動画の作成をしました。

Nano Bananaの画像生成能力に圧倒された

この一連のことを自分で試し、その能力の高さを理解したことで、生成AIに無限の可能性を感じています。

本コーナーで取り上げるのは、「文章生成AI」です。

文章を生成する場合も、画像生成の原理と同じなのか、それとも違うのか、Genimiに次のような質問をしました。

AIを使った文章生成について訊かせて下さい。昨日は画像生成AIの原理のようなものを教えてもらいました。教えてもらうまで、私は、膨大なデータから要求に近い画像を「検索」するのかと考えていましたが、事実が全く違うことを理解しました。霧の中から像が現れるようなイメージということでしょう。文章の場合はどうでしょうか。文章も同じように、何も映っていないテレビ画面に、次第に文章が現れてくるようなイメージと考えていいのでしょうか。新聞社などは、自社の記事が無断で使われると考え、著作権問題に敏感になっているように感じます。基の記事をそのまま引用するのではなく、得た知識をもう一度咀嚼して文章にするのであれば、記事の転用にはならないように考えます。このあたりのことを教えてください。

この質問に対するGeminiの回答を共有します。

昨日は画像生成AI（拡散モデル）の仕組みについてお話ししましたね。「ノイズの霧の中から像が浮かび上がる」という比喩をしっかり掴んでいただけて嬉しいです。

文章生成（ChatGPTなどの言語モデル）の場合、実は画像生成とは少し異なるプロセスで動いています。結論から言うと、テレビの砂嵐から像が出るというよりは、**「究極のしりとり」あるいは「超高性能な予測打ち込み」**というイメージが近いです。

1. 文章生成AIの仕組み：次はどの言葉が来る？

文章生成AIは、画像のように全体を少しずつ鮮明にするのではなく、**「単語（厳密にはトークンと呼ばれる断片）を一つずつ、確率的に選んでつなげていく」**という方法をとっています。

仕組みのイメージ

文脈を理解する： あなたが入力した質問（プロンプト）を読み、その文脈で「次に続くのが最も自然な単語」を計算します。

確率で選ぶ： 例えば「昔々、あるところに」という文の次に来る言葉を、膨大なデータから「おじいさんが（60%）」「お姫様が（20%）」「不思議な（10%）…」といった具合に確率で弾き出します。

一文字ずつ紡ぐ： その中から一つを選び、次は「おじいさんと（次に来る確率が高い言葉）」、その次は「おばあさんが」……と、一語ずつ順番に決定していきます。

画像生成が「空間」を埋めていく作業だとしたら、文章生成は**「時間（順番）」を追って積み上げていく作業**と言えます。

2. 「咀嚼」と「著作権」の難しい関係

ご質問にある「元の記事をそのまま引用せず、得た知識を咀嚼して文章にするのであれば、転用にならないのではないか」という点は、まさに現在、世界中で議論されている著作権の核心部分です。

新聞社などが敏感になっている理由は、主に2つの側面があります。

A. 学習段階の問題（「勝手に教科書にされた」）

AIが「咀嚼」できるようになるためには、膨大な過去の記事を読み込ませる必要があります。新聞社からすれば、**「自分たちが多額のコストをかけて取材・執筆した記事を、AI企業が無断で（無料で）AIのトレーニング素材として使っている」**という点に納得がいかないわけです。これは「出力結果が似ているか」以前の、データの利用許諾の問題です。

B. 出力段階の問題（「要約が記事の価値を奪う」）

AIが元の記事を完璧に「咀嚼」して、別の言葉で要約したとします。一見、新しい文章に見えますが、読者がその要約を読んで満足してしまい、元のニュースサイトをクリックしなくなれば、新聞社の広告収入や購読料は失われます。

事実の抽出： 事実（ニュース）そのものに著作権はありません。

表現の類似： AIが咀嚼したつもりが、元の特徴的な表現や構成をそのまま再現してしまう（「丸暗記」による吐き出し）ことがあり、これが著作権侵害のリスクとなります。

ポイント：

人間が本を読んで知識を得るのと、AIが数兆語のデータを処理するのは、法的に「同じ『学習』とみなすべきか、それとも『データの搾取』か」という点で、今まさに裁判や法整備が進んでいる最中です。

3. 画像と文章、ここが違う

昨日の画像生成の話と比較すると、以下のような違いになります。

特徴 画像生成AI 文章生成AI
生成方法 霧（ノイズ）を徐々に取り除く次に来る言葉を一つずつ予測する
完成までの流れ 全体がぼんやり→はっきり文頭から順に1語ずつ現れる
著作権の懸念 画風や特定のキャラクターの模倣情報の無断学習、記事の要約による代替

文章AIは、まるで**「世界中の本を読破した、ものすごく物知りの執筆アシスタント」**が、あなたの問いかけに対してその場で考えながら（確率的に）一文字ずつペンを走らせているような状態です。

特徴	画像生成AI	文章生成AI
生成方法	霧（ノイズ）を徐々に取り除く	次に来る言葉を一つずつ予測する
完成までの流れ	全体がぼんやり→はっきり	文頭から順に1語ずつ現れる
著作権の懸念	画風や特定のキャラクターの模倣	情報の無断学習、記事の要約による代替

回答の冒頭部分にある「究極のしりとり」というのが印象的です。この表現が、文章生成AIを理解するポイントとなりそうです。

AIを動かしているのは、超高速に処理できる「計算機」のようなものなのでしょう。だから、AIは「計算」をするのが得意ということです。

この能力を遺憾なく使い、単語を「トークン」と呼ばれる断片として扱い、それを、数千次元の巨大な「意味の地図」に当てはめていく計算をしていることになります。これは「単語埋め込み（Embedding）」と呼ばれるそうです。

人間が質問する内容によってそのサイズは変わりますが、その地図に、単語をトークンというひとつの「ピース」として扱い、一枚のジグソーパズルの地図に、それを適当な座標に埋め込んで完成させるイメージとなりましょうか？

文章は画像の生成に比べ、単語そのものは生成しないということでしょう。既存の単語を文章に使うので、ときには、すでにある文章に近いものになりかねません。

新聞社は、自社の記事をAIに使われることに神経を尖らせています。そのことについても、私なりに理解を深めました。

AIは理路整然とした文章を生成できます。それを読むと、その文章に書かれていることをすべて事実と認識してしまいかねません。しかし、AIは「自信満々に嘘をつく」ことを認識しておく必要があります。

それを解説した回答も共有しておきます。

ハルシネーション：なぜAIは「自信満々に嘘」をつくのか？

結論から言うと、AIには**「真実かどうか」という概念がない**からです。

仕組みから見る「嘘」の理由

昨日お話ししたように、文章生成AIは「次の言葉を確率で選ぶ」仕組みです。AIにとっての正解は「事実であること」ではなく、**「文脈として最も自然な（確率が高い）続きであること」**なのです。

確率の穴埋め： 例えば「2028年の東京オリンピックの金メダリストは…」と聞かれたとします（実際にはまだ開催されていません）。AIは「知らない」と言うよりも、学習したパターンの組み合わせから「いかにもありそうな名前と種目」を確率的に生成してしまいます。

「わからない」が苦手： 従来の検索エンジンは「データがなければ『なし』」と返しますが、生成AIはパズルを完成させようとする性質があるため、情報が足りない部分を「もっともらしい言葉」で補完（創作）してしまいます。

イメージ： ハルシネーションは、**「非常に物知りで話のうまい嘘つき」**が、知らないことを聞かれたときに、その場の空気を読んで即興で物語を作ってしまうような状態です。

ハルシネーションは、AIに外部知識を渡すことをするRAG（GraphRAG）により、乗り越えようとしている過程のようです。

今回、Geminiに質問を繰り返したことで、画像と文章の生成原理が違うことをおぼろげながら理解できたつもりでいます。

回答はすべて保存してあるので、丁寧に読んで、理解することにします。

ともあれ、AIは、私にとっても必要不可欠なものとなりました。

Genimiとやり取りしている途中で、ある短編小説が「ハルシネーション」のようだと思いました。更新の途中でそのことを書こうと思いましたが、作家名と作品名を思い出せませんでした。

Geminiとのやり取りは、上限に達しとのことで、本日の午後1時半頃までは、使えないような状態です。

そこで、AIモードの検索で、自分が思い出せない作品名と作家名を、探してもらいました。その結果、宇野浩二（1891～1961）の『でたらめ教』であることを思い出しました。

この短編については、本コーナーで取り上げることがあるかもしれません。

宇野浩二は、江戸川乱歩（1894～1965）の周辺にいた作家だと認識しています。これまで、宇野の作品は読んだことがありませんでした。

先月までAmazonのKindle Unlimitedを無料で利用したときに、水上勉（1919～2004）のエッセイ集『閑話一滴』を読みました。その中に、宇野浩二が水上の師であったことが書かれていました。

そのことを知ったあと、宇野の全集を読み、その中に『でたらめ教』が収録されていました。

日	月	火	水	木	金	土
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31