文章生成AIに神経過敏な新聞社 – インディの鞭　日々の独り言

今後、世の中の仕組みのひとつとして、生成AI（生成的人工知能）が必要でないと考えることは、もはや、できないように考えます。

私は遅ればせながらにそれに接し、その圧倒的な能力に日々舌を巻いています。AIはあらゆる出力媒体を生成できます。その中に、「文章生成」があります。

この生成能力に、今、ひときわ神経を尖らせるのが新聞社です。

本日の朝日新聞も、次の見出しで本事案を取り上げています。

AI回答に記事使用？　実体は　独禁法違反の可能性も　公取委が近く調査開始

この文章生成については、私の場合はその生成の仕組みを知りたかったことで、Googleの人工知能（AI）、Geminiに尋ね、詳しく教えてもらいました。その答えは、すべてではありませんが、それについて書いたときに共有しています。

文章生成AIの仕組み

私の理解では、文章の生成は、キーポイントとなる言葉を抽出し、その言葉のあとに続く言葉を、確率の計算をして選び、文章にするといったイメージであるように思います。

質問者から時事の問題を尋ねられた場合は、ある意味必然として、マスメディアが報じた記事から、あとに続く言葉を見つけることをするのでしょう。

どんな場合でも言葉を見つける必要があるため、可能な限り、あらゆる事に通じていなければなりません。そのため、日常的に、マスメディアが報じるニュース記事は、「学習」しておくことになります。

新聞社からすれば、

「自分たちが多額のコストをかけて取材・執筆した記事を、AI企業が無断で（無料で）AIのトレーニング素材として使っている」

と不満に思うこともわかります。

しかし、文章生成AIのサービスを提供するIT企業は、マスメディアの記事ばかりを蓄積するわけではありません。インターネット空間で発せられるあらゆる言葉を蓄積するのだろうと想像します。

蓄積の対象には、文学作品もあります。

昨日、文章生成A(について更新したとき、「ハルシネーション」から連想して、ある短編小説があったのを思い出しました。しかし、作品名と作者名がすぐに出てきませんでした。

そのときは、Geminiの一日の利用が上限に達していたため、Microsoft Edgeで使えるAI、Microsoft Copilotに「相談」を持ちかけました。

私の質問はあやふやで、「なんとか念仏という短編小説があったと思いますが、正確な作品と作者名を教えてください」といったようなものでした。

これではさすがにわからなかったようで、私が望んだような回答は得られませんでした。そこで、もう一度次のように質問し直しました。

人里離れたところにひとりで暮らしていたおばあさんのところへ、通りかかった男が、デタラメな念仏か、お経か何かを教えるという話でした。その男が去ったあと、その家に二人組の泥棒が入ろうとしたら、おばあさんがデタラメなお経をあげていて、それが、泥棒を捕まえるようなお経だったため、泥棒たちが驚いて逃げ、おばあさんは救われたというような内容だったと記憶します。こんな内容の短編が見つかれば、作者と題名を教えてください。

この質問をしたことで、私が知りたかったのが、宇野浩二（1891～1961）の『でたらめ教』であることがわかりました。

Copilotは回答の中で、あらすじを教えてくれています。

宇野浩二の作品であれば、著作権は切れています。しかし、これが現代作家の作品である場合は、AIが答える回答の中で、あらすじを書くのは問題だ、とマスメディアは考えるのでしょうか。

今のところ、文政生成AIに神経質になっているのは新聞社などのマスメディアで、小説家や出版社が、文章生成AIのあり方を問題にしているという話を私は聞いたことがないように思います。

新聞が取り上げるのは政治や事件、事故だけではありません。小説を取り上げることもあります。

ある作品について記事にしようとしたとき、記事を執筆する記者は、その作品を読むことをしないのでしょうか？　もちろん、読んだ上で記事にするのだと思います。

小説を読むことと、文章生成AIのサービスを提供するIT企業が、新聞記事を蓄積することの違いは何でしょうか？

新聞社としては、「コストをかけて取材・執筆した記事を、AI企業が無断で（無料で）AIのトレーニング素材として使っている」ことに不満を持っているわけですよね。

簡単な比較はできませんが、小説の執筆と新聞記事の執筆を比較した場合、どちらのほうが労力を必要とするでしょう。

上で紹介したように、宇野浩二の『デタラメ教』を見つけてくれたCopilotは、あらすじまで紹介してくれました。あらすじがわかるということは、宇野の短編小説をデータとして蓄積しているということです。

「勝手に、宇野の短編小説をAIトレーニングの素材として使うなど、けしからん」と新聞社で働く人は考えるのですか。

新聞記者が、ある小説について記事にする場合は、その小説を読んで印象的な場面を記事に書いたりするでしょう。

昨日、Geminiからもらった答えに次のことがあります。

事実の抽出： 事実（ニュース）そのものに著作権はありません。

小説のあらすじも、それがその小説の間違いのないあらすじであれば、それを書くことは、著作権の侵害にはならないのでしょうか。

Geniniはそのあとに、次のように書いています。

表現の類似： AIが咀嚼したつもりが、元の特徴的な表現や構成をそのまま再現してしまう（「丸暗記」による吐き出し）ことがあり、これが著作権侵害のリスクとなります。

このあたりが、著作権を扱う上ではポイントとなりそうです。

小説に限らず、ある新聞社の記者は、自社の新聞だけでなく、他社の新聞記事を読むこともあるでしょう。テレビ番組を見ることもあれば、ネットで文章や動画を見ることもあるでしょう。

それは、マスメディアで働いていない人たちと大差ありません。

人は日々、多くの事が、様々な媒体から自分の中に入ってきます。音楽を聴けば、その歌詞が頭に残ることもあるはずです。

それは、日々、AIのためのデータが蓄積されることに通じるように思います。インプットが多いほど、アウトプットが多彩になります。

逆のいい方をすれば、アウトプットを多彩にするため、できるだけ多くのインプットをしようとするのです。そのインプットのひとつに、新聞があるというだけのことです。

しかしながら、今のところ、文集生成AIに神経質になっているのは新聞社などのマスメディアです。そこには、「自分たちは、世の中の人間にニュースを届けている」といった奢った気持ちはありませんか？

生成AIの進歩は凄まじく、とどまるところがありません。そう遠くない将来、事実をインプットするだけで、「思惑」を含まない、純粋な報道を得られる時代がくるでしょう。

その記事を執筆するのは生身の人間ではありません。文章生成AIです。

その時代になれば、文章生成AIが生成した記事をAIが思う存分「学習」し、質の高い文章を生成してくれるようになるでしょう。

生身の人間記者が、文章生成AIを敵視するのも、今のうちかもしれません。

日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30