MkItYs: 画像生成ＡＩを、もと美術部員でいまＩＴエンジニアの人はどう思っているか

画像生成ＡＩに対する、もと美術部員でいまＩＴエンジニアである個人の率直な感想です。

背景

画像生成ＡＩのモデルがパブリックドメインとして一般に公開されてから、半年が経ちました。

技術そのものはそれまでの延長上にあったものですが、あれだけの大きさのモデルが無償で提供されたという、その一点が世間をゆるがしたように思います。［※１］

なかでも社会に与えた影響といえば、やはり＜分断＞のようなものが生まれた、ということでしょうか。

つまり、絵を描く人と技術を使う人の意識のスレ違い、ですね……

※１: ２０２２年８月にスタビリティＡＩ社が公開したＳＤ（Stable Diffusion）には、とくに技術的にみるものはありませんでしたーートランスフォーマ／クリップ／マルチモーダル／潜在空間／Ｕネット／拡散モデル……これらは先行する実装がすべて存在していましたから。

主題

ここでは、もと美術部員でいまＩＴエンジニアである自分の個人的感覚から、絵を描く人と技術を使う人の、画像生成ＡＩに対する意識の違いを並べてみようと思います。

これ以降、＜絵描き＞と＜技術屋＞は、とくに断りがないかぎり自分のペルソナです。［※１］［※２］

※１: いわゆる「お気持ち」問題？になるんでしょうか……技術屋は熱くなり、絵描きは醒めている、といった。

※２: もちろんなんの意図もなくこういった一文を書くわけではなく、それぞれの感じ方や考え方の理解に役立つところがあるなら、というのが動機です。

感情：絵描きの感覚

まず＜絵描き＞（＝自分のなかの絵の描く人のペルソナ）は、画像生成ＡＩにツールとしての魅力を感じていません。

絵を描く行為は、知覚、つまり＜身体＞からくるものだからですーー自分の指先からさまざまなカタチやイロが生み出されることの心地よさーーその身体感覚が、絵を描く動機だったりします。

だからそういった感覚をサポートしてくれない技術には、大きな隔たりを感じてしまいます（たとえば言葉で指示するといった、トップダウン的なやり方）ーー絵柄や構図は、身体からくる感覚を積み上げていくものなので。［※１］［※２］［※３］［※４］

またそれらのイロやカタチも、できるだけ自分の思いどおりにしたいーーだからそこをシンプルに（愚直に）追求しない技術にも、興味がもてないわけです（とくにガチャ要素があると、それだけで使う気がなくなります）。［※５］

※１: たとえば自分の＜絵を描く＞の部分を刺激する作品は、「こんな風に描いてみたい」という感覚を呼び起こしますが、これは体が反応するわけです。

※２: もちろん仕事をかかえている絵描きの人（いわゆるプロ）は、そんなことを言ってられない事情があるでしょうから、積極的にＡＩによる生成技術を＜作業＞に取り入れる人もいるはずですーー漫画家もアシスタントを雇いますし、昔の大画家は工房にたくさんの弟子をかかえ絵を描かせていました。

※３: なら＜作業＞じゃない場合は、というとーーそもそも描きたくないものは、描かなければいいだけですしね……完成した絵に空白があってはいけない、という決まりもありませんし（あえて素描を描く／集める人もいたりします）。

※４: 自分が絵を描く技術で革新だと思うのは、知覚にかかわるものですーーたとえばタブレットで絵が描ける環境が出てきたとき、などーーもちろんそういった状況に冷淡な人もいましたが、それはその技術が自分の感覚に合わないと感じた人たちのはずです（筆が変われば描く感覚も変わる）ーーなのでまた知覚を刺激する技術が成熟してくれば、そちらは歓迎するはずですーーいまならＸＲや人間拡張、といった技術かなあ……

※５: もちろんアーティストにもハプニング性を求める人はたくさんいるので（創発的なアートなど）、そういった人たちの態度はまたべつなはずです。

感情：技術屋の感覚

いっぽう＜技術屋＞（＝自分のなかの技術を使う人のペルソナ）は、絵そのものというより、ＡＩのモデルの方に関心があります。

画像生成モデルは深層学習から生まれるので、中身はブラックボックスですーーしかも「複雑なことができるほど解析は難しくなる」というトレードオフがあり、その動作を完全に予測することは原理上不可能です。

だからこそ、そのふるまいを知りたくなりますーーつまり技術屋は、ＡＩのモデルと対話したいわけですーーそしてその対話にはプロンプトが必要になるので、＜言葉＞が優先されることになります。［※１］［※２］［※３］［※４］

あとはガチャ要素への姿勢の違いですねーーアルゴリズムの工夫で、自分が想像もしていないモノが出てくるのを眺めるのは、とても楽しかったりします。［※５］

※１: ならなぜ生成した画像をあえて公開するのか、というとーーこれは画像そのものというより、プロンプトを公開したいわけですーーもともとＡＩによる生成は安定しないので、どれだけ安定したプロンプトを考えついたかを共有したい、という動機があります。

※２: そういう違いがあるので、手描きの画像とＡＩによる生成画像が分けられるのは、むしろ当然だと思いますーーさらに汚染という問題もありますし。

※３: とはいえ、手描きの絵とＡＩが生成した絵にどこまで違いがあるのかというと……どうなんでしょう？　そもそも生成モデルは抽象から具体までいろいろなレベルで対象を学習するので、たとえば＜身体感覚のある描画＞もそれなりに取り込んでいるはずですーー絵を描く＜動機＞という面では大きな隔たりがあっても、＜結果＞という面では、すくなくともコモディティ化した絵柄では相違はなくなっていくのかもしれません。

※４: もちろんその＜結果＞が、作者の意図どおりのものかとなると、またべつですがーーすくなくとも深層学習モデルによる生成では、挙動を完全にコントロールすることは不可能なので（ほんとうに「作者の意図どおり」を追求するなら、それこそ手描きや３Ｄモデリングと同等の作業になってしまうはずです）。

※５: ただ、ライフゲームのような創発的なＡＩと画像生成ＡＩは、構造も出力もまったく違いますけどね（画像生成ＡＩに対する驚きは、ここまでできるんだという技術に対する驚異で、出てくる内容は相応の工夫をしないかぎり凡庸ですし）。

感情：その他の感覚

以上、あくまで個人の感覚の話でした。

ここで現実の話に戻ると、＜絵描き＞とか＜技術屋＞とか、じっさいは明確に分けられるものではありませんしね。

たとえば「絵がうまく描けなかったところを画像生成ＡＩが助けてくれる」と喜ぶ人、「儲けられる」と考える人ーーいろんな動機をもつ人たちがいるはずです。［※１］

※１: とはいえ、そういったさまざまな感覚をここでは推察しませんーーあくまで、自分の個人的感覚から分かるものを書き出すのが、この一文の目的です。

倫理

ただし感覚の違いではすまされない問題もあって、そのひとつが「学習のデータとしてあつかわれた／これからもあつかわれるかもしれない画像」のあつかい、でしょうか。

もともと作者というメタ情報とともに構造化されていた画像群が、ＡＩによる学習の過程で完全にフラットになり、ツールの利用者に対してはなんの注釈もなく生成に利用されるーーという非対称性はたしかにあります。［※１］

このあたりになると感覚の相違で済むものではなく、法的な対立に向かうことにもなるでしょうし……ほんとうに難しい問題です……

※１: ここには、ＡＩが画像を大量に生成するという量の問題よりも、より根本的な構造の問題があるように思います。