
写真風イラストを作る必要がたまに発生するので、それなりに使い方についてのネット情報は見ている。本来の写真作品創作や人のプラベートの勝手な捏造、肖像権簒奪や名誉毀損行為に簡単に接続される可能性を考えると不穏なものも感じる分野だが、AIの進化と利用性が高まってものすごく進んでしまっている。とりあえず技術の一つとして扱う範囲を規定するしか無いと思う。
それ以前、2023年6月9日に
「写真をAIに文章で説明してもらう→それをもとにまた画像を作る→外国になる」という記事も出ていた。AI生成はやはり英語のスクリプトの方がより詰めた画が作れると思われるので、英文による受け渡しによる画像生成をやってみた。
トップの画は、まだ幼獣だった時代のチコが、家の前のチガヤ原を探索していたところ。冬のある日。光線は絞って、Zeissレンズの能力を信じて、明るく移りすぎないように注意した。今から20年以上前でこのブログの最初のエントリの画像だ。当時はフィルムカメラContax 167MTに万能レンズZeiss Macro Planar 2.8/100 T*をつけて撮影したもの、かなり光線状態は悪いが、チコのポートレイトとしてとても気に入っているし、この画のファンは結構おられる。
この写真からAIが推察した内容は以下の通り。焦点距離が短くなるのは、トリミングされるプリントスキャンの結果。
・構図・内容: 茂った草むらの中に猫が隠れている。猫の顔にフォーカスがあり、背景はぼやけている。夜明けまたは夕方のような低照度環境。
・レンズ・設定: レンズの口径: 50mmまたは85mmの中望遠レンズ。F値: f/2.8~f/4程度(浅い被写界深度)。ボケ具合: 背景の草が柔らかくぼけており、猫に自然に目が行く。ISO: 800~1600(低照度補正)。シャッタースピード: 1/60秒~1/125秒程度。
光とホワイトバランス: 光の入り方: 自然光のみ。おそらく曇り空または間接的な光。ホワイトバランス: クールトーン(青みがかった冷たい印象)。
その他:撮影者の目線の高さから猫を捉えた視点。左右対称性を意識した自然な構図。
ということになるようだ。これから英文のスクリプトを発生させてもらうと以下のようなものが吐き出されてきた。ただ、チコの描写については殆どなかったので、別の画像から彼の特徴を拾ってもらって、文章中に咥えてある。
"A hidden kitty cat sitting in the middle of tall frosty grass at dawn or dusk , with a shallow depth of field. The kitty has a short-haired coat with a mix of colors , primarily white, brown, and gray tabby patterns. The face is white, with distinct markings : a brown and gray tabby patch covers the top of its head, extending down between the eyes, creating a symmetrical "M"-like shape often seen in tabby cats. The focus is on the kitty's face, while the background grass is softly blurred. Cool tones dominate the scene, giving a mysterious and calm atmosphere. Natural soft lighting from an overcast sky with subtle blue hues. The photo is captured with a 50-100mm lens , aperture f/2.8 , creating a gentle bokeh effect . No artificial lighting, just natural ambience. The composition centers the cat in the frame with surrounding dense grass."
何となく全く違う視点でチコだ!って思うような猫ではないのに安心する。でも、最初の画の特徴はきちんと掴んでいて、最近AIに描かせた画の中では、一番、チコを描こうとしたものだなと感じる。よくできているが、でも彼の取り包む風は蕭蕭としてみたいな感じは、当たり前だが、この子の表情や佇まいからは拾えない。
次にナベヅルが2羽で飛翔中の画。観察センターの上から取ったので、彼らの高度の割には高度感が少し違う。この写真からAIが推察した内容は以下の通り構図・内容: 空を飛ぶ2羽の鳥(ツルのような形状)が並んで飛行している。鳥は左向きで、動きの瞬間が捉えられている。背景は明るい空で、シンプルな構図。
レンズ・設定: レンズの口径: 200mm~400mmの望遠レンズ(鳥の詳細な姿を捉えているため)。F値: f/5.6~f/8(全体的にシャープで、鳥の輪郭がはっきりしている)。ボケ具合: 背景は遠くの空のみであり、ほぼボケなし。ISO: 400~800(明るい空に合わせた感度)。シャッタースピード: 1/1000秒以上(飛ぶ鳥の動きを止めるための高速シャッター)。光とホワイトバランス:光の入り方: 自然光。おそらく日中、少し曇りがかった空。ホワイトバランス: デイライト設定(空の色がニュートラルな青で自然な感じ)。光はほぼ均一で、影が目立たない。その他: 撮影者は鳥とほぼ平行の高さにいる。画面はシンプルで鳥と空のコントラストを際立たせる構図。
鳥屋初心者でもナベヅルと分かる画だが、汎用AIを生物同定に関して専門学習できているわけではないだろうから、無理だろうというのは経験上分かっていた。適当な画を放り込んで生物同定ができるのなら大変なことになるが、同定は五感や分布、生態学的知識を総動員してやる必要があるものも多く、形合わせではないというの工学系の教育では知るすべもないから専門家が加わったチームでも立ち上げないと無理だろうなと思っている。
”Two hooded cranes, resembling cranes, flying side by side against a clear sky. The birds are captured mid-flight, with their wings outstretched, showing detailed feather patterns. The background is a soft and smooth blue sky, minimalistic and free of distractions. The lighting is natural and soft, suggesting a daytime setting with slight cloud coverage. The photo is taken with a 200mm telephoto lens, aperture f/5.6, and a fast shutter speed of 1/1000s to freeze the motion of the birds. The scene conveys a sense of harmony and freedom, with the birds in sharp focus and no noticeable bokeh in the background.”
態々種の情報を入れてあげたが、AIは理解できなかった。吐き出されたツル様の鳥は(多分北米のカンムリヅルが一番似てる)、ちゃんと分析どおりの視点にはなってなかったが、これはスクリプトをよく読めば最初に分析がなされていたのに、受け渡すために発生させたスクリプトにはその情報は入っていなかった。こういう小さな嘘やうっかりな手抜きをやるのは、コストの問題かもしれないので、AIの能力とするのは読み違いだろうとは思う。
何年か、我が家の食客になっていたアカネズミのグリッチ。新聞紙をシュレッダーにかけたものが床敷に使えたのでとても楽だった。経験的に糞尿が少々ついてもよく燃えるのでラボでの焼却処理をしていた時代を思い出す。
撮影条件(推測):カメラレンズ: 標準単焦点レンズ (例: 50mm)F値: 約 f/2.8(浅い被写界深度による背景のボケ効果)光の入り方: 上から柔らかい間接光(ディフューザーやソフトボックスを使用した可能性)ホワイトバランス: 暖色系 (約 3200K~4000K)照明の向き: マウスの頭部と目を中心に光が当たるよう調整背景のぼかし: 撮影距離を近接し、被写体と背景との距離を離すことで強調されたぼけ具合環境設定: 自然な巣の雰囲気を演出するため、色と質感を引き立てる低照度の設定これらの条件を基に生成AIで再現を試みてください。
吐き出されたのは以下のスクリプト。"A small brown mouse with soft fur sitting in a nest made of shredded paper. The mouse's eyes are large and black, reflecting the light, and it is positioned in the foreground. The background is blurred, creating a bokeh effect. The lighting is warm and dim, coming from a soft overhead source, emphasizing the textures of the shredded paper and the mouse's fur. The shredded paper includes a mix of white, pink, and colorful strips, adding contrast to the scene. The environment feels natural and cozy."
飼育環境をなぜか褒めてもらった。シュレッダーから吐き出された新聞紙の描写などシンプルで分かりやすい。立派な野生の森林性野ネズミを'mouse'っていうのはとても気になるので、'rodent'に修正。その他、アカネズミの主命情報を入れてみたが、あんまり変わらないだろうなとは思った。北米産の収斂種Peromyscus属との描き分けとか、専門家でも無理だ。なんとなく一緒に並んでいると違和感を感じるとかもない。 以下のスクリプトを生成AIに食べさせてみた。
"A woodland rodent, Apodemus speciosus with soft fur sitting in a nest made of shredded paper . The rodent's eyes are large and black , reflecting the light , and it is positioned in the foreground . The background is blurred , creating a bokeh effect . The lighting is warm and dim , coming from a soft overhead source , emphasizing the textures of the shredded paper and the mouse's fur. The shredded paper includes a mix of white, pink, and colorful strips, adding contrast to the scene. The environment feels natural and cozy ."
アカネズミはもう少し緋色方向の体毛だし、白い部分は入っているが、それがチャームポイントとして重要にも関わらず本物と違っていま1つ目立たないが、まあまあだろうか。ちょっと変な縞模様が入っているがハムスターにこんなのがいるのかも。それでもハムスターではない、野ネズミっぽくはある。
ということで、AIはツールであるし、扱う人間がまともな生物知識を持っていないとまともな道具として機能しないという部分を、自動的には補ってくれない段階であることは確かだが、専用に学習させたオプションが出てくれば、汎用のものでもイラスト描きツールとしては、かなりのところにはあると感じている。私等は美女描画だのには無縁の使い方なのだが、門外が使うツールとしては、実際こういう視点が必要だと思っている。 割と驚いたのは撮影環境をEXIFデータを渡せてないのに、AIがかなりの確度で読んでくる部分かもしれない。
後、感じるのは、学生さんに生物を教えようとするとき、ちゃんと内容が検証された図鑑や文献のドキュメントを読ませることが非常に重要になるということ。検索して画像やそれから引っ張ってくる有象無象のテキストを拾っているだけでは、実は重要な知識が本人の頭には入らないし、同定という一つの作業において、絵合わせ的に同定ができる部分は限られている。AIが文献を読みこなして質問されたときにそれを提示することは可能だろうが、それから種のイメージを作り上げることは情報の性質からしても、難しいのではないかという気がしている。 上手く言えないのだが、ある方のツイートにこんなのがあって、なるほどと思った。「親世代の限界を簡単に超えうる学習環境に囲まれた次世代が、誤った知識に溺れてしまうような環境に常に晒されている事に対し、十分な備えができていますか?」(doramaoさんのツイートより) ネットに繋がっているものからだけのAIの誤学習は、人間にも起き得るし、拾えないもの、統合された情報がないものは学習できない。「ネットを見れば」というのの限界がわかっている人だけが、ネットを強力なツールとして使いうる。それは何よりも、人がちゃんとした知識を入れてものを考えてこないと無理な世界だと思う。 私は特に困ったなと思っているのが、それが公衆衛生なども含めた政策や政治において生じているという部分だ。トンデモへのポピュリズム街道が見事に敷かれてしまっているリスクはとても高くなっている。