
OpenAI が ChatGPT Images 2.0 を ChatGPT の全プラン向けに広げた。画像生成モデルとしての目玉は「テキストの描写がまともになった」という1点に尽きる気がしていて、これ、なかなかすごいんですよ。
要はこういうことですね。これまで AI 画像生成の泣きどころだった 「画像の中に埋め込まれる文字が読める」 という部分が、ようやくプロダクションで使えるレベルに届いた、と。
OpenAI の告知を整理すると、今回の更新は中身が3層に分かれている。
知識カットオフが上がったという話は地味ですが、画像生成にとって意外と効きます。新しい製品ロゴや最近のビジュアルトレンドへの追従度が変わるので、「ChatGPT に依頼したのに絵面が古い」みたいな違和感が減る方向に効く、という理解でいいかなと。
TechCrunch のレビュー記事が端的で、タイトルが 「surprisingly good at generating text」。ここが今回いちばん触ってみたいポイントです。
従来の画像生成モデルは、看板・タイポグラフィ・ポスター風の画像を頼むと、文字が崩れるか、似たような別の文字列に化けるかのどちらかになりがちでした。今回はそこを正面から詰めてきた、という立て付け。
実制作でいうと、SNS 投稿用のバナー、スライドのサムネ、プロダクト画像のモックなど、「文字が含まれる画像」をとりあえず AI に任せてみる選択肢が出てくる。プロのデザインを置き換えるかはまた別として、ラフ案を 1 分で作る目的では実用域に入った、と読めます。
Microsoft Azure の公式ポストで、GPT-image-2 が Microsoft Foundry に来ることも同日に告知されました。プロダクション向けの画像ワークフロー向けに、編集性能・画質・多言語・思考機能が強化されているとのこと。
OpenAI 側の Thinking は有料プラン向け、Azure 側では GPT-image-2 が Foundry に入る流れなので、ChatGPT で触る入口と業務で組み込む入口が同時に整ってきた、と見るのがよさそうです。
Images with thinking という表現は、要はプロンプトから画像を描く前に、中間的な推論ステップを挟むことで、レイアウトや要素配置の整合性を上げる方向の機能、と理解しておくとよいと思います。
OpenAI は「コピーライティングから分析、デザインまでタスクをエンドツーエンドで扱える」と説明していて、単発のプロンプト一発生成ではなく、意図を汲んで組み立てる側に寄せている。一枚絵というより「中の要素が噛み合っている画像」を作るためのモードと捉えると腑に落ちます。
で、何が変わるかというと、
「すごい」で終わらせず、読める文字を出せるようになったという事実を軸に組み立てるのが現実的な距離感だと思います。
個人的には腑に落ちる話で、ここまでの世代と地続きのアップデートでありつつ、テキスト描写という弱点を明示的に潰してきた点が今回の肝。触ってみてからですね。
OpenAI(X) — ChatGPT Images 2.0 is available starting today
OpenAI(X) — Real-World Intelligence / knowledge cutoff
OpenAI Help Center — ImageGen 2.0 in ChatGPT
Microsoft Azure(X) — GPT-image-2 is coming to Microsoft Foundry
TechCrunch — ChatGPT’s new Images 2.0 model is surprisingly good at generating text