Google「nano banana」の舞台裏
2025/08/27

Google「nano banana」の舞台裏

Gemini ネイティブ画像生成モデルの開発チームに聞いた、キャラクターの一貫性やインターリーブ生成、先進的なAI画像編集の裏側

Google が発表した AI 画像生成「nano banana」(正式名称: Gemini 2.5 Flash)は、クリエイティブテクノロジーを大きく前進させるブレークスルーです。Logan Kilpatrick 氏による最新ディスカッションでは、プロダクトリードの Nicole Brichtova 氏、リサーチリードの Kaushik Shivakumar / Mostafa Dehghani 氏、そして Robert Riachi 氏が登壇し、この最先端システムを支えるエンジニアリングについて詳しく語りました。

彼らは AI 画像生成と編集の向き合い方を根底から変える技術について、これまでにない洞察を共有しました。単なるマイナーアップデートではなく、マルチモーダル AI の可能性を再発明する取り組みだと言えます。

革新的なネイティブ画像生成

「nano banana」の核にあるのが ネイティブ画像生成 というアプローチです。従来のように画像を単発で作るのではなく、直前に生成した画像を文脈として参照しながらシーケンシャルに描き出していきます。

“ネイティブ”と呼ぶ理由

単一アーキテクチャ内で理解と生成を完結させることで、工程ごとに別システムを用意する必要がありません。

Kaushik Shivakumar 氏はこう説明します。「モデルは画像を逐次生成し、過去の結果をコンテキストとして活用します。これにより複数の生成にまたがる一貫性と文脈理解を実現できるのです。」

このアプローチによって、いくつものブレークスルーが生まれました。

キャラクター一貫性の大幅向上

もっとも驚かされたのは、キャラクターの姿勢や角度が変わっても同一人物として違和感なく描き続けられる点です。2.5 では前バージョンから一段進化し、単なる「キャラ崩れ防止」を超えて本当の意味でのマルチアングル再現が可能になりました。

チームは 1980 年代のアメリカン・グラマーをテーマにしたデモでこの進化を披露。Nicole Brichtova 氏によると、人物の顔だけでなく、雰囲気やスタイルまで含めた統一感が連続した画像全体で保たれていたといいます。

複数編集を一度にこなす「インターリーブ生成」

Mostafa Dehghani 氏は インターリーブ生成 という概念を紹介しました。これは自然言語のプロンプト一つで複雑な編集を同時に処理できる仕組みで、単発の編集に依存していた従来ワークフローを過去のものにします。

「新モデルは複雑なプロンプトにも対応できるため、多数の編集をシームレスに要求できる」と同氏。これによりユーザーは単純な修正を超えて、シーン全体の再構築まで一気に行えるようになりました。

さらに進化したマルチモーダル能力

クロスモーダル学習の革命

チームが特に強調したのが、画像理解と生成のスキルを同一モデル内で双方向に転用する「クロスモーダル学習」の可能性です。これは AI システム設計における大きな前進と言えます。

Robert Riachi 氏は、マルチモーダルモデルの学習で直面する課題や考慮事項について触れ、「最終的なゴールは単一モデル内でネイティブな理解と生成を両立させ、あらゆるタスクで性能を底上げすること」と語りました。

人間中心の評価プロセス

モデル学習では自動指標だけでなく、人手による評価も取り入れています。コストはかかるものの、ユーザー期待を理解し、それを上回る出力を目指すには欠かせないプロセスだといいます。

Logan Kilpatrick 氏も「人間の好みをどう評価指標に落とし込むか」という問いを投げかけ、プロンプト解釈を賢く行うことでユーザー要求を超える未来像が語られました。

技術的進化:2.0 から 2.5 へ

「コラージュ感」問題への対処

旧バージョンでは、要素がコラージュのように浮いてしまうケースがありました。2.5 では根本的な課題に向き合い、元の被写体の本質を保ったまま自然に変形・合成できるようになっています。

チームは、「2.0 でもキャラクターの一貫性自体は保てたが、2.5 ではさらに踏み込んでさまざまな角度から描写しても破綻しないようにする必要があった」と説明しています。これはアーキテクチャの抜本的な改良によって実現しました。

インテリジェントなユーザー体験設計

最新モデルの特徴の一つが、ユーザーの期待をいい意味で裏切るアウトプットを出せる点です。これは「驚かせよう」とハードコードしたわけではなく、より洗練された理解・解釈能力の副産物だといいます。

Nicole Brichtova 氏は、創作プロセスにおけるユーザー主導の重要性を強調。プロンプトの反復改善を通して、アーティストは主導権を保ったままモデルの高度な力を引き出せると述べました。

業界インパクトと今後の展望

クリエイティブ現場での実践例

看板デザインや告知ツイートといった実例を通じて、テキスト表現を保ちながらビジュアル品質を維持する能力が紹介されました。すでにプロの現場投入に耐えるレベルだと示しています。

特にテキスト描画の改善は継続テーマであり、商用利用を見据えた強化が続いているとのことです。

Gemini と Imagen のポジショニング

Google の複数 AI システムの住み分けも説明されました。

  • Imagen: 特定タスク向けに尖らせたい開発者向け
  • Gemini: 幅広い指示に柔軟に対応するマルチモーダルなクリエイティブパートナー

この明確な差別化により、ユーザーは自分のワークフローや要件に最適なツールを選べます。

今後の道筋

チームは今後の研究に大きな意欲を示しており、AI 画像生成の進化がさらなる加速を迎えることを示唆しています。ビジュアル品質とユーザー体験の両立を追求する姿勢から、AI がより洗練された創作パートナーになっていく未来が見えてきます。

「nano banana」は単なる技術進歩ではありません。高度な理解と生成能力が融合し、人とAIのクリエイティブ協業を大きく飛躍させる未来の片鱗です。

このモデルの潜在力を探り続ける彼らの挑戦を通じて、画像生成・編集・ビジュアルストーリーテリングの当たり前が塗り替えられていく——その始まりを私たちは目撃しているのです。