Detrás de Google "nano banana"
2025/08/27

Detrás de Google "nano banana"

Una mirada profunda al modelo nativo de generación de imágenes Gemini, con testimonios del equipo sobre consistencia de personajes, generación intercalada y edición avanzada con IA

El avance de Google en generación de imágenes con IA supone un salto cuántico para la industria creativa. En una charla reciente moderada por Logan Kilpatrick, el equipo responsable del revolucionario modelo “nano banana” —nombre oficial Gemini 2.5 Flash— explicó la ingeniería que hace posible este sistema de última generación.

La conversación reunió a la product lead Nicole Brichtova, a los research leads Kaushik Shivakumar y Mostafa Dehghani, y a Robert Riachi. Compartieron perspectivas inéditas sobre la tecnología que está redefiniendo la creación y edición de imágenes asistida por IA. No se trata de una mejora incremental, sino de replantear desde cero lo que puede lograr un sistema multimodal.

Generación nativa verdaderamente revolucionaria

El corazón de “nano banana” es un enfoque llamado generación nativa de imágenes. A diferencia de los métodos tradicionales que tratan cada imagen como un proceso aislado, aquí se generan secuencialmente y cada resultado sirve como contexto para el siguiente.

¿Por qué 'nativa'?

Comprensión y generación multimodal conviven dentro de una misma arquitectura, sin módulos separados para cada etapa del pipeline.

Kaushik Shivakumar lo resume así: “El modelo genera imágenes de forma secuencial y aprovecha las anteriores como contexto. Eso permite una consistencia y una conciencia contextual sin precedentes a lo largo de múltiples iteraciones”.

Gracias a ello se desbloquean varias capacidades clave.

Personajes consistentes desde cualquier ángulo

El avance más llamativo es la habilidad de representar personajes desde distintos ángulos sin perder su identidad. La versión 2.5 se sitúa muy por encima de su predecesora, porque pasa de simplemente “preservar al personaje” a un renderizado real multiángulo.

Para demostrarlo, el equipo mostró una serie inspirada en la estética glam de los 80 en EE. UU. Nicole Brichtova destacó cómo el modelo mantuvo no solo la identidad facial, sino también la atmósfera y el estilo durante toda la secuencia.

Generación intercalada para ediciones complejas

Mostafa Dehghani presentó el concepto de interleaved generation: una técnica que permite ejecutar múltiples ediciones complejas de forma simultánea mediante prompts en lenguaje natural. Supone pasar de flujos de trabajo lineales a manipulaciones multifacéticas realmente sofisticadas.

“Con este modelo podemos manejar prompts complejos y aplicar muchas modificaciones sin fricción”, explicó. Los creadores dejan de limitarse a cambios puntuales para abordar transformaciones completas de la escena.

Capacidades multimodales avanzadas

Revolución del aprendizaje cruzado

El equipo subrayó el potencial del aprendizaje cruzado entre comprensión y generación de imágenes. Transferir habilidades en ambas direcciones dentro del mismo modelo es un hito en el diseño de sistemas de IA.

Robert Riachi habló de los retos de entrenar modelos multimodales y afirmó que el objetivo es lograr comprensión y generación nativas dentro de una misma red, elevando el rendimiento global en tareas muy distintas.

Evaluación centrada en las personas

Durante el entrenamiento combinan métricas automáticas con evaluación humana. Aunque esta última sea costosa, es imprescindible para que la IA entienda y supere las expectativas reales de los usuarios.

Logan Kilpatrick planteó preguntas sobre cómo medir las preferencias humanas, lo que derivó en un debate sobre entrenar al modelo para que no solo cumpla instrucciones, sino que las interprete de forma inteligente para superar al briefing original.

Evolución técnica: de la versión 2.0 a la 2.5

Adiós al efecto “superposición”

Versiones anteriores podían generar imágenes con aspecto superpuesto. La 2.5 resuelve ese problema: transforma los objetos originales de forma fluida y respeta su esencia.

El equipo explica que la 2.0 era buena manteniendo la identidad durante las modificaciones, pero la 2.5 va más allá y permite renderizar desde ángulos variados sin perder consistencia. Lograrlo requirió mejoras estructurales profundas.

Interacción inteligente con el usuario

Otra característica destacada es que el modelo a menudo supera las expectativas iniciales. No está programado explícitamente para “sorprender”, sino que surge de su capacidad avanzada de comprensión e interpretación.

Nicole Brichtova insistió en que los usuarios deben conservar el control creativo. La iteración del prompt permite mantener la dirección artística mientras se aprovechan las prestaciones del modelo.

Impacto en la industria y lo que viene

Casos reales en flujos creativos

El equipo mostró casos como diseño de vallas publicitarias y tweets de anuncios, demostrando cómo el modelo maneja textos y mantiene la calidad visual. Es una señal clara de que está listo para entornos profesionales.

También comentaron que siguen mejorando el renderizado de texto, pieza clave para usos comerciales.

Gemini vs. Imagen: posicionamiento estratégico

Google clarificó la posición de sus dos sistemas principales:

  • Imagen: pensado para desarrolladores que buscan modelos especializados por tarea.
  • Gemini: un socio creativo multimodal con mayor flexibilidad y amplitud de instrucciones.

Gracias a esta diferenciación, cada equipo puede elegir la herramienta que encaje mejor con su flujo de trabajo y exigencias técnicas.

El camino a seguir

El entusiasmo del equipo por los proyectos en curso deja entrever que la generación de imágenes con IA seguirá evolucionando rápido. Su enfoque en mejorar la calidad visual y el diseño de interacción apunta a un futuro donde la IA será un socio creativo cada vez más sofisticado.

“nano banana” no es solo un logro tecnológico; es una ventana al futuro de la colaboración humano-IA, donde comprensión y generación avanzadas se combinan para desbloquear posibilidades inéditas.

Mientras el equipo sigue explorando estas capacidades, asistimos al comienzo de una revolución creativa que transformará cómo generamos, editamos y contamos historias visuales en la era digital.