
Recientemente, se ha presentado un nuevo modelo de edición de imágenes por inteligencia artificial, conocido como “nano banana”, que ha demostrado capacidades impresionantes y ha alcanzado el primer lugar en la tabla de clasificación LMArena. Google ha anunciado que este modelo es una innovación de Google DeepMind y se está implementando en la aplicación Gemini.
La edición de imágenes por IA permite modificar imágenes mediante un prompt, evitando el uso de programas como Photoshop. Google introdujo capacidades de edición en Gemini a principios de este año, y el modelo inicial mostró un rendimiento más que competente. Sin embargo, la naturaleza no determinista de estos sistemas generativos significaba que los elementos de la imagen a menudo cambiaban de manera impredecible. Según Google, el modelo nano banana (técnicamente Gemini 2.5 Flash Image) ofrece una consistencia sin igual en las ediciones, ya que puede recordar los detalles en lugar de generar resultados aleatorios en cada cambio.
Esto abre diversas posibilidades interesantes para la edición de imágenes por IA. Google sugiere subir una foto de una persona y cambiar su estilo o vestimenta, como reimaginar a alguien como un matador o un personaje de una serie de los años 90. Dado que el modelo nano banana puede mantener la consistencia a través de las ediciones, los resultados deberían seguir pareciendo la misma persona de la imagen original, incluso al realizar múltiples cambios consecutivos. Google asegura que los resultados seguirán siendo coherentes con el material de origen.
La edición de imágenes mejorada de Gemini también puede combinar múltiples imágenes, permitiendo utilizarlas como base para crear una nueva imagen. Un ejemplo de Google muestra imágenes separadas de una mujer y un perro, generando una nueva instantánea del perro recibiendo caricias, lo que podría ser una de las mejores aplicaciones de la IA generativa hasta la fecha. La edición de imágenes de Gemini también puede combinar elementos de maneras más abstractas y seguirá las instrucciones para crear casi cualquier cosa que no infrinja las restricciones del modelo.
Al igual que otros modelos de generación de imágenes de IA de Google, la salida de Gemini 2.5 Flash Image siempre incluirá una marca de agua visible que indica “IA” en la esquina. Además, la imagen tendrá una marca de agua digital invisible llamada SynthID que se puede detectar incluso después de modificaciones moderadas.
Los usuarios pueden probar la nueva edición de imágenes nativa hoy en la aplicación Gemini. Google también ha indicado que el nuevo modelo de imágenes se implementará pronto en la API de Gemini, AI Studio y Vertex AI para desarrolladores.
Fuente original: ver aquí
