Nueva IA de Alibaba simplifica la edición de imágenes sin Photoshop |

Hasta no hace mucho, convertir una imagen en otra con diferentes características requería conocimientos avanzados en programas de edición como Photoshop. Sin embargo, la IA generativa ha facilitado este proceso, permitiendo transformaciones que antes eran complicadas.

Hola, Qwen-Image-Editor. Este modelo de IA generativa, publicado por Alibaba, forma parte de la creciente familia de modelos Qwen. Este modelo está diseñado para editar fotos e imágenes de manera sencilla, utilizando comandos de texto.

Captura De Pantalla 2025 08 20 A Las 15 27 31

Usar esta IA es mucho más fácil que usar Photoshop de forma tradicional, y en muchos casos los resultados son excepcionales.

Tú mandas, la IA obedece creando. El nuevo Qwen-Image-Edit está disponible para probar directamente en el sitio web de este modelo. En esta página, se puede cargar una foto y utilizar comandos como “Girarla a la derecha”, “añadir un letrero con el texto ‘Xataka'”, “cambiar la camisa negra por una verde” o “restaurar vieja fotografía”. Las opciones son amplias y permiten trabajar sobre la imagen de forma continua.

Un modelo cada vez más capaz. Este modelo es una variante de Qwen-Image, que cuenta con 20.000 millones de parámetros (20B) y fue publicado a principios de mes. Este modelo se centra en la edición de imágenes, y está disponible en Qwen Chat, así como en Hugging Face, ModelScope, GitHub y a través de la API de Alibaba Cloud (el coste es de 0,045 dólares por imagen, pero las 100 primeras son gratis).

Captura De Pantalla 2025 08 20 A Las 15 39 16

Fuente: Alibaba Cloud.

En la nube y en local, en tu PC. Aunque es conveniente usarlo desde la interfaz de Qwen Chat —que permite generar hasta 8 imágenes gratis cada 12 horas—, también se puede descargar y utilizar en un PC o portátil con suficiente memoria gráfica (el modelo pesa 54 GB).

El experto Simon Willinson lo probó en su MacBook Pro M2 de 64 GB de memoria unificada y tardó 25 minutos en generar una modificación de una imagen. En Qwen Chat, que utiliza más recursos de computación, la espera es de solo unos segundos por cada imagen.

Entendiendo la imagen antes de editarla. Qwen-Image-Editor emplea un mecanismo de doble codificación que permite analizar las imágenes de entrada con el modelo de reconocimiento visual Qwen2.5-VL para comprender su contenido y luego usar un autocodificador variable (VAE) para realizar la edición. Este enfoque ayuda a mantener la fidelidad al original, modificando solo lo que el usuario solicita.

Captura De Pantalla 2025 08 20 A Las 15 44 43

Plato con pelos, plato sin pelos. La diferencia es sutil, pero muy relevante, sobre todo porque como veis el resto de la imagen queda absolutamente intacta.

Junyang Lin, uno de los investigadores involucrados en el desarrollo de este modelo, explicó que esto permite “eliminar un pelo de un plato” sin modificar el resto de la imagen, lo que representa una modificación delicada.

Captura De Pantalla 2025 08 20 A Las 15 48 07

El prompt le indicaba al modelo que cambiase a azul solo el color de la letra “n”. Así que el modelo analiza la imagen original, reconoce esa letra, y le cambia el color sin modificar el resto.

Edición semántica. Otra característica destacada de este modelo es su capacidad de realizar una edición semántica, cambiando la estructura o el significado de una imagen. Por ejemplo, se puede aplicar un efecto que transforme una foto en una escena de estilo Studio Ghibli, preservando la identidad de los objetos o personas de la imagen original.

Captura De Pantalla 2025 08 20 A Las 15 49 28

Transformar cualquier imagen en otra que parezca una escena de alguna película de LEGO es también muy sencillo con este modelo. Y de nuevo, el contenido original mantiene su esencia.

Transformando la realidad. Al igual que otros modelos de IA generativa, la evolución es notable. Qwen-Image-Editor supera a otros editores al mantener la fidelidad de la apariencia en la imagen original.

Captura De Pantalla 2025 08 20 A Las 15 54 32

Este modelo permite añadir graffitis en inglés o chino, manteniendo el resto de la imagen intacta. La calidad y consistencia de los textos es alta, adaptándose incluso a las arrugas de la ropa para mayor realismo.

Un ejemplo de una tendencia prodigiosa (e inquietante). Este modelo de edición de imágenes demuestra que el futuro podría no requerir un conocimiento profundo de aplicaciones complejas como Photoshop. La interacción con la IA para solicitar cambios podría reemplazar la necesidad de un aprendizaje extenso en herramientas de edición.

¿Aprender Linux? ¿Yo? En muchos casos, las tareas que antes requerían horas de práctica en aplicaciones se podrán realizar simplemente “hablando” con una IA. Esto se aplicará no solo a Photoshop, sino a una variedad de herramientas y sistemas, haciendo que la experiencia de usuario sea más accesible.

En Xataka | China lo está apostando todo a la IA frente a EEUU. Lo que no esperaba es que Huawei y Alibaba peleasen entre ellas

Fuente original: ver aquí