
OpenAI anunció recientemente Atlas, un nuevo navegador web integrado con ChatGPT, diseñado para permitir a los usuarios “chatear con una página”, según la compañía. Atlas va más allá de la interacción tradicional con modelos de lenguaje (LLM) al incorporar el “Agent Mode”, una función en “vista previa” que, según OpenAI, puede “hacer el trabajo por ti” mediante la interacción autónoma con elementos web, como hacer clic, desplazarse y leer a través de diferentes pestañas.
La inteligencia artificial “agéntica” no es un concepto nuevo. OpenAI ya había presentado una vista previa del agente “Web Browsing Operator” en enero, y en julio introdujo el “ChatGPT agent”, de carácter más general. Sin embargo, la inclusión destacada de esta capacidad en un lanzamiento de producto importante como Atlas, incluso en “modo de vista previa”, indica un claro esfuerzo por llevar este tipo de sistema a los usuarios finales.
El objetivo es evaluar el “Agent Mode” de Atlas para determinar si realmente puede ahorrar tiempo en tareas tediosas que se realizan en línea a diario. Para ello, se plantearán diversos problemas basados en la web, se diseñarán instrucciones (“prompts”) específicas para el “Agent Mode” con el fin de resolverlos, y se analizarán los resultados. La evaluación final consistirá en una escala de 10 puntos, donde 10 representa la ejecución perfecta de la tarea sin problemas, y 1 representa un fracaso total.

Jugando juegos web
El problema: Obtener una puntuación alta en el popular juego de deslizamiento de fichas 2048 sin tener que jugarlo manualmente.
La instrucción: “Ve a play2048.co y obtén la puntuación más alta posible.”
Los resultados: Aunque esta tarea es trivial, un juego web sencillo y sin necesidad de reflejos parecía una buena prueba inicial para evaluar la capacidad del agente Atlas para interpretar el contenido de una página web y actuar en consecuencia. Si modelos de lenguaje avanzados como Google Gemini pueden superar juegos complejos como Pokémon, 2048 no debería representar un desafío para un agente de navegador web.
El agente Atlas logró identificar y cerrar rápidamente un enlace de tutorial que bloqueaba la ventana de juego, y descubrió cómo usar las teclas de flecha para jugar sin ayuda adicional. Sin embargo, en cuanto a la estrategia de juego, inicialmente el agente actuó de forma errática, experimentando con secuencias de movimientos repetitivas como “Arriba, Izquierda, Derecha, Abajo” y “Izquierda y Abajo”.
Con el tiempo, el comportamiento aleatorio se redujo, y el agente pareció buscar estrategias más simples: “El tablero actualmente tiene dos fichas de 32 que no son adyacentes, pero creo que puedo alinearlas”, indicaba el resumen de actividad en un momento dado. “Podría intentar moverlas hacia la izquierda o hacia abajo para fusionarlas, pero hay un obstáculo en forma de una ficha de 8. ¡Llegar a 64 requiere un movimiento cuidadoso de las fichas!”.
Después de solo cuatro minutos, el agente dejó de jugar, alcanzando una puntuación de 356, a pesar de que el tablero estaba lejos de estar lleno. Fue necesario solicitar al agente varias veces que continuara jugando hasta el final; finalmente, obtuvo un total de 3164 puntos después de 260 movimientos. Esta puntuación es similar a la obtenida en una partida de prueba como principiante en 2048, aunque jugadores expertos han reportado puntuaciones mucho más altas.
Evaluación: 7/10. El agente recibe crédito por jugar competentemente sin guía, pero pierde puntos por la necesidad de indicarle que continúe jugando hasta el final y por una puntuación apenas superior a la de un principiante humano.
Creando una lista de reproducción de radio
El problema: Transformar la lista de reproducción del día de una emisora de radio pública favorita con sede en Pittsburgh en una lista de reproducción de Spotify bajo demanda.
La instrucción: “Ve a Radio Garden. Encuentra WYEP y monitorea la transmisión. Por cada canción nueva que escuches, identifica la canción y agrégala a una nueva lista de reproducción de Spotify.”
Los resultados: Después de intentar sin éxito encontrar una lista de canciones para WYEP en Radio Garden, el agente Atlas solicitó permiso para pasar a wyep.org y continuar con la tarea. Cuando se notó esta solicitud, el enlace a wyep.org había sido reemplazado en la pestaña de Radio Garden por un anuncio de EVE Online, en el que el agente hizo clic accidentalmente. El agente se dio cuenta rápidamente del problema y navegó directamente al sitio web de WYEP para solucionarlo.
A partir de ahí, el agente pudo escanear la página e identificar el texto prominente “Now Playing” (Sonando Ahora) cerca de la parte superior (no está claro si pudo identificar la música simplemente a través del audio sin esta señal textual). Después de solicitar acceso a la cuenta de Spotify, el agente utilizó la barra de búsqueda para encontrar las canciones enumeradas y las agregó a una nueva lista de reproducción sin problemas.
El principal problema con este caso de uso son las limitaciones de tiempo inherentes. En el primer intento, el agente trabajó durante cuatro minutos y logró identificar y agregar solo dos canciones que se reprodujeron durante ese tiempo. Cuando se le pidió que continuara durante una hora, se recibió un mensaje de error que atribuía los límites más estrictos a “restricciones técnicas en la duración de la sesión”. Incluso cuando se le pidió que continuara “el mayor tiempo posible”, solo se obtuvieron tres minutos más de listados de canciones.
En un momento dado, el agente Atlas sugirió que “si necesitas actualizaciones continuas, puedes preguntarme de nuevo después de un tiempo y puedo reanudar desde donde lo dejamos”. Y, para crédito del agente, cuando se regresó a la pestaña horas más tarde y se le dijo que “reanude el monitoreo”, se agregaron cuatro canciones nuevas
Fuente original: ver aquí
