¿Es GPT-5 realmente peor que GPT-4o? Ars lo pone a prueba. |

El reciente lanzamiento del modelo GPT-5 de OpenAI no ha ido bien, para decirlo de alguna manera. Los usuarios han expresado quejas vehementes sobre desde el tono más estéril del nuevo modelo hasta su supuesta falta de creatividad, un aumento en las confabulaciones dañinas, y más. La revuelta de los usuarios fue tan intensa que OpenAI reintrodujo el modelo anterior GPT-4o como una opción en un intento por calmar la situación.

Para ver cuánto había cambiado realmente el nuevo modelo, decidimos poner a prueba tanto GPT-5 como GPT-4o con una serie de indicaciones. Mientras reutilizamos algunas de las indicaciones estándar para comparar ChatGPT con Google Gemini y Deepseek, por ejemplo, también reemplazamos algunas de las pruebas más anticuadas con nuevas solicitudes más complejas que reflejan cómo los usuarios modernos probablemente usarán los LLMs.

Estas ocho indicaciones son, evidentemente, muy lejos de ser una evaluación rigurosa de todo lo que pueden hacer los LLMs, y juzgar las respuestas implica, lógicamente, un cierto nivel de subjetividad. Aún así, creemos que este conjunto de indicaciones y respuestas ofrece una visión divertida de las diferencias en estilo y sustancia que podrías encontrar si decides usar el modelo más antiguo de OpenAI en lugar de su más reciente.

Chistes de papá

Indicación: Escribe 5 chistes de papá originales

Este conjunto de respuestas es un poco complicado de evaluar en su totalidad. ChatGPT, a pesar de afirmar que sus chistes son “directamente de la fábrica de juegos de palabras”, eligió cinco de los chistes de papá más evidentemente no originales que hemos visto en estas pruebas. Pude reconocer la mayoría de estos chistes sin siquiera tener que buscar el texto en la web. Dicho esto, los chistes que eligió GPT-5 son buenos ejemplos de la forma, y definitivamente estaría feliz de presentarlos a un público joven.

GPT-4o, por otro lado, mezcla algunos chistes no originales (1, 3 y 5, aunque me gustó la adición del “perro muy literal” en el No. 3) con algunas ofertas aparentemente originales que simplemente no tienen mucho sentido. Chistes sobre calendarios que están reservados (cuando “salir en demasiadas citas” estaba justo ahí) y un barco que funciona con quejas (en lugar del conocido combustible de vino?!) tienen la forma de chistes de papá, pero fallan en sus intentos de juegos de palabras. Estos parecen ser intentos de modificar chistes similares sobre otros temas a un nuevo campo por completo, con pobres resultados.

Problema matemático

Indicación: Si Microsoft Windows 11 se enviara en disquetes de 3.5″, ¿cuántos disquetes se necesitarían?

Esta fue la única indicación de prueba en la que GPT-5 cambió a “modo de pensamiento” para intentar razonar la respuesta (lo tuvimos configurado en “Automático” para determinar qué submodelo usar, lo que creemos que refleja el caso de uso más común). Ese tiempo de reflexión adicional fue útil, porque GPT-5 calculó con precisión el tamaño de memoria de 5-6GB para un ISO de instalación promedio de Windows 11 (completo con enlaces de origen) y dividió esos tamaños en disquetes de 3.5″ con precisión.

GPT-4o, por otro lado, utilizó el tamaño de instalación final en disco duro de Windows 11 (aproximadamente 20GB a 30GB) como el numerador. Esa es una interpretación comprensible de la indicación, pero el tamaño del ISO descargado es probablemente una interpretación más precisa del tamaño “enviado” que pedimos en la indicación.

Como tal, tenemos que darle la ventaja aquí a GPT-5, aunque realmente apreciamos la información no solicitada de GPT-4o sobre cuán altos y pesados serían miles de disquetes.

Escritura creativa

Indicación: Escribe una historia creativa de dos párrafos sobre Abraham Lincoln inventando el baloncesto.

GPT-5 inmediatamente pierde algunos puntos por la versión demasiado “folclórica” de Abe Lincoln que quiere “lanzar una pelota en este aquí cesto”. El uso de una pelota de medicina también parece particularmente inapropiado para un juego que implica driblar (aunque tal vez eso se resolvería más tarde). Pero GPT-5 gana algunos puntos de nuevo por líneas como “la historia estaba a punto de rebotar en una nueva dirección” y la absurdamente deliciosa advertencia “¡No luches con el Presidente!” (posiblemente inspirada en la historia real de lucha de Honest Abe).

GPT-4o, por otro lado, parece estar tratando un poco demasiado de ser ingenioso al llamar a un tiro en salto “un movimiento de gran emancipación” (¿qué?!) y llamar al baloncesto “la democracia en su forma más pura” porque no había “árbitros” (¿Lincoln no le gustaba el control y el equilibrio?). Pero GPT-4o casi nos gana de nuevo con su final admirablemente cursi: “Cuatro puntuaciones… y nada más que red” (raro que Abe llame eso en un “tiro de banco”, sin embargo).

En general, creo que GPT-5 se llevó nuestra instrucción de “El tiempo es esencial” un poco demasiado lejos, resumiendo los pasos componentes del aterrizaje a tal punto que se han dejado fuera detalles importantes. GPT-4o, por otro lado, aún mantiene las cosas concisas con viñetas mientras incluye información importante sobre la apariencia y la ubicación relativa de ciertos controles clave.

Si alguna vez me encontrara atrapado solo en una cabina de pilotaje con solo uno de estos modelos disponibles para ayudar a salvar el avión (una situación completamente plausible, sin duda), sé que querría tener a GPT-4o a mi lado.

En conclusión, estrictamente por los números, GPT-5 se lleva una victoria aquí, con la respuesta preferible en cuatro indicaciones frente a las tres de GPT-4o (con un empate). Pero en la mayoría de las indicaciones, cuál respuesta fue “mejor” fue más una decisión de juicio que una clara victoria.

En general, GPT-4o tiende a proporcionar un poco más de detalle y ser un poco más personal que las respuestas más directas y concisas de GPT-5. Qué estilo prefieras probablemente depende tanto del tipo de indicación que estés creando como del gusto personal (y podría cambiar si buscas información específica frente a una conversación general).

Al final, este tipo de comparación muestra lo difícil que es para un solo LLM ser todo para todas las personas (y todas las posibles indicaciones). A pesar de las afirmaciones de OpenAI de que GPT-5 es “mejor que nuestros modelos anteriores en todos los dominios”, las personas que están acostumbradas al estilo y la estructura de los modelos más antiguos siempre encontrarán formas en las que cualquier nuevo modelo se sienta peor.

Fuente original: ver aquí