
En un experimento durante la guerra, se propuso entrenar palomas para picotear un objetivo en una pantalla, dirigiendo así un misil. Aunque el sistema nunca se utilizó, dejó un legado importante: una metodología de aprendizaje basada en prueba, error y recompensa. Aunque hoy no se emplean aves en los algoritmos, la idea de reforzar conductas mediante señales persiste. Esta lógica, sencilla y directa, es fundamental en muchos modelos actuales de inteligencia artificial, donde las respuestas condicionadas por comida se han transformado en puntuaciones o indicaciones humanas que los modelos aprenden a seguir.
De las palomas al código: cómo una IA aprende a perseguir la recompensa
El mecanismo de prueba y refuerzo no se ha perdido con el tiempo. En las décadas de 1940 y 1950, el psicólogo Burrhus Frederic Skinner formalizó esta idea con su teoría del “condicionamiento operante”, que establece que un comportamiento aumenta su probabilidad de repetirse si sus consecuencias son positivas. Aunque el conductismo fue desplazado por enfoques centrados en procesos mentales, su lógica se aplicó en la informática. Desde finales de los años setenta y, especialmente, en los ochenta y noventa, Richard Sutton y Andrew Barto la incorporaron al diseño de agentes artificiales que actúan, reciben señales y ajustan su comportamiento, como se detalla en ‘Reinforcement Learning: An Introduction’.
Según MIT Technology Review, la idea de moldear comportamientos sin reglas fijas se convirtió en una herramienta valiosa para enseñar a las máquinas. Desde los años ochenta, el aprendizaje por refuerzo se ha implementado en algoritmos que exploran entornos simulados, fallan, reciben retroalimentación y vuelven a intentarlo, aprendiendo en función del resultado. Este enfoque ha demostrado ser eficaz en tareas con objetivos claros, como los juegos, donde ha tenido un impacto notable.
La historia de AlphaGo, que en marzo de 2016 venció al surcoreano Lee Sedol por 4-1 en una serie de partidas de Go, marcó un hito en la inteligencia artificial. AlphaGo combinó aprendizaje supervisado de partidas humanas con aprendizaje por refuerzo. Un año después, DeepMind presentó AlphaGo Zero, que aprendió a jugar desde cero, mejorando su estrategia tras cada victoria y corrigiéndola tras cada derrota. En 40 días, superó a todos los campeones humanos y a versiones anteriores de AlphaGo.
Hoy, el aprendizaje por refuerzo no solo se aplica en juegos, sino también en servicios como ChatGPT. OpenAI utiliza una técnica conocida como aprendizaje por refuerzo con retroalimentación humana (RLHF), donde las preferencias de las personas guían la evolución del modelo. Este enfoque busca alinear el comportamiento del modelo con la intención del usuario, aprendiendo patrones que maximizan la recompensa, es decir, las respuestas mejor valoradas.
Sin embargo, el refuerzo tiene sus limitaciones. Su eficacia depende de que la señal esté bien definida y represente adecuadamente el objetivo. Si la señal es confusa o ineficaz, el sistema puede adoptar estrategias problemáticas. Algunos biólogos han señalado una paradoja: el aprendizaje por asociación se considera limitado en animales, pero se celebra en IA cuando produce resultados avanzados. Más de 80 años después del experimento con palomas, sus picotazos permanecen presentes en la tecnología que utilizamos a diario.
Imágenes | NIST Museum | Google | Xataka con Gemini 2.5 Pro
En Xataka | El extraño caso de la IA menguante: cómo los modelos diminutos le están sacando los colores a los mastodontes de la IA
Fuente original: ver aquí
