Anthropic utilizó Pokémon para evaluar su nuevo modelo de IA

Anthropic utilizó Pokémon para evaluar su nuevo modelo de IA. Sí, en serio.
En una publicación de blog publicada el lunes, Anthropic dijo que probó su último modelo, Claude 3.7 Sonnet , en el clásico Pokémon Red de Game Boy. La compañía equipó el modelo con memoria básica, entrada de píxeles en la pantalla y llamadas de función para presionar botones y navegar por la pantalla, lo que le permite jugar Pokémon de forma continua.
Una característica única de Claude 3.7 Sonnet es su capacidad de “pensamiento extendido”. Al igual que el o3-mini de OpenAI y el R1 de DeepSeek, Claude 3.7 Sonnet puede “razonar” sobre problemas complejos aplicando más computación y dedicando más tiempo.
Eso resultó útil en Pokémon Rojo, aparentemente.
En comparación con una versión anterior de Claude, Claude 3.0 Sonnet, que no logró salir de la casa en Pueblo Paleta donde comienza la historia, Claude 3.7 Sonnet luchó con éxito contra tres líderes de gimnasio Pokémon y ganó sus insignias.

Ahora bien, no está claro cuántos cálculos fueron necesarios para que Claude 3.7 Sonnet alcanzara esos hitos, ni cuánto tiempo tardó cada uno. Anthropic solo dijo que el modelo realizó 35.000 acciones para llegar al último líder del gimnasio, Surge.
Seguramente no pasará mucho tiempo antes de que algún desarrollador emprendedor lo descubra.
Pokémon Red es más un referente de juguetes que otra cosa. Sin embargo, existe una larga historia de juegos que se utilizan para fines de evaluación comparativa de IA. Solo en los últimos meses, han surgido varias aplicaciones y plataformas nuevas para probar las habilidades de los modelos en juegos que van desde Street Fighter hasta Pictionary .
techcrunch