Anthropic nutzte Pokémon zum Benchmarking seines neuesten KI-Modells

Anthropic hat Pokémon als Benchmark für sein neuestes KI-Modell verwendet. Ja, wirklich.
In einem am Montag veröffentlichten Blogbeitrag teilte Anthropic mit, dass es sein neuestes Modell, Claude 3.7 Sonnet , auf dem Game Boy-Klassiker Pokémon Red getestet habe. Das Unternehmen hat das Modell mit Basisspeicher, Bildschirmpixel-Eingabe und Funktionsaufrufen zum Drücken von Tasten und Navigieren auf dem Bildschirm ausgestattet, sodass Pokémon ununterbrochen gespielt werden kann.
Ein einzigartiges Merkmal von Claude 3.7 Sonnet ist seine Fähigkeit zum „erweiterten Denken“. Wie OpenAIs o3-mini und DeepSeeks R1 kann Claude 3.7 Sonnet anspruchsvolle Probleme „durchdenken“, indem es mehr Rechenleistung anwendet – und sich mehr Zeit nimmt.
Das war in Pokémon Red offenbar praktisch.
Im Vergleich zu einer früheren Version von Claude, Claude 3.0 Sonnet, die es nicht schaffte, das Haus in Alabastia zu verlassen, wo die Geschichte beginnt, kämpfte Claude 3.7 Sonnet erfolgreich gegen drei Pokémon-Arenaleiter und gewann ihre Abzeichen.

Es ist nicht klar, wie viel Rechenaufwand nötig war, damit Claude 3.7 Sonnet diese Meilensteine erreichen konnte – und wie lange jeder einzelne dauerte. Anthropic sagte lediglich, dass das Modell 35.000 Aktionen ausführte, um den letzten Arenaleiter, Surge, zu erreichen.
Es wird sicherlich nicht lange dauern, bis ein unternehmungslustiger Entwickler davon erfährt.
Pokémon Red ist mehr ein Spielzeug-Benchmark als alles andere. Es gibt jedoch eine lange Tradition , dass Spiele für KI-Benchmarking-Zwecke verwendet werden. Allein in den letzten Monaten sind eine Reihe neuer Apps und Plattformen aufgetaucht, um die Spielfähigkeiten von Modellen bei Titeln von Street Fighter bis Pictionary zu testen.
techcrunch