Anthropic wykorzystał Pokémon do porównania swojego najnowszego modelu sztucznej inteligencji

Anthropic użył Pokémon do porównania swojego najnowszego modelu AI. Tak, naprawdę.
W poście na blogu opublikowanym w poniedziałek, Anthropic poinformował, że przetestował swój najnowszy model, Claude 3.7 Sonnet , na Game Boy classic Pokémon Red. Firma wyposażyła model w podstawową pamięć, wejście pikseli ekranu i wywołania funkcji do naciskania przycisków i poruszania się po ekranie, co pozwoliło mu grać w Pokémony w sposób ciągły.
Unikalną cechą Claude 3.7 Sonnet jest jego zdolność do angażowania się w „rozszerzone myślenie”. Podobnie jak o3-mini OpenAI i R1 DeepSeek, Claude 3.7 Sonnet może „rozumować” trudne problemy, stosując więcej obliczeń — i poświęcając na to więcej czasu.
Najwyraźniej okazało się to przydatne w Pokémon Red.
W porównaniu do poprzedniej wersji Claude'a, Claude 3.0 Sonnet, która nie opuściła domu w Pallet Town, gdzie rozpoczyna się historia, Claude 3.7 Sonnet skutecznie stoczył walkę z trzema liderami siłowni Pokémon i zdobył ich odznaki.

Teraz nie jest jasne, ile obliczeń wymagało Claude 3.7 Sonnet, aby osiągnąć te kamienie milowe — i ile czasu każdy z nich zajął. Anthropic powiedział tylko, że model wykonał 35 000 akcji, aby osiągnąć ostatniego lidera siłowni, Surge.
Z pewnością nie minie dużo czasu, zanim jakiś przedsiębiorczy deweloper się o tym dowie.
Pokémon Red jest bardziej testem porównawczym dla zabawek niż czymkolwiek innym. Istnieje jednak długa historia gier wykorzystywanych do celów testowania AI. Tylko w ciągu ostatnich kilku miesięcy pojawiło się wiele nowych aplikacji i platform do testowania umiejętności modeli w grach od Street Fighter do Pictionary .
techcrunch