Lokalnie czy w chmurze: jak korzystać ze sztucznej inteligencji na komputerze bez połączenia z internetem.
Przyszłość sztucznej inteligencji niekoniecznie wiąże się z poleganiem na chmurze, a raczej na przetwarzaniu lokalnym, podobnie jak inne usługi, które uruchamiamy na naszych komputerach. Od kilku miesięcy korzystamy z Lenovo P14 S , wyposażonego w procesor Qualcomm Snapdragon X Elite i NPU, co plasuje go w czołówce komputerów do przetwarzania AI. Mieliśmy okazję porozmawiać z Alberto Ruano, prezesem Lenovo Spain, o tej nowej generacji komputerów, które zmieniają się, aby priorytetowo traktować AI. Jedną z najciekawszych rzeczy było uruchamianie modeli podobnych do ChatGPT – w naszym przypadku LLaMA 3.2 od Meta – bezpośrednio na komputerze, bez konieczności połączenia z internetem .
Ruano stawia sprawę jasno: „Przyszłość komputerów PC leży w sztucznej inteligencji. Nie tylko w inteligentnych asystentach, ale także w funkcjach, które pozwalają pracować lokalnie, bez wysyłania danych na serwery”. I właśnie to testowaliśmy.
To doświadczenie nas zadziwiło. Korzystając z aplikacji takich jak AnythingLLM, mogliśmy uruchamiać modele językowe całkowicie lokalnie, integrując nawet nasze własne bazy danych za pomocą funkcji RAG. Dla osób przetwarzających poufne informacje, takich jak dziennikarze czy prawnicy, ta możliwość to prawdziwy przełom: model nie musi niczego przesyłać do chmury; wszystko pozostaje na urządzeniu. Prywatność jest w pełni zachowana. To niesamowite, że dzięki modelom lokalnym możemy osiągnąć poziom odpowiedzi ChatGPT-40 , że mamy dużą część ludzkiej bazy wiedzy zainstalowaną na naszym komputerze i że sztuczna inteligencja jest w stanie odpowiedzieć praktycznie na każde pytanie.
W naszych testach modelami, które naprawdę się wyróżniły, były LLaMA 3.1 8B Chat z 8000 tokenami kontekstowymi (co odpowiada 6000 lub 7000 słowom, które możemy uwzględnić w monicie), oraz Phi 3.5 Mini Instruct z 4000 tokenami kontekstowymi (to około 3000 słów). Oba zostały zoptymalizowane pod kątem działania na procesorze NPU Snapdragon X Elite i bezpośredniej integracji z AnythingLLM. W tym przypadku, jako modele dostosowane przez Qualcomm do swojego procesora NPU, wydajność była doskonała: szybki czas reakcji i poczucie bezpośredniości, porównywalne z każdym doświadczeniem w chmurze.
Zastosowanie NPU nie tylko przyspiesza wnioskowanie, ale także znacząco zmniejsza zużycie baterii i uwalnia główny procesor do innych zadań. W ten sposób, nawet jeśli stale korzystamy z naszego ChatGPT, możemy cieszyć się niemal całodniowym czasem pracy na baterii, a właśnie tego oczekują użytkownicy: długiego czasu pracy na baterii. Ruano wyjaśnia: „Celem jest osiągnięcie czasu pracy na baterii do 25 godzin w niektórych modelach, bez znaczącego zwiększenia wagi urządzenia”.
Próbowaliśmy również uruchomić modele, które nie są zoptymalizowane pod kątem NPU, takie jak nowy Qwen 3 z 8 miliardami parametrów czy najnowszej generacji Deepseek r11B. W tym przypadku doświadczenie się zmienia: działają, ale nie tak szybko, ponieważ bazują na procesorze. W przypadku innych modeli nie mogliśmy nawet uruchomić ich poprawnie z powodu ograniczeń pamięci; w innych wydajność była bardzo niska, choć funkcjonalna, co jest bardzo powszechne bez wydajnego procesora graficznego.
Test ten wyraźnie pokazuje, że choć sprzęt firmy Qualcomm jest obiecujący, kluczem jest opracowanie modeli dobrze dostosowanych do ekosystemu, tj. do jej procesora NPU.
Wizja Lenovo wykracza poza sprzęt. „Chcemy, aby komputery były czymś więcej niż tylko narzędziem pracy; powinny być częścią połączonego ekosystemu, adaptowalnego do każdego środowiska” – wyjaśnił Ruano. Oznacza to urządzenia zdolne do rozumienia, przetwarzania i pomagania użytkownikowi w czasie rzeczywistym, bez konieczności ciągłego połączenia z internetem. Chip Qualcomm i narzędzia takie jak AnythingLLM przybliżają nas o krok do bardziej prywatnej, wydajnej i spersonalizowanej sztucznej inteligencji.
ABC.es