Rozwiązanie IBM Granite 3.2 wykorzystuje rozumowanie warunkowe, prognozowanie szeregów czasowych i wizję dokumentów do rozwiązywania trudnych przypadków użycia w przedsiębiorstwach

Dołącz do naszych codziennych i cotygodniowych newsletterów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodących w branży relacji z AI. Dowiedz się więcej
Po przełomowym debiucie DeepSeek-R1 , modele wnioskowania cieszą się w 2025 roku ogromną popularnością.
IBM dołącza teraz do zabawy, dziś debiutując swoją rodziną modeli dużego języka (LLM) Granite 3.2. W przeciwieństwie do innych podejść do rozumowania, takich jak DeepSeek-R1 lub o3 OpenAI, IBM głęboko osadza rozumowanie w swoich podstawowych modelach open source Granite . Jest to podejście, które IBM określa jako rozumowanie warunkowe, gdzie rozumowanie krok po kroku w łańcuchu myśli (CoT) jest opcją w ramach modeli (w przeciwieństwie do bycia oddzielnym modelem).
To elastyczne podejście, w którym rozumowanie może być warunkowo aktywowane za pomocą flagi, co pozwala użytkownikom kontrolować, kiedy używać bardziej intensywnego przetwarzania. Nowa możliwość rozumowania opiera się na zyskach wydajnościowych wprowadzonych przez IBM wraz z wydaniem Granite 3.1 LLM w grudniu 2024 r.
IBM wypuszcza również nowy model wizji w rodzinie Granite 3.2, specjalnie zoptymalizowany pod kątem przetwarzania dokumentów. Model ten jest szczególnie przydatny do digitalizacji starszych dokumentów, co jest wyzwaniem, z którym zmaga się wiele dużych organizacji.
Innym wyzwaniem dla przedsiębiorstw w zakresie sztucznej inteligencji, które IBM zamierza rozwiązać za pomocą Granite 3.2, jest modelowanie predykcyjne. Uczenie maszynowe (ML) jest używane do przewidywań od dziesięcioleci, ale nie ma interfejsu języka naturalnego i łatwości użytkowania nowoczesnej generacji AI. Właśnie tutaj pasują modele prognozowania szeregów czasowych Granite firmy IBM; stosują one technologię transformatorową do przewidywania przyszłych wartości na podstawie danych opartych na czasie.
„Rozumowanie nie jest czymś, czym model jest, jest czymś, co model robi” – powiedział David Cox, wiceprezes ds. modeli AI w IBM Research, w wywiadzie dla VentureBeat.
Choć w roku 2025 wokół modeli wnioskowania nie brakuje entuzjazmu i szumu, samo wnioskowanie niekoniecznie przynosi korzyści użytkownikom korporacyjnym.
Zdolność do rozumowania w wielu aspektach od dawna jest częścią gen AI. Samo zachęcenie LLM do odpowiedzi w podejściu krok po kroku uruchamia podstawowe wyjście rozumowania CoT. Nowoczesne rozumowanie w modelach takich jak DeepSeek-R1, a teraz Granite 3.2, idzie nieco głębiej, wykorzystując uczenie przez wzmacnianie do trenowania i włączania zdolności rozumowania.
Podczas gdy monity CoT mogą być skuteczne w przypadku niektórych zadań, takich jak matematyka, możliwości rozumowania w Granite 3.2 mogą przynieść korzyści szerszemu zakresowi aplikacji korporacyjnych. Cox zauważył, że zachęcając model do poświęcania większej ilości czasu na myślenie, przedsiębiorstwa mogą usprawnić złożone procesy podejmowania decyzji. Rozumowanie może przynieść korzyści zadaniom inżynierii oprogramowania, rozwiązywaniu problemów informatycznych i innym przepływom pracy agentów, w których model może rozbić problemy, podejmować lepsze decyzje i rekomendować bardziej świadome rozwiązania.
IBM twierdzi również, że po włączeniu rozumowania Granite 3.2 jest w stanie przewyższyć konkurencję, w tym DeepSeek-R1, w zadaniach związanych z podążaniem za instrukcjami.
Chociaż Granite 3.2 ma zaawansowane możliwości rozumowania, Cox podkreślił, że nie każde zapytanie faktycznie wymaga większego rozumowania. W rzeczywistości wiele typów typowych zapytań może zostać negatywnie dotkniętych większym rozumowaniem.
Na przykład w przypadku zapytania opartego na wiedzy samodzielny model rozumowania, taki jak DeepSeek-R1, może poświęcić do 50 sekund na monolog wewnętrzny, aby odpowiedzieć na podstawowe pytanie, takie jak „Gdzie jest Rzym?”.
Jedną z kluczowych innowacji w Granite 3.2 jest wprowadzenie funkcji myślenia warunkowego, która pozwala programistom dynamicznie aktywować lub dezaktywować możliwości rozumowania modelu. Ta elastyczność pozwala użytkownikom na osiągnięcie równowagi między szybkością a głębokością analizy, w zależności od konkretnego zadania.
Idąc o krok dalej, modele Granite 3.2 korzystają z metody opracowanej przez jednostkę biznesową Red Hat firmy IBM, która wykorzystuje coś, co nazywa się „filtrem cząsteczkowym”, aby umożliwić bardziej elastyczne możliwości wnioskowania.
To podejście pozwala modelowi dynamicznie kontrolować i zarządzać wieloma wątkami rozumowania, oceniając, które z nich są najbardziej obiecujące, aby osiągnąć końcowy wynik. Zapewnia to bardziej dynamiczny i adaptacyjny proces rozumowania, a nie liniowy CoT. Cox wyjaśnił, że ta technika filtra cząsteczkowego daje przedsiębiorstwom jeszcze większą elastyczność w sposobie, w jaki mogą wykorzystywać możliwości rozumowania modelu.
W podejściu filtra cząstek występuje wiele wątków rozumowania występujących jednocześnie. Filtr cząstek przycina mniej efektywne podejścia, skupiając się na tych, które zapewniają lepsze wyniki. Tak więc zamiast po prostu stosować rozumowanie CoT, istnieje wiele podejść do rozwiązania problemu. Model może inteligentnie poruszać się po złożonych problemach, selektywnie skupiając się na najbardziej obiecujących liniach rozumowania.
Duże organizacje mają tendencję do posiadania równie dużych ilości dokumentów, z których wiele zostało zeskanowanych lata temu i teraz leży w archiwach. Wszystkie te dane były trudne do wykorzystania w nowoczesnych systemach.
Nowy model wizji Granite 3.2 został zaprojektowany, aby pomóc rozwiązać to wyzwanie przedsiębiorstwa. Podczas gdy wiele modeli multimodalnych koncentruje się na ogólnym zrozumieniu obrazu, możliwości wizji Granite 3.2 zostały zaprojektowane specjalnie do przetwarzania dokumentów — odzwierciedlając skupienie IBM na rozwiązywaniu namacalnych problemów przedsiębiorstwa, a nie na gonieniu za wynikami benchmarków.
System ten jest ukierunkowany na to, co Cox opisał jako „nieracjonalne ilości starych zeskanowanych dokumentów” zalegających w archiwach przedsiębiorstw, szczególnie w instytucjach finansowych. Stanowią one nieprzejrzyste magazyny danych, które pozostały w dużej mierze niewykorzystane pomimo ich potencjalnej wartości biznesowej.
W przypadku organizacji, które przez dziesięciolecia przechowywały papierową dokumentację, możliwość inteligentnego przetwarzania dokumentów zawierających wykresy, rysunki i tabele stanowi znaczną przewagę operacyjną nad uniwersalnymi modelami multimodalnymi, które doskonale sprawdzają się w opisywaniu zdjęć z wakacji, ale mają problemy ze zrozumieniem ustrukturyzowanych dokumentów biznesowych.
W testach porównawczych dla przedsiębiorstw, takich jak DocVQA i ChartQA, IBM Granite Vision 3.2 wypada silnie na tle konkurencji.
Być może najbardziej wyróżniającym się pod względem technicznym elementem tej wersji są „maleńkie miksery czasu” (TTM) firmy IBM – specjalistyczne modele oparte na transformatorach, zaprojektowane specjalnie do prognozowania szeregów czasowych.
Jednak prognozowanie szeregów czasowych, które umożliwia predykcyjną analizę i modelowanie, nie jest nowością. Cox zauważył, że z różnych powodów modele szeregów czasowych utknęły w starszej erze uczenia maszynowego (ML) i nie skorzystały z takiej samej uwagi, jaką poświęca się nowszym, bardziej efektownym modelom AI.
Modele Granite TTM stosują innowacje architektoniczne, które napędzały postępy LLM, do zupełnie innej dziedziny problemu: przewidywania przyszłych wartości na podstawie wzorców historycznych. Ta możliwość odpowiada na krytyczne potrzeby biznesowe w zakresie prognozowania finansowego, harmonogramowania konserwacji sprzętu i wykrywania anomalii.
Nie brakuje szumu medialnego, a dostawcy twierdzą, że prześcigają się w niezliczonej liczbie branżowych testów porównawczych.
Dla decydentów korporacyjnych zwracanie uwagi na benchmarki może być interesujące, ale to nie rozwiązuje problemów. Cox podkreślił, że IBM stosuje podejście „garnitur i krawat” do korporacyjnej AI, starając się rozwiązywać prawdziwe problemy.
„Myślę, że dzieje się wiele magicznego myślenia, że możemy mieć jeden superinteligentny model, który w jakiś sposób zrobi wszystko, czego potrzebujemy, i przynajmniej na razie nie jesteśmy nawet blisko tego” — powiedział Cox. „Nasza strategia jest taka: 'Zbudujmy prawdziwe, praktyczne narzędzia, wykorzystując tę bardzo ekscytującą technologię, i wbudujmy jak najwięcej funkcji, które ułatwią wykonywanie prawdziwej pracy'”.
Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma dla Ciebie rozwiązanie. Dajemy Ci wewnętrzny wgląd w to, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz dzielić się spostrzeżeniami, aby uzyskać maksymalny zwrot z inwestycji.
Przeczytaj naszą Politykę prywatności
Dziękujemy za subskrypcję. Sprawdź więcej newsletterów VB tutaj .
Wystąpił błąd.

venturebeat