Wybierz język

Polish

Down Icon

Wybierz kraj

England

Down Icon

Dostrajanie kontra nauka w kontekście: Nowe badania wskazują na lepszą personalizację LLM do zadań w świecie rzeczywistym

Dostrajanie kontra nauka w kontekście: Nowe badania wskazują na lepszą personalizację LLM do zadań w świecie rzeczywistym

Dołącz do naszych codziennych i cotygodniowych newsletterów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodących w branży relacji z AI. Dowiedz się więcej

Dwa popularne podejścia do dostosowywania dużych modeli językowych (LLM) do zadań downstream to dostrajanie i uczenie się w kontekście (ICL). W niedawnym badaniu naukowcy z Google DeepMind i Uniwersytetu Stanforda zbadali możliwości generalizacji tych dwóch metod. Odkryli, że ICL ma większą zdolność generalizacji (choć wiąże się z wyższym kosztem obliczeniowym podczas wnioskowania). Proponują również nowatorskie podejście, aby uzyskać to, co najlepsze z obu światów.

Wyniki mogą pomóc programistom podejmować kluczowe decyzje podczas tworzenia aplikacji LLM dla ich indywidualnych danych korporacyjnych.

Dostrajanie polega na wzięciu wstępnie wytrenowanego LLM i dalszym trenowaniu go na mniejszym, wyspecjalizowanym zestawie danych. To dostosowuje wewnętrzne parametry modelu, aby nauczyć go nowej wiedzy lub umiejętności. Z drugiej strony uczenie się w kontekście (ICL) nie zmienia podstawowych parametrów modelu. Zamiast tego kieruje LLM, podając przykłady żądanego zadania bezpośrednio w monicie wejściowym. Następnie model używa tych przykładów, aby dowiedzieć się, jak obsłużyć nowe, podobne zapytanie.

Naukowcy postanowili dokładnie porównać, jak dobrze modele generalizują się do nowych zadań, używając tych dwóch metod. Skonstruowali „kontrolowane syntetyczne zbiory danych wiedzy faktycznej” ze złożonymi, spójnymi strukturami, takimi jak wyimaginowane drzewa genealogiczne lub hierarchie fikcyjnych pojęć.

Aby mieć pewność, że testują zdolność modelu do przyswajania nowych informacji, zastąpili wszystkie rzeczowniki, przymiotniki i czasowniki terminami bezsensownymi, unikając w ten sposób jakiegokolwiek nakładania się z danymi, na które model LLM mógł natrafić w trakcie wstępnego szkolenia.

Następnie modele testowano pod kątem różnych wyzwań generalizacji. Na przykład jeden test obejmował proste odwrócenia . Jeśli model został wytrenowany, że „femp są bardziej niebezpieczne niż glon”, czy mógł poprawnie wywnioskować, że „glon są mniej niebezpieczne niż femp”? Inny test skupiał się na prostych sylogizmach , formie logicznego dedukcji. Jeśli powiedziano „All glon are yomp” i „All troff are glon”, czy model mógł wywnioskować, że „All troff are yomp”? Użyli również bardziej złożonego „punktu odniesienia struktury semantycznej” z bogatszą hierarchią tych wymyślonych faktów, aby przetestować bardziej niuansowe zrozumienie.

„Nasze wyniki skupiają się przede wszystkim na ustawieniach dotyczących tego, w jaki sposób modele uogólniają wnioski i odwrócenia wynikające z dostrajania nowych struktur wiedzy, co ma wyraźne implikacje dla sytuacji, w których dostrajanie jest wykorzystywane do dostosowania modelu do informacji specyficznych dla firmy i zastrzeżonych” – powiedział Andrew Lampinen, naukowiec badawczy w Google DeepMind i główny autor artykułu w wywiadzie dla VentureBeat.

Aby ocenić wydajność, badacze dostroili Gemini 1.5 Flash na tych zestawach danych. W przypadku ICL wprowadzili cały zestaw danych szkoleniowych (lub duże podzbiory) jako kontekst do modelu dostrojonego do instrukcji przed zadaniem pytań testowych.

Wyniki konsekwentnie wykazały, że w ustawieniach dopasowanych do danych ICL prowadziło do lepszej generalizacji niż standardowe dostrajanie. Modele wykorzystujące ICL były ogólnie lepsze w zadaniach takich jak odwracanie relacji lub dokonywanie logicznych wniosków z dostarczonego kontekstu. Wstępnie wyszkolone modele, bez dostrajania lub ICL, działały słabo, co wskazuje na nowość danych testowych.

„Jednym z głównych kompromisów, które należy wziąć pod uwagę, jest to, że chociaż ICL nie wymaga dostrajania (co oszczędza koszty szkolenia), jest generalnie bardziej kosztowne obliczeniowo przy każdym użyciu, ponieważ wymaga dostarczenia dodatkowego kontekstu do modelu” — powiedział Lampinen. „Z drugiej strony ICL ma tendencję do lepszego uogólniania dla zestawów danych i modeli, które ocenialiśmy”.

Opierając się na obserwacji, że ICL jest doskonałe w elastycznej generalizacji, badacze zaproponowali nową metodę udoskonalenia dostrajania: dodawanie wniosków w kontekście do danych dostrajających. Głównym pomysłem jest wykorzystanie własnych możliwości ICL LLM do generowania bardziej zróżnicowanych i bogatszych przykładów wnioskowania, a następnie dodanie tych rozszerzonych przykładów do zestawu danych używanego do dostrajania.

Przeanalizowali dwie główne strategie powiększania danych:

  1. Strategia lokalna : To podejście koncentruje się na pojedynczych informacjach. LLM jest zachęcany do przeformułowania pojedynczych zdań z danych treningowych lub wyciągania z nich bezpośrednich wniosków, takich jak generowanie odwróceń.
  2. Strategia globalna : LLM otrzymuje pełny zestaw danych szkoleniowych jako kontekst, a następnie jest zachęcany do generowania wniosków poprzez powiązanie określonego dokumentu lub faktu z pozostałymi dostarczonymi informacjami, co prowadzi do dłuższego śladu rozumowania odpowiednich wniosków.

Gdy modele zostały dostrojone na tych rozszerzonych zestawach danych, zyski były znaczące. To rozszerzone dostrajanie znacznie poprawiło generalizację, przewyższając nie tylko standardowe dostrajanie, ale także zwykły ICL.

„Na przykład, jeśli w jednym z dokumentów firmy jest napisane »XYZ jest wewnętrznym narzędziem do analizy danych«, nasze wyniki sugerują, że ICL i rozszerzone dostrajanie będą skuteczniejsze w umożliwieniu modelowi udzielenia odpowiedzi na powiązane pytania, takie jak »Jakie wewnętrzne narzędzia do analizy danych istnieją?«” — powiedział Lampinen.

To podejście oferuje przedsiębiorstwom przekonującą ścieżkę naprzód. Inwestując w tworzenie tych zestawów danych rozszerzonych o ICL, deweloperzy mogą budować dostrojone modele, które wykazują silniejsze możliwości generalizacji.

Może to prowadzić do bardziej niezawodnych i solidnych aplikacji LLM, które będą działać lepiej w przypadku zróżnicowanych, rzeczywistych danych wejściowych, bez ponoszenia ciągłych kosztów wnioskowania czasowego związanych z dużymi monitami kontekstowymi.

„Rozszerzone dostrajanie na ogół sprawi, że proces dostrajania modelu będzie droższy, ponieważ wymaga dodatkowego kroku ICL w celu rozszerzenia danych, po którym następuje dostrajanie” — powiedział Lampinen. „Czy ten dodatkowy koszt jest uzasadniony przez ulepszoną generalizację, będzie zależało od konkretnego przypadku użycia. Jest to jednak obliczeniowo tańsze niż stosowanie ICL za każdym razem, gdy model jest używany, gdy jest amortyzowane przez wiele zastosowań modelu”.

Lampinen zauważył, że potrzebne są dalsze badania, aby sprawdzić, jak badane przez nich komponenty współdziałają w różnych warunkach. Dodał jednak, że ich odkrycia wskazują, iż programiści mogą chcieć rozważyć wykorzystanie rozszerzonego dostrajania w przypadkach, gdy widzą, że samo dostrajanie nie przynosi wystarczających efektów.

„Ostatecznie mamy nadzieję, że praca ta przyczyni się do zrozumienia nauki uczenia się i generalizacji w modelach podstawowych oraz praktycznych aspektów ich adaptacji do zadań dalszych” – powiedział Lampinen.

Codzienne spostrzeżenia na temat przypadków użycia biznesowego z VB Daily

Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma dla Ciebie rozwiązanie. Dajemy Ci wewnętrzny wgląd w to, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz dzielić się spostrzeżeniami, aby uzyskać maksymalny zwrot z inwestycji.

Przeczytaj naszą Politykę prywatności

Dziękujemy za subskrypcję. Sprawdź więcej newsletterów VB tutaj .

Wystąpił błąd.

venturebeat

venturebeat

Podobne wiadomości

Wszystkie wiadomości
Animated ArrowAnimated ArrowAnimated Arrow