Fine-tuning versus in-context leren: nieuw onderzoek leidt tot betere LLM-aanpassing voor taken in de echte wereld

Abonneer u op onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve content over toonaangevende AI-dekking. Lees meer

Twee populaire benaderingen voor het aanpassen van grote taalmodellen (LLM's) voor downstream-taken zijn finetuning en in-context learning (ICL). In een recente studie hebben onderzoekers van Google DeepMind en Stanford University de generalisatiemogelijkheden van deze twee methoden onderzocht. Ze concluderen dat ICL een groter generalisatievermogen heeft (hoewel dit hogere rekenkosten met zich meebrengt tijdens de inferentie). Ze stellen ook een nieuwe aanpak voor om het beste van beide werelden te benutten.

De bevindingen kunnen ontwikkelaars helpen bij het nemen van cruciale beslissingen bij het bouwen van LLM-applicaties voor hun specifieke bedrijfsgegevens.

Finetuning houdt in dat een vooraf getrainde LLM wordt gebruikt en verder wordt getraind op een kleinere, gespecialiseerde dataset. Dit past de interne parameters van het model aan om het nieuwe kennis of vaardigheden bij te brengen. In-context learning (ICL) daarentegen verandert de onderliggende parameters van het model niet. In plaats daarvan begeleidt het de LLM door voorbeelden van de gewenste taak direct in de invoerprompt te geven. Het model gebruikt deze voorbeelden vervolgens om te bepalen hoe een nieuwe, vergelijkbare query moet worden afgehandeld.

De onderzoekers wilden met behulp van deze twee methoden grondig vergelijken hoe goed modellen generaliseren naar nieuwe taken. Ze construeerden "gecontroleerde synthetische datasets van feitelijke kennis" met complexe, zelfconsistente structuren, zoals denkbeeldige stambomen of hiërarchieën van fictieve concepten.

Om er zeker van te zijn dat ze het vermogen van het model om nieuwe informatie te leren testten, vervingen ze alle zelfstandige naamwoorden, bijvoeglijke naamwoorden en werkwoorden door onzinnige termen. Daarmee voorkwamen ze overlappingen met de gegevens die de LLM's tijdens de pre-training zouden kunnen zijn tegengekomen.

De modellen werden vervolgens getest op diverse generalisatie-uitdagingen. Eén test omvatte bijvoorbeeld eenvoudige omkeringen . Als een model getraind werd met de stelling "femp is gevaarlijker dan glon", kon het dan correct afleiden dat "glon minder gevaarlijk is dan femp"? Een andere test richtte zich op eenvoudige syllogismen , een vorm van logische deductie. Als het model te horen kreeg "Alle glon zijn yomp" en "Alle troff zijn glon", kon het dan afleiden dat "Alle troff zijn yomp"? Ze gebruikten ook een complexere "semantische structuurbenchmark" met een rijkere hiërarchie van deze verzonnen feiten om een genuanceerder begrip te testen.

"Onze resultaten richten zich primair op de manier waarop modellen worden gegeneraliseerd naar afleidingen en omkeringen van finetuning op nieuwe kennisstructuren, met duidelijke implicaties voor situaties waarin finetuning wordt gebruikt om een model aan te passen aan bedrijfsspecifieke en bedrijfseigen informatie", vertelde Andrew Lampinen, onderzoeker bij Google DeepMind en hoofdauteur van het artikel, aan VentureBeat.

Om de prestaties te evalueren, hebben de onderzoekers Gemini 1.5 Flash op deze datasets verfijnd. Voor ICL voerden ze de volledige trainingsdataset (of grote subsets) in als context voor een instructie-afgestemd model voordat ze de testvragen stelden.

De resultaten toonden consistent aan dat ICL in data-matching-omgevingen tot betere generalisatie leidde dan standaard finetuning. Modellen die ICL gebruikten, waren over het algemeen beter in taken zoals het omkeren van relaties of het maken van logische deducties uit de gegeven context. Vooraf getrainde modellen, zonder finetuning of ICL, presteerden slecht, wat wees op de nieuwigheid van de testdata.

"Een van de belangrijkste afwegingen is dat ICL weliswaar geen finetuning vereist (wat trainingskosten bespaart), maar dat het bij elk gebruik over het algemeen meer rekenkracht kost, omdat het extra context aan het model moet toevoegen", aldus Lampinen. "Aan de andere kant generaliseert ICL beter voor de datasets en modellen die we hebben geëvalueerd."

Voortbouwend op de observatie dat ICL uitblinkt in flexibele generalisatie, stelden de onderzoekers een nieuwe methode voor om finetuning te verbeteren: het toevoegen van in-context inferenties aan finetuning-data. De kerngedachte is om de ICL-capaciteiten van de LLM te gebruiken om meer diverse en rijkelijk geinfereerde voorbeelden te genereren, en deze uitgebreide voorbeelden vervolgens toe te voegen aan de dataset die voor finetuning wordt gebruikt.

Ze onderzochten twee belangrijke strategieën voor data-uitbreiding:

Een lokale strategie : deze aanpak richt zich op individuele stukjes informatie. De LLM wordt aangezet om afzonderlijke zinnen uit de trainingsdata te herformuleren of er directe conclusies uit te trekken, zoals het genereren van omkeringen.
Een globale strategie : De LLM krijgt de volledige trainingsdataset als context en wordt vervolgens aangezet tot het genereren van conclusies door een specifiek document of feit te koppelen aan de rest van de verstrekte informatie. Dit leidt tot een langer redeneertraject met relevante conclusies.

Toen de modellen werden verfijnd op deze uitgebreide datasets, waren de winsten aanzienlijk. Deze uitgebreide finetuning verbeterde de generalisatie aanzienlijk en overtrof niet alleen standaard finetuning, maar ook gewone ICL.

"Als in een van de bedrijfsdocumenten bijvoorbeeld staat 'XYZ is een interne tool voor het analyseren van data', dan suggereren onze resultaten dat ICL en augmented finetuning effectiever zullen zijn om het model in staat te stellen gerelateerde vragen te beantwoorden, zoals 'Welke interne tools voor data-analyse bestaan er?'", aldus Lampinen.

Deze aanpak biedt bedrijven een aantrekkelijk pad voorwaarts. Door te investeren in het creëren van deze ICL-verrijkte datasets, kunnen ontwikkelaars verfijnde modellen bouwen met sterkere generalisatiemogelijkheden.

Dit kan leiden tot robuustere en betrouwbaardere LLM-toepassingen die beter presteren bij uiteenlopende, echte invoer, zonder de voortdurende inferentietijdkosten die gepaard gaan met grote in-context prompts.

"Augmented finetuning maakt het proces van modelfinetuning over het algemeen duurder, omdat het een extra stap van ICL vereist om de data te verrijken, gevolgd door finetuning", aldus Lampinen. "Of die extra kosten gerechtvaardigd zijn door de verbeterde generalisatie, hangt af van de specifieke use case. Het is echter rekenkundig goedkoper dan het toepassen van ICL elke keer dat het model wordt gebruikt, wanneer het wordt afgeschreven over meerdere keren dat het model wordt gebruikt."

Lampinen gaf aan dat er meer onderzoek nodig is om te zien hoe de onderdelen die ze bestudeerd hebben in verschillende omgevingen samenwerken. Hij voegde daaraan toe dat hun bevindingen erop wijzen dat ontwikkelaars wellicht moeten overwegen om uitgebreide fine-tuning te gebruiken in gevallen waarin fine-tuning alleen onvoldoende presteert.

"Uiteindelijk hopen we dat dit werk een bijdrage zal leveren aan de wetenschap van het begrijpen van leren en generalisatie in fundamentele modellen, en de praktische aspecten van het aanpassen ervan aan latere taken", aldus Lampinen.

Dagelijkse inzichten in zakelijke use cases met VB Daily

Wil je indruk maken op je baas? VB Daily helpt je op weg. We geven je inzicht in wat bedrijven doen met generatieve AI, van wetswijzigingen tot praktische implementaties, zodat je inzichten kunt delen voor een maximale ROI.

Lees ons privacybeleid

Bedankt voor uw aanmelding. Bekijk hier meer VB-nieuwsbrieven .

Er is een fout opgetreden.