Hume lanceert tekst-naar-spraakmodel Octave dat emotionele, aanpasbare AI-stemmen op aanvraag genereert op basis van uw prompts

Meld u aan voor onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve content over toonaangevende AI-dekking. Meer informatie

De New Yorkse startup Hume AI kwam twee jaar geleden uit het niets op de markt en heeft sindsdien miljoenen aan financiering opgehaald op basis van zijn technologie waarmee creatievelingen emotionele AI-stemmen kunnen omzetten in bedrijfsapplicaties.

Tegenwoordig gaat het bedrijf nog een stap verder met een nieuw groot taal- en spraakmodel, de zogenaamde “Omni-capable text and voice engine”, of kortweg Octave , die is ontworpen om levensechte, emotioneel genuanceerde spraak te produceren voor gebruik in verschillende vormen van content, van audioboeken tot vooraf opgenomen dialogen van videogamepersonages en film/tv/video.

Hume beweert dat Octave het eerste tekst-naar-spraaksysteem is dat wordt aangestuurd door een groot taalmodel (LLM) dat niet alleen is getraind op tekst, maar ook op spraak- en emotietokens. Hierdoor kan het woorden in context begrijpen en de toon, het ritme en de cadans dienovereenkomstig aanpassen. De gebruiker kan dit op zinsniveau aanpassen met tekstuele aanwijzingen.

"We lanceren de eerste LLM voor tekst-naar-spraak: een model dat woorden in context begrijpt en de juiste emoties, ritme, cadans en nadruk voorspelt, waardoor spraak menselijker klinkt dan ooit tevoren", aldus Alan Cowen, medeoprichter en CEO van Hume AI, in een videogesprek met VentureBeat.

Octave's mogelijkheden gaan verder dan het genereren van basisstemmen. Het kan karaktereigenschappen en stijl interpreteren op basis van een script alleen, en stembuigingen aanpassen aan geïmpliceerde emoties. Een sarcastische opmerking wordt sarcastisch uitgesproken, een paniekerige zin klinkt urgent en een gefluisterd geheim wordt verzwegen, allemaal zonder dat er expliciete aanwijzingen nodig zijn.

Als de gebruiker de gegenereerde stem niet bevalt of wil aanpassen, kan hij dat bovendien heel gedetailleerd doen via natuurlijke taal door simpelweg een tekstuele instructie in te typen in Octave, zoals 'blijer, verdrietiger, gefrustreerder, bozer, sarcastischer, oprechter', etc.

"Je kunt een personage beschrijven, bijvoorbeeld een sarcastische middeleeuwse boer, en het model creëert direct die stem, waarbij emoties als woede, verdriet of geluk worden aangepast op basis van jouw instructies", voegde Cowen toe.

Hoewel de huidige versie zich richt op Engelstalige spraak, ondersteunt Octave ook Spaans en naar verwachting worden de taalmogelijkheden in de nabije toekomst uitgebreid.

Op maat gemaakt voor het maken van content

Octave is speciaal ontwikkeld voor makers van content en mediaproductie en biedt toepassingen in audioboeken, podcasts, personages uit videogames en voice-overs van video's.

"Dit nieuwe model is ontworpen voor offline tekst-naar-spraak, perfect voor audioboeken, podcasts, videovoice-overs en videogamekarakters, waarbij makers realistische, karakterspecifieke stemmen nodig hebben", legt Cowen uit.

De gebruiker moet er echter toegang toe hebben via de website van Hume, hetzij op de pagina Projecten, hetzij via een application programming interface (API). Het "offline"-component verwijst naar het feit dat dit model is ontworpen om discrete audiobestanden te produceren die kunnen worden toegevoegd aan projecten, zoals video's of audioboeken. Het is niet ontworpen om realtime conversaties te voeren, hoewel dat theoretisch zou kunnen worden toegestaan door tekstquery's naar de website te leiden.

Met de API van Hume kunnen ontwikkelaars maximaal 50 verzoeken per minuut indienen voor het nieuwe Octave-model, met een maximale tekstlengte van 5.000 tekens en beschrijvingen van maximaal 1.000 tekens. Elk verzoek kan maximaal vijf uitvoer genereren en de ondersteunde audioformaten omvatten MP3, WAV en PCM.

De eerdere EVI-modellenreeks van Hume maakt streaming, realtime en heen-en-weer-interacties mogelijk en blijft beschikbaar en zal verder worden ontwikkeld.

Hume AI biedt een prijsmodel op basis van abonnementen, met niveaus die variëren van een gratis optie tot de abonnementen Creator, Creator Pro en Enterprise.

Hier volgt een beknopt overzicht van het aanbod:

Gratis ($0/maand) – 10.000 tekens tekst-naar-spraak per maand (~10 minuten) met onbeperkte aangepaste stemmen.
Starter ($3/maand) – 30.000 tekens (~30 minuten) plus ondersteuning voor maximaal 20 projecten.
Creator ($10/maand) – 100.000 tekens (~100 minuten), op gebruik gebaseerde prijzen voor extra tekens ($0,20/1.000) en ondersteuning voor maximaal 1.000 projecten.
Pro ($50/maand) – 500.000 tekens (~500 minuten), lagere prijzen op basis van gebruik ($0,15/1.000) en ondersteuning voor maximaal 3.000 projecten.
Schaal ($150/maand) – 2.000.000 tekens (~2.000 minuten), verder verlaagde prijzen op basis van gebruik ($0,13/1.000) en ondersteuning voor maximaal 10.000 projecten.
Zakelijk ($900/maand) – 10.000.000 tekens (~10.000 minuten), nog lagere prijzen op basis van gebruik ($0,10/1.000) en ondersteuning voor maximaal 20.000 projecten.
Enterprise (aangepaste prijs) – Onbeperkt gebruik, aangepaste juridische voorwaarden, beveiligingsgaranties, aanzienlijk gereduceerde bulkprijzen en prioriteitsondersteuning.

Hume benadrukte dat de prijzen van Octave TTS ongeveer de helft zijn van die van de concurrerende AI-spraakcreatiestartup ElevenLabs , wat de toenemende concurrentie op het gebied van tekst-naar-spraak aantoont.

Daarnaast voerde Hume AI een blinde vergelijkingsstudie uit met 180 menselijke beoordelaars om Octave te vergelijken met ElevenLabs. De resultaten lieten zien dat Octave de voorkeur kreeg in termen van audiokwaliteit (71,6% van de proeven), natuurlijkheid (51,7% van de proeven) en hoe goed de spraak overeenkwam met beschrijvingen van de gewenste stem (57,7% van de proeven), over 120 verschillende prompts.

Om de prestaties verder te evalueren, heeft Hume AI ook de Expressive TTS Arena gelanceerd, een openbare benchmark die is ontworpen om te testen hoe goed AI-modellen langere, expressieve spraak kunnen verwerken. Dit is een gebied dat in eerdere TTS-benchmarks grotendeels over het hoofd is gezien.

In tegenstelling tot traditionele tekst-naar-spraaksystemen die afhankelijk zijn van beperkte spraakdatasets, is Octave TTS gebaseerd op een LLM die is getraind op tientallen biljoenen taaltokens.

"Traditionele tekst-naar-spraakmodellen zijn getraind op beperkte spraakgegevens, maar de onze is gebouwd op een LLM die is getraind op tientallen biljoenen tokens, waardoor het in staat is om te redeneren, te denken en emoties af te leiden uit tekst", aldus Cowen.

Het model werd getraind met behulp van miljoenen uren aan openbare, uitgebreide spraakgegevens en de eigen datasets van Hume AI met nieuwe stemmen die door deelnemers aan de enquête waren opgenomen.

"We hebben gegevens verzameld van mensen die zichzelf via webcams opnamen, op een natuurlijke manier reageerden op video's, verhalen vertelden en met anderen praatten, waaronder vrienden en familie, om een breed scala aan emotionele uitingen vast te leggen", aldus Cowen.

Dankzij deze uitgebreide training kan het model emotionele context afleiden en gedetailleerde instructies opvolgen. Zo creëert het stemmen die passen bij specifieke karakterbeschrijvingen en eigenschappen.

Het model, dat nu beschikbaar is via het platform en de API van Hume AI, biedt emotionele controle op zinsniveau, met enige flexibiliteit binnen zinnen.

"Stemmodulatie werkt op zinsniveau, maar je kunt ook delen van een zin aanpassen, waarbij je het model opdracht geeft om genuanceerde emoties over te brengen, zoals lichte frustratie gemengd met humor of ergernis", merkte Cowen op. Het model houdt ook rekening met context die verder gaat dan individuele zinnen. "In tegenstelling tot traditionele modellen die tekst woord voor woord verwerken, houdt ons model rekening met hele alinea's, waarbij context wordt vastgelegd om natuurlijkere en emotioneel nauwkeurigere spraak te leveren", legde hij uit.

Octave TTS zorgt voor consistente karakterstemmen in langere content.

"Met ons platform kun je unieke stemmen genereren voor elk personage in een audioboek, zoals een orc van middelbare leeftijd, en de stem van dat personage gedurende het hele verhaal behouden", aldus Cowen.

Deze mogelijkheid wordt ondersteund door de pagina 'Projecten' van Hume AI, die langere content zoals audioboeken verwerkt door de tekst automatisch op te delen, waarbij de consistentie van de tekens en de context over de hoofdstukken heen behouden blijven.

Hume heeft technische beperkingen op zijn website en API ingebouwd die het creëren van realistische kinderstemmen en imitaties van specifieke personen verbieden. Maar afgezien daarvan mag het programma gebruikt worden voor een breed scala aan content en onderwerpen, inclusief scènes die mogelijk niet geschikt zijn voor op het werk, zoals die in populaire liefdesromans.

"We geven ontwikkelaars de vrijheid om content te maken die een breed scala aan menselijke ervaringen bestrijkt, maar we beperken wel de creatie van realistische kinderstemmen en imitaties van specifieke individuen", legt Cowen uit.

Cowen zei bovendien dat het bedrijf deze beperkingen op verzoek kan aanpassen voor specifieke klanten, zoals een uitgever van kinderboeken die stemmen wil creëren voor audioboeken voor kinderen.

Daarnaast werkt Hume AI aan een toekomstige Voice Cloning-functie, waarmee gebruikers een stem kunnen repliceren met slechts vijf seconden audio. Het bedrijf ontwikkelt waarborgen om ethisch gebruik te garanderen voordat de functie openbaar wordt gemaakt.

Met de combinatie van contextueel bewustzijn, emotionele expressie en personagepersonalisatie wil Octave TTS contentmakers meer controle en flexibiliteit geven, en stemmen leveren die zowel realistisch als emotioneel aansprekend klinken.

Dagelijkse inzichten in zakelijke use cases met VB Daily

Als u indruk wilt maken op uw baas, dan bent u bij VB Daily aan het juiste adres. Wij geven u de inside scoop over wat bedrijven doen met generatieve AI, van regelgevende verschuivingen tot praktische implementaties, zodat u inzichten kunt delen voor maximale ROI.

Lees ons privacybeleid

Bedankt voor uw inschrijving. Bekijk hier meer VB-nieuwsbrieven .

Er is een fout opgetreden.