AI bedrijf Sesame maakt spraakmodel achter Maya openbaar
Het Amerikaanse AI bedrijf Sesame heeft het basismodel vrijgegeven dat wordt gebruikt voor hun realistische spraakassistent Maya. Het model, dat onder een open licentie wordt uitgebracht, kan worden gebruikt om verschillende stemmen te genereren.
Sesame heeft een belangrijk onderdeel van hun spraaktechnologie openbaar gemaakt door het CSM-1B model vrij te geven. Dit model, dat bestaat uit één miljard parameters, vormt de basis van hun spraakassistent Maya en is nu beschikbaar onder een Apache 2.0 licentie, waardoor het vrijwel zonder beperkingen commercieel kan worden gebruikt.
Het vrijgegeven model zet tekst en audio om in zogeheten RVQ audiocode. Deze techniek, die staat voor "residual vector quantization", wordt gebruikt om geluid om te zetten in specifieke codes. Dezelfde technologie wordt ook toegepast in andere AI audiotools, zoals Google SoundStream en Meta Encodec.
CSM-1B is gebouwd op een model uit Meta's Llama familie, gecombineerd met een speciale audio decoder. Sesame geeft aan dat een aangepaste versie van dit model wordt gebruikt voor hun Maya assistent.
Volgens de documentatie op het ontwikkelaarsplatform Hugging Face gaat het om een basismodel dat verschillende stemmen kan produceren, maar nog niet is geoptimaliseerd voor specifieke stemmen. Het model heeft beperkte mogelijkheden voor niet-Engelse talen, maar zal daarbij waarschijnlijk minder goed presteren.
Opvallend is dat Sesame niet bekend heeft gemaakt welke data zijn gebruikt om het model te trainen. Daarnaast bevat het model nauwelijks beveiligingen. Het bedrijf vertrouwt op een eresysteem waarbij ontwikkelaars wordt gevraagd het model niet te misbruiken voor het namaken van stemmen zonder toestemming, het verspreiden van nepnieuws of andere schadelijke activiteiten.
Tests met de demo op Hugging Face tonen aan hoe eenvoudig het is om stemmen te klonen. In minder dan een minuut kan een stem worden gekopieerd en gebruikt om allerlei teksten uit te spreken, inclusief gevoelige onderwerpen zoals verkiezingen en propaganda. Consumer Reports waarschuwde onlangs dat veel populaire AI stemkloningstools geen betekenisvolle bescherming bieden tegen fraude of misbruik.
Sesame, medeopgericht door Oculus medeoprichter Brendan Iribe, trok in februari veel aandacht met hun assistenttechnologie die zeer natuurlijk overkomt. Maya en hun andere assistent Miles ademen tijdens het spreken, maken natuurlijke spreekpauzes en kunnen worden onderbroken, vergelijkbaar met OpenAI's Voice Mode.
Het bedrijf heeft financiering ontvangen van bekende investeerders zoals Andreessen Horowitz, Spark Capital en Matrix Partners. Naast spraakassistenten werkt Sesame ook aan AI brillen die bedoeld zijn om de hele dag te dragen en uitgerust worden met hun eigen AI modellen.
Jolie
Bronnen
