Onderzoekers ontrafelen denkpatronen van taalmodel Claude

Onderzoekers ontrafelen denkpatronen van taalmodel Claude
Photo by Sam Moghadam / Unsplash

Wetenschappers van Anthropic hebben voor het eerst kunnen waarnemen hoe het AI taalmodel Claude 'denkt'. Hun onderzoek toont aan dat het systeem vooruit plant, verschillende talen tegelijk begrijpt en soms beredeneerde antwoorden verzint. Deze inzichten zijn cruciaal voor het begrijpen en verbeteren van AI systemen.

Taalmodellen zoals Claude worden niet rechtstreeks geprogrammeerd door mensen, maar leren zelf strategieën ontwikkelen door training met grote hoeveelheden data. Deze strategieën zijn verborgen in miljarden berekeningen die het model uitvoert voor elk woord dat het schrijft. Tot nu toe was het voor de ontwikkelaars onduidelijk hoe deze modellen precies werken.

Om beter te begrijpen hoe Claude denkt, hebben onderzoekers van Anthropic twee nieuwe studies uitgevoerd. Ze ontwikkelden een soort AI microscoop die patronen in de activiteit van het model zichtbaar maakt. Dit is vergelijkbaar met hoe neurowetenschappers de werking van menselijke hersenen bestuderen.

De studies leverden drie belangrijke ontdekkingen op. Ten eerste blijkt dat Claude een universele 'denktaal' gebruikt die verschillende talen overbrugt. Wanneer het model bijvoorbeeld dezelfde zin in het Engels, Frans en Chinees verwerkt, gebruikt het deels dezelfde denkpatronen. Ten tweede plant Claude meerdere woorden vooruit bij het schrijven van teksten. Bij het maken van gedichten denkt het bijvoorbeeld al na over rijmwoorden voordat het een regel begint. Ten derde geeft Claude soms beredeneerde antwoorden die meer bedoeld zijn om de gebruiker tevreden te stellen dan om tot een logische conclusie te komen.

De onderzoekers ontdekten ook verrassende details over hoe Claude rekent. In plaats van de standaard rekenmethodes die mensen gebruiken, heeft het model zijn eigen parallelle strategieën ontwikkeld. Bij het optellen van getallen maakt het bijvoorbeeld tegelijk een ruwe schatting én een precieze berekening van het laatste cijfer.

Een andere interessante bevinding is hoe Claude omgaat met vragen waarop het geen antwoord weet. Het model blijkt standaard geprogrammeerd om te weigeren te speculeren. Alleen wanneer het zeker weet dat het over correcte informatie beschikt, zoals bij vragen over bekende personen als Michael Jordan, geeft het een antwoord.

De onderzoekers konden ook zien hoe Claude reageert op pogingen om zijn veiligheidsmaatregelen te omzeilen. Als het model bijvoorbeeld onbedoeld begint met het geven van gevaarlijke informatie, herkent het dit vaak al vroeg maar kan het pas ingrijpen wanneer het een grammaticaal correcte zin heeft afgemaakt.

Deze nieuwe inzichten zijn niet alleen wetenschappelijk interessant, maar helpen ook bij het ontwikkelen van betrouwbaardere AI systemen. De technieken kunnen mogelijk ook worden toegepast in andere vakgebieden, zoals medische beeldvorming en genetica.

De onderzoekers erkennen dat hun huidige methode beperkingen heeft. Ze kunnen slechts een deel van de berekeningen die Claude uitvoert in kaart brengen, en het kost nog veel menselijke inspanning om de resultaten te interpreteren. Voor het analyseren van complexere denkprocessen zijn verdere verbeteringen nodig.

Anthropic, het bedrijf achter Claude, ziet dit onderzoek als een belangrijke stap in het transparanter maken van AI systemen. Door beter te begrijpen hoe deze modellen denken, kunnen ontwikkelaars beter controleren of ze handelen in overeenstemming met menselijke waarden en of ze ons vertrouwen waard zijn.

👥 The Board