Mensen kunnen AI gemakkelijk te slim af zijn volgens een door Apple gefinancierd onderzoek

Mensen vs AI (Afbeeldingsbron: Gegenereerd met behulp van DALL-E 3)

Hoewel ze vaak indrukwekkende resultaten leveren, missen AI-engines zoals die van Meta en OpenAI, die grote taalmodellen gebruiken, nog steeds elementaire redeneercapaciteiten. Een groep gesteund door Apple stelde een nieuwe benchmark voor, die al onthulde dat zelfs de kleinste veranderingen in de formulering van een query tot compleet andere antwoorden kunnen leiden.

Codrut Nistor (vertaald door Ninh Duy), Gepubliceerd 14-10-2024 🇺🇸 🇩🇪 ...

AI Science Fail

Eerder deze maand publiceerde een team van zes AI-wetenschappers, gesteund door Apple, een studie waarin ze GSM-Symbolic introduceerden, een nieuwe AI-benchmark die "beter controleerbare evaluaties mogelijk maakt, belangrijke inzichten verschaft en betrouwbaardere maatstaven biedt voor het meten van de redeneercapaciteiten van modellen" Helaas lijkt het erop dat LLM's nog steeds zeer beperkt zijn en de meest elementaire redeneercapaciteiten missen, zo bleek uit de eerste tests die werden uitgevoerd met GSM-Symbolic met de AI-engines van iconen uit de industrie, zoals Meta en OpenAI.

Het probleem met de bestaande modellen, zoals dat uit de bovengenoemde tests naar voren kwam, ligt in het gebrek aan betrouwbaarheid van LLM's wanneer ze aan gelijksoortige zoekopdrachten worden onderworpen. Het onderzoek concludeerde dat kleine veranderingen in de formulering die de betekenis van een zoekopdracht voor een mens niet zouden veranderen, vaak leiden tot andere antwoorden van AI-bots. Uit het onderzoek kwam geen model naar voren dat eruit sprong.

"De prestaties van alle modellen nemen [zelfs] af wanneer alleen de numerieke waarden in de vraag worden gewijzigd in de GSM-Symbolic benchmark," aldus het onderzoek

concludeerde het onderzoek, waarbij ook werd ontdekt dat

"de kwetsbaarheid van wiskundig redeneren in deze modellen [laat zien] dat hun prestaties aanzienlijk verslechteren naarmate het aantal clausules in een vraag toeneemt."

Het onderzoek, dat 22 pagina's telt, kunt u hier vinden https://arxiv.org/pdf/2410.05229 (PDF-bestand). De laatste twee pagina's bevatten problemen waaraan aan het einde irrelevante informatie is toegevoegd, die het eindresultaat voor een mens die de vraag oplost niet zou moeten veranderen. De gebruikte AI-modellen hebben echter ook met deze onderdelen rekening gehouden, waardoor ze foute antwoorden hebben gegeven.

De conclusie is dat AI-modellen nog steeds niet verder komen dan patroonherkenning en nog steeds geen generaliseerbaar probleemoplossend vermogen hebben. Dit jaar zijn er heel wat LLM's onthuld, waaronder Llama 3.1 van Meta AI, Nvidia's Nemotron-4, Anthropic's Claude 3, de Japanse Fugaku-LLM (het grootste model ooit dat uitsluitend op CPU-kracht is getraind), en Novavan Rubik's AI, een familie van LLM's die eerder deze maand werd onthuld.

Morgen brengt O'Reilly de eerste editie uit van Hands-On Large Language Models: Language Understanding and Generation, door Jay Alammar en Maarten Grootendorst. Het prijskaartje is $48,99 (Kindle) of $59,13 (paperback).