Mensen kunnen AI gemakkelijk te slim af zijn volgens een door Apple gefinancierd onderzoek
Eerder deze maand publiceerde een team van zes AI-wetenschappers, gesteund door Apple, een studie waarin ze GSM-Symbolic introduceerden, een nieuwe AI-benchmark die "beter controleerbare evaluaties mogelijk maakt, belangrijke inzichten verschaft en betrouwbaardere maatstaven biedt voor het meten van de redeneercapaciteiten van modellen" Helaas lijkt het erop dat LLM's nog steeds zeer beperkt zijn en de meest elementaire redeneercapaciteiten missen, zo bleek uit de eerste tests die werden uitgevoerd met GSM-Symbolic met de AI-engines van iconen uit de industrie, zoals Meta en OpenAI.
Het probleem met de bestaande modellen, zoals dat uit de bovengenoemde tests naar voren kwam, ligt in het gebrek aan betrouwbaarheid van LLM's wanneer ze aan gelijksoortige zoekopdrachten worden onderworpen. Het onderzoek concludeerde dat kleine veranderingen in de formulering die de betekenis van een zoekopdracht voor een mens niet zouden veranderen, vaak leiden tot andere antwoorden van AI-bots. Uit het onderzoek kwam geen model naar voren dat eruit sprong.
"De prestaties van alle modellen nemen [zelfs] af wanneer alleen de numerieke waarden in de vraag worden gewijzigd in de GSM-Symbolic benchmark," aldus het onderzoek
concludeerde het onderzoek, waarbij ook werd ontdekt dat
"de kwetsbaarheid van wiskundig redeneren in deze modellen [laat zien] dat hun prestaties aanzienlijk verslechteren naarmate het aantal clausules in een vraag toeneemt."
Het onderzoek, dat 22 pagina's telt, kunt u hier vinden https://arxiv.org/pdf/2410.05229 (PDF-bestand). De laatste twee pagina's bevatten problemen waaraan aan het einde irrelevante informatie is toegevoegd, die het eindresultaat voor een mens die de vraag oplost niet zou moeten veranderen. De gebruikte AI-modellen hebben echter ook met deze onderdelen rekening gehouden, waardoor ze foute antwoorden hebben gegeven.
De conclusie is dat AI-modellen nog steeds niet verder komen dan patroonherkenning en nog steeds geen generaliseerbaar probleemoplossend vermogen hebben. Dit jaar zijn er heel wat LLM's onthuld, waaronder Llama 3.1 van Meta AI, Nvidia's Nemotron-4, Anthropic's Claude 3, de Japanse Fugaku-LLM (het grootste model ooit dat uitsluitend op CPU-kracht is getraind), en Novavan Rubik's AI, een familie van LLM's die eerder deze maand werd onthuld.
Morgen brengt O'Reilly de eerste editie uit van Hands-On Large Language Models: Language Understanding and Generation, door Jay Alammar en Maarten Grootendorst. Het prijskaartje is $48,99 (Kindle) of $59,13 (paperback).
Bron(nen)
Top 10 Testrapporten
» Top 10 Multimedia Notebooks
» Top 10 Gaming-Notebooks
» Top 10 Budget Gaming Laptops
» Top 10 Lichtgewicht Gaming-Notebooks
» Top 10 Premium Office/Business-Notebooks
» Top 10 Budget Office/Business-Notebooks
» Top 10 Workstation-Laptops
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Notebooks tot €300
» Top 10 Notebooks tot €500
» Top 10 Notebooks tot € 1.000De beste notebookbeeldschermen zoals getest door Notebookcheck
» De beste notebookbeeldschermen
» Top Windows Alternatieven voor de MacBook Pro 13
» Top Windows Alternatieven voor de MacBook Pro 15
» Top Windows alternatieven voor de MacBook 12 en Air
» Top 10 best verkopende notebooks op Amazon
» Top 10 Convertible Notebooks
» Top 10 Tablets
» Top 10 Tablets tot € 250
» Top 10 Smartphones
» Top 10 Phablets (>90cm²)
» Top 10 Camera Smartphones
» Top 10 Smartphones tot €500
» Top 10 best verkopende smartphones op Amazon