Grootste dataset met AI-trainingsafbeeldingen offline gehaald na ontdekking van verontrustend illegaal materiaal
Een onderzoek gepubliceerd door het Stanford Internet Observatory heeft een verontrustende ontdekking gedaan - LAION-5B, de grootste afbeeldingsdataset die wordt gebruikt voor het trainen van AI-beeldgeneratie modellen, bevat 3.226 afbeeldingen die verdacht worden van seksueel misbruik van kinderen (CSAM). LAION heeft sindsdien de dataset niet meer openbaar toegankelijk gemaakt, totdat het er zeker van is dat er geen onveilige inhoud in zit.
LAION-5B, een open-source dataset bestaande uit meer dan 5,8 miljard paren online URL's van afbeeldingen en bijbehorende bijschriften, wordt gebruikt om AI-modellen te trainen, waaronder de zeer populaire Stabiele verspreiding. Deze dataset is gemaakt door Common Crawl te gebruiken om het internet af te zoeken naar een groot aantal afbeeldingen.
David Thiel en het team van Stanford-onderzoekers die het onderzoek schreven, begonnen met het filteren van de dataset met behulp van LAION's NSFW-classificeerders en vertrouwden vervolgens op PhotoDNA, een hulpmiddel dat in deze context vaak wordt gebruikt voor inhoudsmoderatie. Aangezien het bekijken van CSAM illegaal is, zelfs voor onderzoeksdoeleinden, gebruikte het team perceptuele hashing, waarbij voor elke afbeelding een unieke digitale handtekening wordt gemaakt en deze handtekening wordt gebruikt om de afbeelding te vergelijken met een testafbeelding om te controleren of deze identiek of gelijksoortig is. Verder stuurde het team de "definitieve overeenkomsten" ter validatie naar het Canadese centrum voor kinderbescherming.
Na de publicatie van het onderzoek vertelde een woordvoerder van Stable Diffusion aan 404 Media dat het bedrijf intern talrijke filters heeft geïnstalleerd die niet alleen CSAM en ander illegaal en aanstootgevend materiaal zouden verwijderen uit de gegevens die daadwerkelijk voor de training worden gebruikt, maar die er ook voor zouden zorgen dat de invoerprompts en afbeeldingen die door het AI-model worden gegenereerd, schoon zijn.
Volgens de Amerikaanse federale wetgeving is het niet alleen illegaal om CSAM te bezitten en door te geven, maar ook "onontwikkelde film, onontwikkelde videoband en elektronisch opgeslagen gegevens die in een visueel beeld kunnen worden omgezet". Aangezien datasets zoals de LAION-5B echter alleen URL's bevatten en niet de afbeeldingen zelf, is de precieze legaliteit eromheen onduidelijk. Het bredere probleem wordt nog verergerd door het feit dat door AI gegenereerde CSAM moeilijk te onderscheiden is van echte CSAM, en steeds vaker voorkomt. Hoewel 3200 afbeeldingen op 5 miljard misschien onbeduidend lijken, kan de potentiële invloed van dergelijke "vervuilde" trainingsgegevens op de uitvoer van generatieve AI-modellen niet genegeerd worden.
Het onderzoek van David Thiel en zijn team belicht een van de meer verontrustende gevolgen van de plotselinge verspreiding van AI. Het vinden van oplossingen voor dergelijke problemen zal de komende jaren een langzame en moeilijke taak worden, waarbij de wetgevende macht, de rechtshandhaving, de technische industrie, academici en het grote publiek in gelijke mate betrokken zullen zijn.
Bron(nen)
Top 10 Testrapporten
» Top 10 Multimedia Notebooks
» Top 10 Gaming-Notebooks
» Top 10 Budget Gaming Laptops
» Top 10 Lichtgewicht Gaming-Notebooks
» Top 10 Premium Office/Business-Notebooks
» Top 10 Budget Office/Business-Notebooks
» Top 10 Workstation-Laptops
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Notebooks tot €300
» Top 10 Notebooks tot €500
» Top 10 Notebooks tot € 1.000De beste notebookbeeldschermen zoals getest door Notebookcheck
» De beste notebookbeeldschermen
» Top Windows Alternatieven voor de MacBook Pro 13
» Top Windows Alternatieven voor de MacBook Pro 15
» Top Windows alternatieven voor de MacBook 12 en Air
» Top 10 best verkopende notebooks op Amazon
» Top 10 Convertible Notebooks
» Top 10 Tablets
» Top 10 Tablets tot € 250
» Top 10 Smartphones
» Top 10 Phablets (>90cm²)
» Top 10 Camera Smartphones
» Top 10 Smartphones tot €500
» Top 10 best verkopende smartphones op Amazon