OpenAI lanceert slimmere o3-mini AI met gratis ChatGPT-toegang

OpenAI onthult snellere o3-mini AI LLM die eerdere o1-mini-modellen overtreft. (Afbeeldingsbron: AI-gegenereerd door Dall-E 3)

OpenAI's nieuwste o3-mini grote taalmodel is sneller en slimmer dan de o1-mini voorganger. Het model is gratis beschikbaar voor alle ChatGPT-accounthouders.

David Chien (vertaald door Ninh Duy), Gepubliceerd 01-02-2025 🇺🇸 🇫🇷 ...

AI Launch Software

OpenAI heeft zijn nieuwste grote AI-taalmodel, o3-mini, onthuld dat sneller en beter is dan zijn voorganger o1-mini in het geven van nauwkeurige antwoorden. Dit model is het eerste klein redenerende LLM van het bedrijf dat vandaag beschikbaar is voor gratis openbaar gebruik door alle ChatGPT-accounthouders.

Het o3-mini-model kan worden uitgevoerd met drie inspanningsniveaus voor redeneren - laag, gemiddeld en hoog. Iedereen met een gratis ChatGPT-account kan o3-mini gratis uitvoeren op het medium redeneerniveau, terwijl houders van een betaalde account kunnen kiezen voor het lage of hoge redeneerniveau. Betaalde ChatGPT Plus-, Team- en Pro-gebruikers hebben vandaag meteen toegang tot o3-mini, terwijl Enterprise-gebruikers tot februari moeten wachten. Programmeurs die staan te popelen om apps te maken die de OpenAI o3-mini API gebruiken, kunnen in dit boek op Amazon lezen hoe ze dat moeten doen.

Over het algemeen presteert o3-mini in de medium of hoge redeneermodus beter dan o1-mini in gestandaardiseerde AI-benchmarks, inclusief die waarbij de AI problemen moet doorredeneren. In de hoge redeneermodus presteert o3-mini ook beter dan het grotere o1-model in sommige benchmarks, maar mist o1 het vermogen om afbeeldingen te zien en visuele gegevens te verwerken.

Met name o3-mini geeft 24%, of ongeveer 2,46 seconden, sneller antwoorden dan o1-mini. Dit helpt de wachttijd voor ChatGPT te verkorten en de CO2-uitstoot te verminderen die wordt geproduceerd door computers waarop o3-mini draait. Hoewel o3-mini sneller is, zullen hackers teleurgesteld zijn omdat het vermogen om gebruikt te worden voor cyberbeveiligingsaanvallen sterk is verminderd.

OpenAI o3-mini ingesteld op de hoge redeneermodus presteert beter dan de o1-voorgangers. (Afbeeldingsbron: Notebookcheck.net)

Bron(nen)

OpenAI nieuwsbericht, OpenAI o3-mini systeemkaart

▶ ▼ Persbericht

31 januari 2025

OpenAI o3-mini

De grens verleggen van kosteneffectief redeneren.

We introduceren OpenAI o3-mini, het nieuwste, meest kostenefficiënte model in onze redeneerreeks, dat vandaag beschikbaar is in zowel ChatGPT als de API. Dit krachtige en snelle model, dat in december 2024 in première gaat, verlegt de grenzen van wat kleine modellen kunnen bereiken en levert uitzonderlijke STEM-mogelijkheden, met een bijzonder sterke positie in wetenschap, wiskunde en codering, en dat alles met behoud van de lage kosten en verminderde latentie van OpenAI o1-mini.

OpenAI o3-mini is ons eerste kleine redeneermodel dat veelgevraagde functies voor ontwikkelaars ondersteunt, waaronder functieaanroepen (opent in een nieuw venster), gestructureerde uitvoer (opent in een nieuw venster) en berichten voor ontwikkelaars (opent in een nieuw venster), waardoor het meteen productieklaar is. Net als OpenAI o1-mini en OpenAI o1-preview ondersteunt o3-mini streaming (opent in een nieuw venster). Ook kunnen ontwikkelaars kiezen uit drie opties voor redeneerinspanning (opent in een nieuw venster) - laag, medium en hoog - om te optimaliseren voor hun specifieke gebruikssituaties. Dankzij deze flexibiliteit kan o3-mini "harder denken" bij complexe uitdagingen of prioriteit geven aan snelheid als latentie een probleem is. o3-mini ondersteunt geen vision-mogelijkheden, dus ontwikkelaars moeten OpenAI o1 blijven gebruiken voor visuele redeneertaken. o3-mini wordt vanaf vandaag uitgerold in de Chat Completions API, Assistants API en Batch API voor geselecteerde ontwikkelaars in API-gebruiksstappen 3-5 (opent in een nieuw venster).

ChatGPT Plus-, Team- en Pro-gebruikers hebben vanaf vandaag toegang tot OpenAI o3-mini. Enterprise-toegang volgt in februari. o3-mini vervangt OpenAI o1-mini in de modelkiezer en biedt hogere snelheidslimieten en lagere latentie, waardoor het een aantrekkelijke keuze is voor coderingstaken, bèta-technische taken en het oplossen van logische problemen. Als onderdeel van deze upgrade verdrievoudigen we de snelheidslimiet voor Plus- en Team-gebruikers van 50 berichten per dag met o1-mini tot 150 berichten per dag met o3-mini. Bovendien werkt o3-mini nu met zoeken om actuele antwoorden te vinden met koppelingen naar relevante webbronnen. Dit is een vroeg prototype terwijl we werken aan de integratie van zoeken in onze redeneringsmodellen.

Vanaf vandaag kunnen gebruikers van het gratis plan ook OpenAI o3-mini uitproberen door 'Reden' te selecteren in de berichtcompositie of door een antwoord te regenereren. Dit is de eerste keer dat een redeneermodel beschikbaar is voor gratis gebruikers in ChatGPT.

Terwijl OpenAI o1 ons bredere redeneermodel voor algemene kennis blijft, biedt OpenAI o3-mini een gespecialiseerd alternatief voor technische domeinen die precisie en snelheid vereisen. In ChatGPT gebruikt o3-mini een gemiddelde redeneerinspanning voor een evenwichtige afweging tussen snelheid en nauwkeurigheid. Alle betaalde gebruikers hebben ook de optie om o3-mini-high te selecteren in de modelkiezer voor een versie met een hogere intelligentie die er iets langer over doet om antwoorden te genereren. Pro-gebruikers hebben onbeperkte toegang tot zowel o3-mini als o3-mini-high.

Snel, krachtig en geoptimaliseerd voor STEM-redeneringen

Net als zijn voorganger OpenAI o1 is OpenAI o3-mini geoptimaliseerd voor bèta/technisch redeneren. o3-mini met een gemiddelde redeneerinspanning evenaart de prestaties van o1 op het gebied van wiskunde, codering en wetenschap, terwijl het snellere antwoorden geeft. Evaluaties door deskundige testers toonden aan dat o3-mini nauwkeurigere en duidelijkere antwoorden geeft, met sterkere redeneercapaciteiten, dan OpenAI o1-mini. Testers gaven 56% van de tijd de voorkeur aan de antwoorden van o3-mini boven die van o1-mini en zagen een vermindering van 39% van het aantal grote fouten bij moeilijke vragen uit de echte wereld. Met een gemiddelde redeneerinspanning evenaart o3-mini de prestaties van o1 op enkele van de meest uitdagende redeneer- en intelligentie-evaluaties, waaronder AIME en GPQA.

Wedstrijd wiskunde (AIME 2024)

Het staafdiagram vergelijkt de nauwkeurigheid op AIME 2024 competitieve wiskundevragen tussen AI-modellen. Oudere modellen (grijs) scoren lager, terwijl nieuwere modellen (geel) beter worden. "o3-mini (hoog)" bereikt met 83,6% de hoogste nauwkeurigheid en laat daarmee een aanzienlijke vooruitgang zien.

Wiskunde: Met lage redeneerinspanning haalt OpenAI o3-mini vergelijkbare prestaties met OpenAI o1-mini, terwijl met gemiddelde inspanning o3-mini vergelijkbare prestaties haalt met o1. Met een hoge redeneerinspanning presteert o3-mini beter dan OpenAI o1-mini en OpenAI o1, waarbij de grijs gearceerde gebieden de prestaties van de meerderheid van stemmen (consensus) met 64 monsters weergeven.

Wetenschappelijke vragen op PhD-niveau (GPQA Diamond)

Het staafdiagram vergelijkt de nauwkeurigheid op wetenschappelijke vragen op PhD-niveau (GPQA Diamond) tussen AI-modellen. Oudere modellen (grijs) presteren minder goed, terwijl nieuwere modellen (geel) beter presteren. "o3-mini (hoog)" bereikt 77,0% nauwkeurigheid, wat een opmerkelijke vooruitgang is ten opzichte van eerdere versies.

Wetenschap op PhD-niveau: Op biologie-, scheikunde- en natuurkundevragen op PhD-niveau, met een lage redeneerinspanning, presteert OpenAI o3-mini beter dan OpenAI o1-mini. Met een hoge inspanning presteert o3-mini vergelijkbaar met o1.

GrensWiskunde

Een zwart raster met meerdere rijen en kolommen, gescheiden door dunne witte lijnen, die een gestructureerde en georganiseerde lay-out creëren.

Wiskunde op onderzoeksniveau: OpenAI o3-mini met hoge redenering presteert beter dan zijn voorganger op FrontierMath. Op FrontierMath lost o3-mini met hoge redeneerinspanning meer dan 32% van de problemen op bij de eerste poging, waaronder meer dan 28% van de uitdagende (T3) problemen. Deze cijfers zijn voorlopig, en de grafiek hierboven toont de prestaties zonder hulpmiddelen of rekenmachine.

Wedstrijdcode (Codeforces)

De staafdiagram vergelijkt Elo-ratings op Codeforces competitie codeertaken tussen AI-modellen. Oudere modellen (grijs) scoren lager, terwijl nieuwere modellen (geel) beter worden. "o3-mini (hoog)" bereikt 2073 Elo, wat een aanzienlijke vooruitgang betekent ten opzichte van vorige versies.

Competitie codering: Op Codeforces competitief programmeren behaalt OpenAI o3-mini progressief hogere Elo-scores naarmate de redeneerinspanning toeneemt, en presteert het beter dan o1-mini. Met een gemiddelde redeneerinspanning evenaart het de prestaties van o1.

Software-engineering (SWE-bench geverifieerd)

Het staafdiagram vergelijkt de nauwkeurigheid op SWE-bench geverifieerde software-engineeringstaken tussen AI-modellen. Oudere modellen (grijs) presteren lager, terwijl "o3-mini (hoog)" (geel) met 48,9% de hoogste nauwkeurigheid behaalt, een verbetering ten opzichte van eerdere versies.

Software-engineering: o3-mini is ons best presterende uitgebrachte model op SWEbench-gecontroleerd. Zie onze systeemkaart voor aanvullende gegevens over SWE-bench-verifieerde resultaten met een hoge redeneerinspanning, inclusief met de open-source Agentless stellage (39%) en een stellage met interne hulpmiddelen (61%).

LiveBench Codering

De tabel vergelijkt AI-modellen op coderingstaken en toont prestatiecijfers en evaluatiescores. De verschillen in nauwkeurigheid en efficiëntie worden benadrukt, waarbij sommige modellen beter presteren dan andere in specifieke benchmarks.

LiveBench codering: OpenAI o3-mini overtreft o1-hoog zelfs bij gemiddelde redeneerinspanning, wat de efficiëntie bij codeertaken benadrukt. Bij hoge redeneerinspanning breidt o3-mini zijn voorsprong verder uit, met aanzienlijk betere prestaties in de belangrijkste statistieken.

Algemene kennis

De tabel "Categorie-evaluaties" vergelijkt AI-modellen in verschillende evaluatiecategorieën en toont de prestatiecijfers. Verschillen in nauwkeurigheid, efficiëntie en effectiviteit worden benadrukt, waarbij sommige modellen beter presteren dan andere in specifieke taken.

Algemene kennis: o3-mini presteert beter dan o1-mini in kennisevaluaties voor algemene kennisdomeinen.

Evaluatie van menselijke voorkeuren

De grafiek vergelijkt de winpercentages voor bèta/technische en niet-bèta/technische taken tussen AI-modellen. "o3_mini_v43_s960_j128" (geel) presteert beter dan "o1_mini_chatgpt" (rode basislijn) in beide categorieën, met een hoger winstpercentage voor STEM-taken.

De grafiek vergelijkt de winstpercentages onder tijdsbeperkingen en grote foutpercentages bij alle AI-modellen. "o3_mini_v43_s960_j128" (geel) presteert beter dan "o1_mini_chatgpt" (rode basislijn) in winstpercentages en vermindert het aantal grote fouten aanzienlijk.

Evaluatie van menselijke voorkeuren: Evaluaties door externe deskundige testers laten ook zien dat OpenAI o3-mini nauwkeurigere en duidelijkere antwoorden geeft, met sterkere redeneercapaciteiten dan OpenAI o1-mini, vooral voor STEM. Testers gaven 56% van de tijd de voorkeur aan de antwoorden van o3-mini boven die van o1-mini en zagen een vermindering van 39% van het aantal grote fouten bij moeilijke vragen uit de echte wereld.

Modelsnelheid en prestaties

Met een intelligentie die vergelijkbaar is met die van OpenAI o1, levert OpenAI o3-mini snellere prestaties en een verbeterde efficiëntie. Naast de hierboven genoemde STEM-evaluaties laat o3-mini superieure resultaten zien in aanvullende wiskunde- en feitelijkheidsevaluaties met een gemiddelde redeneerinspanning. In A/B-tests leverde o3-mini 24% snellere reacties dan o1-mini, met een gemiddelde reactietijd van 7,7 seconden vergeleken met 10,16 seconden.

Vergelijking van latentie tussen o1-mini en o3-mini (medium)

Het staafdiagram vergelijkt de latentie tussen de modellen "o1-mini" en "o3-mini (medium)". "o3-mini" (lichter geel) heeft een lagere latentie, wat duidt op snellere responstijden, terwijl "o1-mini" (donkerder geel) er gemiddeld langer over doet.

Latency: o3-mini heeft een gemiddeld 2500ms snellere tijd tot het eerste token dan o1-mini.

Veiligheid

Een van de belangrijkste technieken die we gebruikten om OpenAI o3-mini te leren veilig te reageren is deliberatieve afstemming, waarbij we het model trainden om te redeneren over door mensen geschreven veiligheidsspecificaties voordat het antwoord gaf op gebruikersprompts. Net als bij OpenAI o1 vinden we dat o3-mini GPT-4o aanzienlijk overtreft bij uitdagende veiligheids- en jailbreak-evaluaties. Voor de inzet hebben we de veiligheidsrisico's van o3-mini zorgvuldig geëvalueerd met dezelfde aanpak van paraatheid, externe red-teaming en veiligheidsevaluaties als bij o1. We bedanken de veiligheidstesters die zich hebben aangemeld om o3-mini in een vroeg stadium te testen. Details van de onderstaande evaluaties, samen met een uitgebreide uitleg van potentiële risico's en de effectiviteit van onze maatregelen, zijn beschikbaar in de o3-mini systeemkaart.

Evaluaties van afgekeurde inhoud

De tabel vergelijkt AI-modellen op veiligheidskenmerken, waarbij de prestaties in verschillende risicocategorieën worden geëvalueerd. De variaties in veiligheidsnaleving worden benadrukt, waarbij sommige modellen beter presteren in het beperken van potentiële risico's.

Evaluatie van jailbreak

De tabel vergelijkt AI-modellen op veiligheidskenmerken over verschillende risicocategorieën, en laat variaties in prestaties zien. Verschillen in risicobeperking worden benadrukt, waarbij sommige modellen een betere naleving en veiligere reacties laten zien.

Wat volgt

De release van OpenAI o3-mini markeert een volgende stap in OpenAI's missie om de grenzen van kosteneffectieve intelligentie te verleggen. Door redeneringen voor STEM-domeinen te optimaliseren en tegelijkertijd de kosten laag te houden, maken we AI van hoge kwaliteit nog toegankelijker. Dit model zet onze staat van dienst voort wat betreft het verlagen van de kosten van intelligentie - de prijs per token is sinds de lancering van GPT-4 met 95% gedaald - met behoud van redeneercapaciteiten van topklasse. Naarmate het gebruik van AI toeneemt, blijven wij voorop lopen door modellen te bouwen die intelligentie, efficiëntie en veiligheid op schaal in balans brengen.

Auteurs

OpenAI

Training

Brian Zhang, Eric Mitchell, Hongyu Ren, Kevin Lu, Max Schwarzer, Michelle Pokrass, Shengjia Zhao, Ted Sanders

Eval

Adam Kalai, Alex Tachard Passos, Ben Sokolowsky, Elaine Ya Le, Erik Ritter, Hao Sheng, Hanson Wang, Ilya Kostrikov, James Lee, Johannes Ferstad, Michael Lampe, Prashanth Radhakrishnan, Sean Fitzgerald, Sebastien Bubeck, Yann Dubois, Yu Bai

Grensverkenningen & Paraatheid

Andy Applebaum, Elizabeth Proehl, Evan Mays, Joel Parish, Kevin Liu, Leon Maksin, Leyton Ho, Miles Wang, Michele Wang, Olivia Watkins, Patrick Chao, Samuel Miserendino, Tejal Patwardhan

Ingenieur

Adam Walker, Akshay Nathan, Alyssa Huang, Andy Wang, Ankit Gohel, Ben Eggers, Brian Yu, Bryan Ashley, Chengdu Huang, Christian Hoareau, Davin Bogan, Emily Sokolova, Eric Horacek, Eric Jiang, Felipe Petroski Such, Jonah Cohen, Josh Gross, Justin Becker, Kan Wu, Kevin Whinnery, Larry Lv, Lee Byron, Manoli Liodakis, Max Johnson, Mike Trpcic, Murat Yesildal, Rasmus Rygaard, RJ Marsan, Rohit Ramchandani, Rohan Kshirsagar, Roman Huet, Sara Conlon, Shuaiqi (Tony) Xia, Siyuan Fu, Srinivas Narayanan, Sulman Choudhry, Tomer Kaftan, Trevor Creech

Zoeken

Adam Fry, Adam Perelman, Brandon Wang, Cristina Scheau, Philip Pronin, Sundeep Tirumalareddy, Will Ellsworth, Zewei Chu

Product

Antonia Woodford, Beth Hoover, Jake Brill, Kelly Stirman, Minnia Feng, Neel Ajjarapu, Nick Turley, Nikunj Handa, Olivier Godement

Veiligheid

Andrea Vallone, Andrew Duberstein, Enis Sert, Eric Wallace, Grace Zhao, Irina Kofman, Jieqi Yu, Joaquin Quinonero Candela, Madelaine Boyd, Mehmet Yatbaz, Mike McClay, Mingxuan Wang, Saachi Jain, Sandhini Agarwal, Sam Toizer, Santiago Hernández, Steve Mostovoy, Young Cha, Tao Li, Yunyun Wang

Extern Redteaming

Lama Ahmad, Troy Peterson

Programmamanagers onderzoek

Carpus Chang, Kristen Ying

Leiderschap

Aidan Clark, Dane Stuckey, Jerry Tworek, Jakub Pachocki, Johannes Heidecke, Kevin Weil, Liam Fedus, Mark Chen, Sam Altman, Wojciech Zaremba

+ alle medewerkers achter o1.