OpenAI o1 en o1-mini arriveren als AI's die STEM-vragen beter afhandelen dan eerdere modellen

OpenAI o1 en o1-mini arriveren - AI die beter redeneert over STEM-vragen dan eerdere modellen. (Afbeeldingsbron: AI-gegenereerd, Dall-E 3)

OpenAI o1 en o1-mini zijn gearriveerd, en deze AI LLM's presteren veel beter op coderings-, wiskunde- en wetenschappelijke problemen en taken dan eerdere modellen zoals GPT-4o door meer tijd te nemen om na te denken. De belangrijkste beperkingen van de OpenAI o1-modellen zijn dat ze niet op het web kunnen browsen of geüploade bestanden en afbeeldingen kunnen accepteren.

David Chien (vertaald door Ninh Duy), Gepubliceerd 16-09-2024 🇺🇸 🇫🇷 ...

AI Software

OpenAI o1 en o1-mini zijn gearriveerd. Deze AI LLM's presteren veel beter op coderings-, wiskunde- en wetenschappelijke problemen en taken dan eerdere modellen zoals GPT-4o, doordat ze meer tijd nemen om na te denken.

Complexe problemen in bèta/techniek vereisen vaak meer dan een snelle online zoektocht naar de juiste antwoorden. Door de o1 AI meer tijd te geven om na te denken, kan de AI zorgvuldiger en nauwkeuriger redeneren. Het o1-mini-model is specifiek afgestemd om STEM-vragen sneller en met minder belasting van computerbronnen te beantwoorden, en het is aanzienlijk beter in coderen dan het o1-model.

In een reeks gestandaardiseerde AP-examens en STEM-tests voor LLM's presteren de o1-modellen zeer nauwkeurig. Specifiek op de AP Calculus, AP Chemistry, AP Physics 2, LSAT, en SAT evidence-based reading & writing tests, presteren de o1-modellen op of boven B-klasse niveau (~80% of hoger). De modellen antwoorden nauwkeurig op A-klasse niveau op natuurkundevragen op PhD-niveau, op B-klasse niveau op moeilijke 2024 American Invitational Mathematics Examination wiskundevragen, en op hoog B-klasse niveau op Codeforces codeerproblemen. Omdat o1 is afgestemd op het beantwoorden van STEM-vragen, zijn de prestaties op AP English Language en AP English Literature op of onder het C-niveau.

Interessant is dat, terwijl GPT-4o stomverbaasd is over de cryptografische uitdaging om "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz" te decoderen wanneer de hint "oyfjdnisdr rtqwainr acxz mynzbhhx" betekent "Denk stap voor stap", o1 geen problemen had om door het probleem heen te denken en met het juiste antwoord "Er zitten drie r's in aardbei" te komen. Deze nieuwe macht zal zowel hobby-cryptografen thuis als de NSA plezieren.

Nare boosdoeners zullen willen weten dat, hoewel de ongecensureerde o1-modellen verontrustende antwoorden kunnen geven, OpenAI deze modellen heeft gesteriliseerd voor vrijgave. De o1-modellen zijn getest om vragen over het maken van biowapens, het produceren van ondeugende afbeeldingen, het jailbreaken van zichzelf en het lastigvallen en bedreigen niet te beantwoorden. Helaas blijven de OpenAI o1-modellen bij het testen bevooroordeeld op basis van geslacht en ras, ondanks de tuning-inspanningen.

ChatGPT Plus- en Team-gebruikers en API-gebruik tier 5-ontwikkelaars hebben onmiddellijk toegang tot o1-modellen, en ChatGPT Edu- en Enterprise-gebruikers krijgen toegang in de week van 16 september. ChatGPT Free-gebruikers zullen in de nabije toekomst toegang krijgen tot o1-mini. De o1-modellen kunnen niet op het web surfen of geüploade bestanden en afbeeldingen accepteren om vragen te beantwoorden, dus OpenAI raadt gebruikers aan om hun GPT-4o-modellen te blijven gebruiken voor algemene vragen.

Gebruikers die AI-vragen willen stellen, hebben nu een breed scala aan bekwame LLM-modellen om mee te werken, naast de modellen van OpenAIwaaronder Antropische Claude, Microsoft CoPilot, Google Geminien X Grok. Elke AI heeft specifieke voordelen, dus het is de moeite waard om verschillende AI-modellen te testen om er een te vinden die het beste bij de individuele behoeften past. Sommige van deze AI's zijn ingebouwd in slimme brillen (zoals deze op Amazon) en voicerecorders (zoals deze op Amazon), en sommige opkomende autonome humanoïde robots gebruiken eigen AI om te koken en schoon te maken.

Zowel OpenAI o1 als o1-mini presteren iets slechter op schrijftaken dan GPT-4o, maar veel beter op technische taken zoals wiskunde of programmeren. (Afbeeldingsbron: OpenAI)

De OpenAI o1-serie kan moeilijkere vragen correct beantwoorden dan GPT-4o, maar alleen door er veel langer over te doen. (Afbeeldingsbron: OpenAI)

Door OpenAI o1 zo te programmeren dat hij langer nadenkt voordat hij antwoord geeft, kan de AI LLM moeilijke vragen beter beantwoorden dan eerdere modellen, waaronder GPT-4o. (Afbeeldingsbron: OpenAI)

Voordat OpenAI o1-preview-pre-mitigation gecastreerd werd voor de release, hield het ervan om ondeugend te zijn. (Afbeeldingsbron: OpenAI)

OpenAI o1 modellen blijven bevooroordeeld op basis van geslacht en ras, zelfs na tuning. (Afbeeldingsbron: OpenAI)

Hoewel de OpenAI o1-serie veel beter is in het maken van instructies voor biologische gevaren, zijn dergelijke mogelijkheden in de releaseversies gecastreerd. (Afbeeldingsbron: OpenAI)

OpenAI belemmert werkzoekenden die AI gebruiken tijdens sollicitatiegesprekken met programmeurs door het vermogen van o1-mini en o1-preview om bij de eerste poging te slagen voor een reeks OpenAI-interviews met Research Engineer af te zwakken. (Afbeeldingsbron: OpenAI)

Bron(nen)

OpenAI o1 modellen, OpenAI o1 persbericht

▶ ▼ Persbericht

12 september 2024

Maak kennis met OpenAI o1-preview

Een nieuwe serie redeneermodellen voor het oplossen van moeilijke problemen. Beschikbaar vanaf 9.12

We hebben een nieuwe serie AI-modellen ontwikkeld die ontworpen zijn om meer tijd te besteden aan nadenken voordat ze reageren. Ze kunnen complexe taken beredeneren en moeilijkere problemen oplossen dan eerdere modellen in wetenschap, codering en wiskunde.

Vandaag introduceren we de eerste van deze serie in ChatGPT en onze API. Dit is een preview en we verwachten regelmatig updates en verbeteringen. Naast deze release voegen we ook evaluaties toe voor de volgende update, die momenteel in ontwikkeling is.

Hoe het werkt

We hebben deze modellen getraind om meer tijd te besteden aan het nadenken over problemen voordat ze reageren, net zoals een mens dat zou doen. Door training leren ze hun denkproces te verfijnen, verschillende strategieën uit te proberen en hun fouten te herkennen.

In onze tests presteerde de volgende modelupdate vergelijkbaar met PhD-studenten op uitdagende benchmarktaken in natuurkunde, scheikunde en biologie. We ontdekten ook dat het uitblinkt in wiskunde en codering. In een kwalificatie-examen voor de Internationale Wiskunde Olympiade (IMO) loste GPT-4o slechts 13% van de problemen correct op, terwijl het redeneringsmodel 83% scoorde. Hun coderingsvaardigheden werden geëvalueerd in wedstrijden en bereikten het 89e percentiel in Codeforces-wedstrijden. U kunt hier meer over lezen in onze post over technisch onderzoek.

Als vroeg model heeft het nog niet veel van de functies die ChatGPT nuttig maken, zoals op het web naar informatie zoeken en bestanden en afbeeldingen uploaden. Voor veel algemene gevallen zal GPT-4o op korte termijn beter geschikt zijn.

Maar voor complexe redeneertaken is dit een aanzienlijke vooruitgang en vertegenwoordigt het een nieuw niveau van AI-capaciteit. Daarom zetten we de teller weer op 1 en noemen we deze serie OpenAI o1.

Veiligheid

Als onderdeel van de ontwikkeling van deze nieuwe modellen hebben we een nieuwe benadering voor veiligheidstraining bedacht die hun redeneervermogen gebruikt om hen te laten voldoen aan de richtlijnen voor veiligheid en afstemming. Doordat ze in context kunnen redeneren over onze veiligheidsregels, kunnen ze deze effectiever toepassen.

Eén manier waarop we de veiligheid meten is door te testen hoe goed ons model de veiligheidsregels blijft volgen als een gebruiker ze probeert te omzeilen (bekend als "jailbreaking"). Bij een van onze moeilijkste jailbreakingtests scoorde GPT-4o 22 (op een schaal van 0-100), terwijl ons o1-preview-model 84 scoorde. U kunt hier meer over lezen in de systeemkaart en onze onderzoekspost.

Om aan de nieuwe mogelijkheden van deze modellen te voldoen, hebben we ons veiligheidswerk, ons intern bestuur en onze samenwerking met de federale overheid versterkt. Dit omvat rigoureuze tests en evaluaties met behulp van ons Preparedness Framework (opent in een nieuw venster), de beste rode teams in zijn klasse en beoordelingsprocessen op bestuursniveau, waaronder door ons Safety & Security Committee.

Om onze toewijding aan AI-veiligheid te bevorderen, hebben we onlangs formele overeenkomsten gesloten met de Amerikaanse en Britse AI Safety Institutes. We zijn begonnen met het operationaliseren van deze overeenkomsten, waaronder het verlenen van vroegtijdige toegang aan de instituten tot een onderzoeksversie van dit model. Dit was een belangrijke eerste stap in onze samenwerking, die hielp om een proces op te zetten voor onderzoek, evaluatie en het testen van toekomstige modellen voorafgaand aan en na hun publieke release.

Voor wie

Deze verbeterde redeneermogelijkheden kunnen bijzonder nuttig zijn als u complexe problemen in de wetenschap, codering, wiskunde en soortgelijke gebieden aanpakt. Zo kan o1 bijvoorbeeld gebruikt worden door onderzoekers in de gezondheidszorg om gegevens van celsequenties te annoteren, door natuurkundigen om ingewikkelde wiskundige formules te genereren die nodig zijn voor kwantumoptica, en door ontwikkelaars op alle gebieden om workflows met meerdere stappen te bouwen en uit te voeren.

OpenAI o1-mini

De o1-serie blinkt uit in het nauwkeurig genereren en debuggen van complexe code. Om ontwikkelaars een efficiëntere oplossing te bieden, brengen we ook OpenAI o1-mini uit, een sneller en goedkoper redeneermodel dat bijzonder effectief is bij het coderen. Als kleiner model is o1-mini 80% goedkoper dan o1-preview, waardoor het een krachtig, kosteneffectief model is voor toepassingen die redeneren vereisen, maar geen brede kennis van de wereld.

Hoe OpenAI o1 gebruiken

ChatGPT Plus- en Team-gebruikers hebben vanaf vandaag toegang tot o1-modellen in ChatGPT. Zowel o1-preview als o1-mini kunnen handmatig worden geselecteerd in de modelkiezer, en bij de lancering zijn de wekelijkse limieten 30 berichten voor o1-preview en 50 voor o1-mini. We werken eraan om deze tarieven te verhogen en om ChatGPT automatisch het juiste model voor een bepaalde prompt te laten kiezen.

Een afbeelding van de nieuwe ChatGPT-dropdown die de nieuwe modeloptie "o1-preview" weergeeft op een felgele en blauwe abstracte achtergrond

ChatGPT Enterprise- en Edu-gebruikers krijgen vanaf volgende week toegang tot beide modellen.

Ontwikkelaars die in aanmerking komen voor API-gebruikslaag 5(opent in een nieuw venster) kunnen vandaag beginnen met prototypen met beide modellen in de API met een snelheidslimiet van 20 RPM. We werken eraan om deze limieten na aanvullende tests te verhogen. De API voor deze modellen bevat momenteel geen functie-aanroepen, streaming, ondersteuning voor systeemberichten en andere functies. Bekijk de API documentatie (opent in een nieuw venster) om aan de slag te gaan.

We zijn ook van plan om alle ChatGPT Free-gebruikers o1-mini-toegang te geven.

Wat volgt

Dit is een vroeg voorproefje van deze redeneringsmodellen in ChatGPT en de API. Naast modelupdates verwachten we browsen, uploaden van bestanden en afbeeldingen en andere functies toe te voegen om ze nuttiger te maken voor iedereen.

We zijn ook van plan om door te gaan met het ontwikkelen en uitbrengen van modellen in onze GPT-serie, naast de nieuwe OpenAI o1-serie.