Manier om DeepSeek's 671B AI-model uit te voeren zonder dure GPU's ontdekt

Afbeeldingsbron: Aristal, Pixabay

Hugging Face-ingenieur Matthew Carrigan onthulde onlangs op X een methode om het geavanceerde R1-model van DeepSeek lokaal uit te voeren met 8-bits kwantisatie, waardoor er geen dure GPU's meer nodig zijn, voor een gerapporteerde prijs van $6.000. De sleutel? Veel geheugen in plaats van enorme rekenkrachtreserves.

Daniel Miron (vertaald door Ninh Duy), Gepubliceerd 05-02-2025 🇺🇸 🇫🇷 ...

AI Software

DeepSeek-R1, gelanceerd op 20 januari 2025, is een 671B parameter Mixture-of-Experts (MoE) model met 37B actieve parameters per token. Het is ontworpen voor geavanceerd redeneren, ondersteunt 128K tokeninvoer en genereert tot 32K tokens. Dankzij de MoE-architectuur levert het topprestaties terwijl het minder bronnen gebruikt dan traditionele dichte modellen.

Onafhankelijke tests tonen aan dat het R1 taalmodel prestaties levert die vergelijkbaar zijn met OpenAI's O1, waardoor het een concurrerend alternatief is voor AI-toepassingen waar veel op het spel staat. Laten we eens kijken wat we nodig hebben om lokaal uit te voeren.

De hardware

Deze build draait om dubbele AMD Epyc CPU's en 768GB DDR5 RAM-geen dure GPU's nodig.

Behuizing: Enthoo Pro 2 Server
Moederbord: Gigabyte MZ73-LM0 of MZ73-LM1 (heeft twee CPU-slots & 24 RAM-slots)
CPU: 2x AMD Epyc 9004/9005 (9115 of 9015 werken als meer budgetvriendelijke opties)
Koeling: Arctic Freezer 4U-SP5
RAM: 24x 32GB DDR5 RDIMM (768 GB totaal)
Opslag: 1TB+ NVMe SSD (om snel 700 GB aan modelgewichten te laden)
Voeding: Corsair HX1000i (1000W, ruim voldoende voor dubbele CPU's)

Software & Installatie

Eenmaal geassembleerd, Linux en llama.cpp geïnstalleerd worden geïnstalleerd worden om het model te kunnen draaien. Een cruciale BIOS-tweak, NUMA-groepen op 0 instellen, verdubbelt de RAM-efficiëntie voor betere prestaties. De volledige 700GB aan DeepSeek-R1-gewichten kan worden gedownload https://huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/mainvan Hugging Face.

Prestaties

Deze opstelling genereert 6-8 tokens per seconde - niet slecht voor een volledig lokaal high-end AI-model. GPU wordt volledig overgeslagen, maar dat is opzettelijk. Voor Q8 quantisatie (voor hoge kwaliteit) op GPU's zou meer dan 700GB VRAM nodig zijn, wat meer dan $100K zou kosten. Ondanks de ruwe kracht verbruikt het hele systeem minder dan 400W, waardoor het verrassend efficiënt is.

Voor degenen die volledige controle willen over grensverleggende AI, geen cloud, geen beperkingen, is dit een gamechanger. Het bewijst dat high-end AI lokaal kan worden uitgevoerd, op een volledig open-source manier, terwijl gegevensprivacy prioriteit krijgt, de kwetsbaarheid voor inbreuken wordt geminimaliseerd en de afhankelijkheid van externe systemen wordt geëlimineerd.