Därför försöker startups få fram alternativ till GPU:er för att köra AI

För tjugo år sedan fattade Nvidia ett välgrundat beslut att utöka sitt fokus från spel till högpresterande databehandling, HPC. En stor del av HPC är matematik, och GPU:n, grafikprocessorn, är en massiv matematisk coprocessor med tusentals kärnor som arbetar parallellt.

Det beslutet har fallit väl ut för Nvidia. Under det förra kvartalet redovisade Nvidia rekordhöga intäkter från datacenter på 14,5 miljarder dollar, vilket är en ökning med 41 procent jämfört med föregående kvartal och 279 procent jämfört med samma kvartal året innan. Deras GPU:er är nu standard inom AI-bearbetning, till och med mer än de är inom spel.

Naturligtvis finns det gott om företag som vill ta över Nvidias krona. Det är inte bara de uppenbara konkurrenterna som AMD och Intel utan också flera nystartade företag som påstår sig ha skapat bättre sätt att bearbeta stora språkmodeller, LLM, och andra delar av AI. Det handlar om företag som Sambanova, Cerebras, Graphcore, Groq, xAI, med flera. Samtidigt satsar Intel också på ett GPU-alternativ med sin Gaudi3-processor (tillsammans med Max GPU-serien för datacenter).

Dessa leverantörer jagar en enorm möjlighet: Enligt Precedence Research kommer marknaden för AI-hårdvara att uppgå till 43 miljarder dollar 2022 och öka till 240 miljarder dollar 2030.

Begränsningar med äldre GPU-teknik

Den traditionella processorn, CPU:n, är inte idealisk för dedikerad bearbetning som AI eftersom den är en generell processor, vilket innebär att den gör en massa saker som den kanske inte behöver göra, till exempel att driva systemet, säger Glenn O’Donnell, senior vice president och analytiker på Forrester Research.

– Den förbrukar ström och använder kretsar som egentligen inte är nödvändiga. Så vad händer om man kan ha ett chipp som är optimerat för en specifik sak, säger han.

– Googles Tensor Flow-processor är förmodligen ett av de tydligaste exemplen på det. Den är optimerad för tensor flow-algoritmen och den bearbetning som krävs för att göra tensor flow-analyser. Det är inte en kompromiss. Den är byggd för det ändamålet.

GPU:n har samma problem. GPU:n konstruerades på 1990-talet för att accelerera 3d-spel, och precis som CPU:n skulle den också kunna bli mer effektiv, konstaterar Daniel Newman, chefsanalytiker på Futurum Research.

– I den allmänna konstruktionen är arkitekturen fortfarande en slags kärnmodell, vilket innebär att du gör en sak i taget, och sedan behöver du ett värdchipp för att orkestrera alla modeller, eller andra delar av modellerna, som behöver beräknas. Det är alltså en hel del kommunikation som måste ske mellan processorerna, där modellen plockas isär för att mata var och en av GPU:erna och sedan återmonteras för att faktiskt konstruera grundmodellerna, säger han.

Elmer Morales, grundare, vd och teknisk chef på Ainstein.com, en plattform som låter privatpersoner och företag skapa sin egen autonoma assistent, säger att i början av utvecklingen av AI och HPC började branschen använda dessa GPU:er eftersom de redan var tillgängliga och ”typ som den lågt hängande frukten”.

De som säljer GPU-alternativ menar att de har en bättre idé.

– Du kommer att upptäcka att GPU:er gör ett bra jobb när det gäller allmän träning för ett brett spektrum av saker, och du kan lära dig hur man distribuerar dem mycket, mycket snabbt, säger Rodrigo Liang, medgrundare och vd för Sambanova Systems.

– När man kommer till de här riktigt, riktigt stora modellerna börjar man se vissa brister. När du kommer till storleken på GPT behöver du köra tusentals av dessa chipp. Och i slutändan är dessa chipp inte särskilt effektiva.

James Wang, produktmarknadschef på Cerebras Systems, är inne på samma spår och menar att GPU-chippet helt enkelt är för litet. Dess chipp, Wafer-Scale Engine-2 (WSE-2), är lika stort som ett skivomslag. Medan Hopper GPU har några tusen kärnor, har WSE-2 850 000 kärnor, och företaget hävdar att minnesbandbredden är 9 800 gånger större än GPU:ns.

– Mängden minne avgör hur storskalig modell du kan träna, säger James Wang.

– Så om din utgångspunkt är en GPU, är det maximala du kan ha beroende av storleken på GPU:n och det medföljande minnet. Om man vill gå ännu längre blir det problemet mycket svårare. Då måste man i princip programmera runt alla GPU:ns svaga punkter.

Elmer Morales säger också att GPU:n helt enkelt är för liten för massiva modeller, och att modellen måste delas upp på tusentals GPU-chipp för bearbetning.

– Bortsett från latensen är den helt enkelt för liten om modellen inte får plats, säger han.

Åttio gigabyte – vilket är mängden minne i en Nvidia H100 GPU – ”är inte tillräckligt för en stor modell”.

Genom att tillverka ett fysiskt större chipp med fler kärnor och mer minne kan mer av en stor språkmodell bearbetas per chipp, vilket innebär att färre chipp totalt sett krävs för att utföra arbetet. Detta leder till lägre energiförbrukning, och energiförbrukning är ett stort problem när det gäller processorintensiva AI-arbetsbelastningar.

Ekosystem kombinerar hårdvara och mjukvara

Även om tonvikten ligger på deras processorer är nystartade företag som Cerebras och Sambanova mer än bara chipptillverkare, de är kompletta systemutvecklare. De tillhandahåller serverhårdvaran och en mjukvarustack för att köra applikationerna. Men det gör även Intel, AMD och Nvidia. Alla tre är kända för sitt kisel, men de har stora och massiva mjukvarusatsningar kring AI.

Ekosystemen för mjukvara har haft två syften: att stödja hårdvaran och att låsa in kunderna i sina respektive plattformar.

– En GPU eller till och med en CPU i sig är ganska värdelös, säger Glenn O’Donnell.

– En av anledningarna till att Nvidia har blivit den här branschens gigant är den vallgrav, som alla gillar att kalla det, som de har byggt runt sin CUDA-plattform. Så att ersätta Nvidias GPU-hårdvara med Intel-hårdvara kommer inte att bli så enkelt på grund av mjukvarans ekosystem.

James Wang säger att AI-industrin som helhet, från Nvidia till Cerebras, nu anammar mjukvara med öppen källkod, vilket bidrar till att undvika leverantörs- eller plattformslåsning (som Nvidia gjorde med CUDA) eftersom mjukvaran är plattformsoberoende. Kunderna kan alltså välja hårdvara utan att tvingas välja plattform baserat på den tillgängliga mjukvaran.

– Övergången till öppen källkod är ett mycket nytt fenomen. Och det har varit till stor hjälp för branschen, eftersom slutresultatet är att en person har betalat för det, men alla andra i världen får dra nytta av det, säger han.

– Vi vill se till att nystartade företag och våra kunder har valmöjligheter, och att de kan använda flera leverantörer och blanda och matcha saker och omprogrammera saker som de tycker passar för att undvika nätverkslåsning, säger Elmer Morales på Ainstein.

Ainstein använder Grok-system från Elon Musk-backade xAI, men deras AI-agenter fungerar på alla plattformar.

Nästa steg programmerbara chipp

Glenn O’Donnell tror att nästa steg i utvecklingen av AI-bearbetning kommer att vara framväxten av anpassade, programmerbara chipp.

– FPGA:er på steroider, säger han.

– I en FPGA kan du programmera om den till att göra olika saker. Och den kommer att göra dessa saker ganska bra. Jag tror att vi kommer att se stora framsteg där, förmodligen under den senare halvan av detta årtionde.

Elmer Morales håller med och säger att hårdvaruleverantörer inte kan vara låsta till en typ av modell.

– Hårdvarutillverkarna kommer att behöva erbjuda liknande chipp som är programmerbara och som kan användas för att köra olika modeller, säger han.

– Konsumenterna kommer att kunna välja att använda en enhet för vad de vill, mot vilken modell de vill. Så jag tror definitivt att det är en riktning som branschen kommer att gå mot.

Glenn O’Donnell tror inte att de flesta av dessa nystartade företag har någon större chans att dominera, särskilt inte mot monster som Nvidia och Intel.

– Men jag tror att några av dem kommer att hitta sin nisch och göra bra ifrån sig inom den nischen. Jag vet inte om någon av dem kommer att explodera på scenen. Men vem vet? Några av dem kanske blir uppköpta bara för att få en del av deras immateriella rättigheter, säger han.

Emerging Technology, GPUs