High Flyer, hedge fond koji podržava DeepSeek, rekao je da model skoro odgovara performansama LLM-a koje su izgradile američke firme poput OpenAI, Google i Meta, ali to radi koristeći samo oko 2.000 kompjuterskih čipova starije generacije koje proizvodi lider u industriji sa sjedištem u SAD-u Nvidia dok košta samo oko 6 miliona dolara računarske snage za obuku.
Poređenja radi, Metin AI sistem, Llama, koristi oko 16.000 čipova i navodno košta Metu znatno više novca za obuku.
Model otvorenog koda
Očigledni napredak u kineskim AI sposobnostima dolazi nakon godina napora američke vlade da ograniči pristup Kine naprednim poluvodičima i opremi koja se koristi za njihovu proizvodnju. U protekle dvije godine, pod predsjednikom Joeom Bidenom, SAD su uvele više mjera kontrole izvoza sa specifičnim ciljem ugušivanja napretka Kine u razvoju umjetne inteligencije.
Čini se da je DeepSeek inovirao svoj put do nekog svog uspjeha, razvijajući nove i efikasnije algoritme koji omogućavaju čipovima u sistemu da efikasnije komuniciraju jedni s drugima, čime se poboljšavaju performanse.
Barem nešto od onoga što su programeri DeepSeek R1 učinili da poboljšaju njegove performanse vidljivo je promatračima izvan kompanije, jer je model otvorenog koda, što znači da su algoritmi koje koristi za odgovaranje na upite javni.
Reakcija tržišta
Vijest o mogućnostima DeepSeek-a izazvala je široku rasprodaju tehnoloških dionica na američkim tržištima u ponedjeljak, jer su investitori počeli da se pitaju da li će objavljeni planovi američkih kompanija da ulože stotine milijardi dolara u AI podatkovne centre i drugu infrastrukturu očuvati njihovu dominacija na terenu. Kada su se tržišta zatvorila u ponedjeljak, tehnološki težak Nasdaq indeks je pao za 3,1%, a cijena dionice Nvidije je pala za skoro 17%.
Međutim, ne vjeruju svi stručnjaci za umjetnu inteligenciju da je reakcija tržišta na izlazak DeepSeek R1 opravdana, ili da tvrdnje o razvoju modela treba uzeti zdravo za gotovo.
Mel Morris, izvršni direktor Corpora.ai sa sjedištem u Ujedinjenom Kraljevstvu, AI istraživačkog motora, rekao je za Glas Amerike da, iako je DeepSeek impresivan dio tehnologije, vjeruje da je reakcija tržišta pretjerana i da je potrebno više informacija kako bi se precizno procijenio uticaj DeepSeek-a imati na AI tržištu.
"Uvijek postoji pretjerana reakcija na stvari, a postoji i danas, pa hajde da se odmaknemo i analiziramo ono što vidimo ovdje", rekao je Morris. “Prvo, nemamo stvarno razumijevanje o tome koliki je tačno trošak ili vremenska skala uključena u izgradnju ovog proizvoda… Tvrde da je znatno jeftinije i efikasnije, ali nemamo dokaza za to.”
Moris je rekao da, iako se performanse DeepSeeka mogu uporediti sa performansama OpenAI proizvoda, "još nisam vidio ništa što bi me uvjerilo da su zapravo uspjeli probiti kvantni korak u troškovima rada s ovakvim modelima."
Sumnje oko porijekla
Lennart Heim, naučnik za podatke iz RAND Corporation, rekao je za Glas Amerike da iako je jasno da DeepSeek R1 ima koristi od inovativnih algoritama koji povećavaju njegove performanse, on se slaže da šira javnost zapravo relativno malo zna o tome kako je osnovna tehnologija razvijena.
Heim je rekao da je nejasno da li trošak obuke od 6 miliona dolara koji navodi High Flyer zapravo pokriva cjelokupne troškove kompanije - uključujući osoblje, troškove podataka o obuci i druge faktore - ili je to samo procjena onoga što bi konačna obuka imala trošak u smislu sirove računarske snage. Ako je ovo drugo, rekao je Heim, cifra je uporediva s troškovima koje imaju bolji američki modeli.
Takođe je doveo u pitanje tvrdnju da je DeepSeek razvijen sa samo 2.000 čipova. U blog postu napisanom tokom vikenda, on je napomenuo da se vjeruje da kompanija ima postojeće operacije sa desetinama hiljada Nvidia čipova koji su se mogli koristiti za obavljanje posla potrebnog za razvoj modela koji može raditi na samo 2.000.
„Ovaj ekstenzivni računarski pristup je verovatno bio ključan za razvoj njihovih tehnika efikasnosti putem pokušaja i grešaka i za pružanje njihovih modela kupcima“, napisao je on.
Također je istakao da je odluka kompanije da objavi verziju R1 svog LLM-a prošle sedmice - nakon inauguracije novog američkog predsjednika - izgledala političke prirode. Rekao je da je "očito bila namjera da uzdrma povjerenje javnosti u vodstvo umjetne inteligencije Sjedinjenih Država tokom ključnog trenutka u američkoj politici".
Dean W. Ball, istraživač u Mercatus centru Univerziteta George Mason, također je bio oprezan kada je izjavio da je DeepSeek R1 na neki način promijenio AI pejzaž.
„Mislim da Silicijumska dolina i Wall Street donekle pretjeruju“, rekao je on za Glas Amerike. “Ali na kraju, R1 znači da će konkurencija između SAD-a i Kine vjerovatno ostati žestoka i da to moramo shvatiti ozbiljno.”
Debata o kontroli izvoza
Očigledni uspjeh DeepSeek-a neki stručnjaci koriste kao dokaz da sugerišu da kontrola izvoza uspostavljena pod Bidenovom administracijom možda nije imala željene efekte.
„To sugeriše da američki pristup vještačkoj inteligenciji i kontroli izvoza možda neće biti tako efikasna kao što zagovornici tvrde“, rekao je za Glas Amerike Pol Triolo, partner DGA-Allbright Stone Bridge grupe.
„Dostupnost vrlo dobrih, ali ne i vrhunskih GPU-a – na primjer, koje kompanija poput DeepSeek-a može optimizirati za specifične obuke i radna opterećenja – sugerira da bi fokus izvoznih kontrola za najnapredniji hardver i modele mogao biti zabačen,” Triolo rekao je. “I pored toga, ostaje nejasno kako će DeepSeek biti u stanju da drži korak sa globalnim liderima kao što su OpenAI, Google, Anthropic, Mistral, Meta i drugi koji će nastaviti da imaju pristup najboljim hardverskim sistemima.”
Drugi stručnjaci su, međutim, tvrdili da kontrole izvoza jednostavno nisu postojale dovoljno dugo da bi pokazale rezultate.
Sam Bresnick, istraživač u Centru za sigurnost i novu tehnologiju Univerziteta Georgetown, rekao je za Glas Amerike da bi bilo "veoma prerano" nazvati mjere neuspjelim.
"Generalni direktor DeepSeeka je rekao da je najveće ograničenje s kojim se suočavaju pristup računarskim resursima visokog nivoa," rekao je Bresnick. „Kada bi [DeepSeek] imao toliko računara na dohvat ruke kao Google, Microsoft, OpenAI, itd., došlo bi do značajnog povećanja njihovih performansi. Dakle... ne mislim da je DeepSeek pokazatelj da kontrola izvoza ne funkcionira.”
Bresnick je napomenuo da su najoštrije kontrole izvoza uvedene tek 2023. godine, što znači da se njihovi efekti možda tek počinju osjećati. On je rekao da će pravi test njihove efikasnosti biti da li su američke firme u stanju da nastave da nadmaše Kinu u narednim godinama.