La Cina punta alto con deepseek-r1 e l’ultimo arrivato kimi k1.5

Andrea Belvedere
4 min readJan 27, 2025

--

Quando si parla di intelligenza artificiale, non si può ignorare il ritmo frenetico con cui le aziende cinesi stanno colmando il divario con i giganti americani.

Questa settimana, due innovazioni hanno catturato l’attenzione globale: DeepSeek-R1 e Kimi k1.5, due modelli di ragionamento avanzato che sfidano i limiti dell’AI attuale.

Ma perché sono così importanti, e cosa significano per il futuro dell’AI?

Negli ultimi anni, il progresso nell’intelligenza artificiale ha fatto affidamento sul pre-training, ovvero l’addestramento di modelli su enormi quantità di dati. Tuttavia, come avvertito dagli esperti, questa pratica potrebbe aver raggiunto il suo limite, con la crescente scarsità di dati pubblici di alta qualità.

Entra in gioco il test-time compute, un nuovo approccio che utilizza più risorse durante l’inferenza, il momento in cui un modello risponde a una domanda o risolve un problema. Questo paradigma sta rivoluzionando il settore, permettendo ai modelli di pensare in modo più profondo e articolato prima di rispondere.

Il team di DeepSeek per esempio, ha introdotto DeepSeek-R1 come una pietra miliare nel ragionamento logico. L’innovazione principale? Usare il reinforcement learning (RL) come unica tecnica di addestramento, senza passare per il tradizionale supervised fine-tuning.

È come saltare la teoria e andare direttamente alla pratica, affinando il modello attraverso tentativi ed errori. Un altro punto di forza di DeepSeek-R1 è la capacità di riflettere sui propri errori. Durante l’addestramento, il modello ha imparato a rivedere e ottimizzare le proprie strategie, un po’ come farebbe un giocatore di scacchi che analizza ogni mossa.

Questi progressi si traducono in performance di alto livello su benchmark matematici (97.4 su MATH) e capacità creative, come scrittura e editing.

Ma non è tutto rose e fiori: il modello soffre di limiti nella leggibilità e mescolanza linguistica. Per questo, DeepSeek ha sviluppato versioni distillate e ottimizzate per migliorare l’accessibilità e l’efficienza.

kimi k1.5: il futuro del ragionamento multimodale

Mentre DeepSeek-R1 si distingue per la sua precisione, Kimi k1.5 di Moonshot AI si concentra sull’adattabilità.

Grazie a un’innovativa finestra contestuale da 128.000 token, questo modello può gestire enormi quantità di informazioni contemporaneamente, eccellendo in compiti complessi che combinano testo e immagini, come geometria e test di intelligenza visiva.

Un aspetto rivoluzionario è il modello short-CoT, che riduce significativamente i costi di inferenza senza sacrificare la qualità. Questo approccio lo rende ideale per applicazioni reali dove l’efficienza è cruciale.

Perché le aziende cinesi stanno recuperando terreno così rapidamente?

Un aspetto impressionante è la velocità con cui le aziende cinesi stanno emulando e superando le tecnologie occidentali. Per esempio, se GPT-4 richiedeva fino a 18 mesi per essere replicato, o1 di OpenAI è stato eguagliato in meno di quattro mesi con DeepSeek-R1. Come è possibile?

Distillazione e RL sono due tecniche chiave. Distillando i dati da modelli superiori, le aziende possono creare versioni più piccole e altrettanto potenti. Inoltre, il test-time compute richiede risorse inferiori rispetto al pre-training, rendendolo più accessibile anche per laboratori con budget limitati.

Ma non si tratta solo di emulazione. Sempre più aziende cinesi stanno puntando su open source, offrendo modelli e strumenti alla comunità globale.

Questo approccio collaborativo non solo accelera l’innovazione, ma rafforza la posizione della Cina come leader tecnologico.

Come ha detto Liang Wenfeng, CEO di DeepSeek: “La vera differenza non è di uno o due anni, ma tra originalità e imitazione. La Cina non può rimanere per sempre in una posizione di seguace.”

Questo spirito pionieristico è ciò che potrebbe portare l’AI cinese a non essere solo competitiva, ma leader nel panorama globale.

Con modelli come DeepSeek-R1 e Kimi k1.5, la Cina sta dimostrando che non si tratta solo di seguire, ma di ridefinire gli standard. La vera sfida ora non è solo creare modelli potenti, ma usarli per risolvere problemi reali, dal miglioramento dell’educazione all’ottimizzazione delle infrastrutture.

Staremo a vedere , in attesa della prossima strabiliante innovazione !

Stay tuned

--

--

Andrea Belvedere
Andrea Belvedere

Written by Andrea Belvedere

Tech Writer at New Technology, Blockchain & AI. From Italy

No responses yet