DeepSeek ha lavorato su due fronti: migliorare l’efficienza del training del LLM di base con una serie di accorgimenti per utilizzare al meglio le GPU; interventi nella la fase di raffinamento del modello per adattarlo a rispondere a domande seguendo un filo di ragionamento (CoT) e a imparare a scegliere la risposta preferibile tra varie possibili. La tecnica adottata per questa fase consente di eliminare l’intervento di annotatori umani e usa un altro loro modello per fornire i suggerimenti sui ragionamenti da seguire. Il risultato finale, DeepSeek V3, è un modello piuttosto grande, da 671 miliardi di parametri, che è in grado di rivaleggiare con modelli ancor più grandi e costosi da produrre. Ma il modello più grande può essere “distillato” in modelli più piccoli, di nicchia o specializzati, aumentando significativamente le loro capacità di ragionamento senza aumentarne le dimensioni. Questo non significa che non sia ancora utile sviluppare i modelli di base più potenti al fine di avanzare i loro limiti. E nemmeno che DeepSeek non abbia bisogno di notevoli risorse di calcolo: dispone di circa 50.000 GPU, oltre il triplo di Leonardo del Cineca. Il CoT stimola il modello ad effettuare una serie di passi di ragionamento intermedi nel cercare una soluzione e DeepSeek li esplicita nel rispondere, inseriti tra due tag <think> e </think>, diversamente da OpenAI o1 che invece tiene nascosti i suoi passaggi.