CAVOLO! Una nuova variante del DeepSeek R1-0528, più veloce del 200%, è stata lanciata dal laboratorio tedesco TNG Technology Consulting GmbH.

Desideri ricevere informazioni più intelligenti nella tua casella di posta? Iscriviti alle nostre newsletter settimanali per ricevere solo ciò che conta per i leader aziendali di intelligenza artificiale, dati e sicurezza. Iscriviti ora
È passato poco più di un mese da quando la startup cinese di intelligenza artificiale DeepSeek, una costola della High-Flyer Capital Management con sede a Hong Kong, ha rilasciato l' ultima versione del suo modello open source di successo DeepSeek, R1-0528.
Come il suo predecessore, DeepSeek-R1, che ha scosso le comunità di intelligenza artificiale e imprenditoriale a livello mondiale per il suo basso costo di addestramento e le sue ottime prestazioni nei compiti di ragionamento, il tutto disponibile gratuitamente per sviluppatori e aziende, R1-0528 è già stato adattato e remixato da altri laboratori di intelligenza artificiale e sviluppatori, in gran parte grazie alla sua licenza permissiva Apache 2.0.
Questa settimana, la società tedesca TNG Technology Consulting GmbH, con i suoi 24 anni di esperienza, ha rilasciato uno di questi adattamenti: DeepSeek-TNG R1T2 Chimera , l'ultimo modello della sua famiglia di modelli linguistici di grandi dimensioni (LLM) Chimera. R1T2 offre un notevole incremento di efficienza e velocità, raggiungendo oltre il 90% dei punteggi di benchmark di intelligence di R1-0528 , generando risposte con meno del 40% del conteggio dei token di output di R1-0528 .
Ciò significa che produce risposte più brevi, che si traducono direttamente in inferenza più rapida e costi di elaborazione inferiori . Sulla scheda modello rilasciata da TNG per la sua nuova R1T2 sulla community di condivisione di codice AI Hugging Face, l'azienda afferma che è "circa il 20% più veloce della R1 standard" (quella rilasciata a gennaio) "e più del doppio della R1-0528" (l'aggiornamento ufficiale di maggio di DeepSeek).
La risposta della community di sviluppatori di intelligenza artificiale è già stata incredibilmente positiva. "ACCIDENTI! DeepSeek R1T2 – 200% più veloce di R1-0528 e 20% più veloce di R1", ha scritto Vaibhav (VB) Srivastav, senior leader di Hugging Face, su X. "Significativamente migliore di R1 su GPQA e AIME 24, realizzato tramite Assembly of Experts con DS V3, R1 e R1-0528 – ed è con licenza MIT, disponibile su Hugging Face."
Questo guadagno è reso possibile dal metodo Assembly-of-Experts (AoE) di TNG, una tecnica per creare LLM mediante l'unione selettiva dei tensori di peso (parametri interni) da più modelli pre-addestrati, descritta da TNG in un articolo pubblicato a maggio su arXiv, la rivista online open access non sottoposta a revisione paritaria.
Successore dell'originale R1T Chimera, R1T2 introduce una nuova configurazione "Tri-Mind" che integra tre modelli principali: DeepSeek-R1-0528, DeepSeek-R1 e DeepSeek-V3-0324. Il risultato è un modello progettato per mantenere un'elevata capacità di ragionamento riducendo significativamente i costi di inferenza.
R1T2 è stato sviluppato senza ulteriori perfezionamenti o riqualificazioni. Eredita la forza di ragionamento di R1-0528, i modelli di pensiero strutturati di R1 e il comportamento conciso e orientato alle istruzioni di V3-0324, offrendo un modello più efficiente e al contempo più efficace per l'uso aziendale e di ricerca.
Mixture-of-Experts (MoE) è un design architetturale in cui diversi componenti, o "esperti", vengono attivati in modo condizionale per input. Nei LLM MoE come DeepSeek-V3 o Mixtral, solo un sottoinsieme dei livelli esperti del modello (ad esempio, 8 su 256) è attivo durante il forward pass di un token. Ciò consente a modelli molto grandi di raggiungere un numero maggiore di parametri e una maggiore specializzazione, mantenendo al contempo i costi di inferenza gestibili, poiché solo una frazione della rete viene valutata per token.
Assembly-of-Experts (AoE) è una tecnica di fusione di modelli, non un'architettura. Viene utilizzata per creare un nuovo modello a partire da più modelli MoE pre-addestrati, interpolando selettivamente i loro tensori di peso.
In AoE, gli "esperti" si riferiscono ai componenti del modello che vengono uniti, in genere i tensori esperti instradati all'interno dei livelli MoE, non agli esperti attivati dinamicamente durante l'esecuzione.
L'implementazione di AoE da parte di TNG si concentra principalmente sull'unione di tensori esperti instradati – la parte di un modello maggiormente responsabile del ragionamento specializzato – pur mantenendo spesso i livelli condivisi e di attenzione più efficienti di modelli più veloci come V3-0324. Questo approccio consente ai modelli Chimera risultanti di ereditare la forza di ragionamento senza replicare la verbosità o la latenza dei modelli padre più robusti.
Secondo i confronti di riferimento presentati da TNG, R1T2 raggiunge tra il 90% e il 92% delle prestazioni di ragionamento del suo genitore più intelligente, DeepSeek-R1-0528, come misurato dai set di test AIME-24, AIME-25 e GPQA-Diamond.

Tuttavia, a differenza di DeepSeek-R1-0528, che tende a produrre risposte lunghe e dettagliate grazie al suo ragionamento a catena di pensiero estesa, R1T2 è progettato per essere molto più conciso. Fornisce risposte altrettanto intelligenti, ma utilizzando un numero significativamente inferiore di parole.
Invece di concentrarsi sul tempo di elaborazione grezzo o sui token al secondo, TNG misura la "velocità" in termini di conteggio dei token in uscita per risposta , un indicatore pratico sia per i costi che per la latenza. Secondo i benchmark condivisi da TNG, R1T2 genera risposte utilizzando circa il 40% dei token richiesti da R1-0528.
Ciò si traduce in una riduzione del 60% della lunghezza dell'output , che riduce direttamente il tempo di inferenza e il carico di elaborazione, velocizzando le risposte di 2 volte, ovvero del 200%.
Rispetto al DeepSeek-R1 originale, R1T2 è inoltre in media circa il 20% più conciso , offrendo significativi guadagni in termini di efficienza per distribuzioni ad alta produttività o sensibili ai costi.
Questa efficienza non va a discapito dell'intelligenza. Come mostrato nel grafico di riferimento presentato nel documento tecnico di TNG, R1T2 si colloca in una zona favorevole sulla curva dei costi di intelligence rispetto a quelli di output. Preserva la qualità del ragionamento riducendo al minimo la verbosità, un risultato fondamentale per le applicazioni aziendali in cui velocità di inferenza, throughput e costi sono fattori determinanti.
R1T2 è rilasciato con una licenza MIT permissiva ed è ora disponibile su Hugging Face, il che significa che è open source e disponibile per essere utilizzato e integrato in applicazioni commerciali.
TNG osserva che, sebbene il modello sia adatto per attività di ragionamento generale, non è attualmente raccomandato per casi d'uso che richiedono la chiamata di funzioni o l'uso di strumenti, a causa di limitazioni ereditate dalla sua discendenza DeepSeek-R1. Queste limitazioni potrebbero essere risolte in futuri aggiornamenti.
L'azienda consiglia inoltre agli utenti europei di valutare la conformità all'AI Act dell'UE, che entrerà in vigore il 2 agosto 2025.
Le imprese che operano nell'UE dovrebbero rivedere le disposizioni pertinenti o valutare di interrompere l'utilizzo del modello dopo tale data se i requisiti non possono essere soddisfatti.
Tuttavia, le aziende statunitensi che operano a livello nazionale e forniscono servizi a utenti statunitensi o di altre nazioni non sono soggette ai termini dell'EU AI Act, il che dovrebbe garantire loro una notevole flessibilità nell'utilizzo e nell'implementazione di questo modello di ragionamento open source, gratuito e veloce. Se forniscono servizi a utenti nell'UE, alcune disposizioni dell'EU Act continueranno ad applicarsi .
TNG ha già reso disponibili le precedenti varianti di Chimera tramite piattaforme come OpenRouter e Chutes, dove, a quanto pare, ha elaborato miliardi di token al giorno. Il rilascio di R1T2 rappresenta un'ulteriore evoluzione in questo impegno di disponibilità al pubblico.
Fondata nel gennaio 2001, la TNG Technology Consulting GmbH ha sede in Baviera, in Germania, e impiega oltre 900 dipendenti, con un'alta concentrazione di dottori di ricerca e tecnici specializzati.
L'azienda si concentra sullo sviluppo di software, sull'intelligenza artificiale e sui servizi DevOps/cloud, servendo importanti clienti aziendali in settori quali telecomunicazioni, assicurazioni, automotive, e-commerce e logistica.
TNG opera come una partnership di consulenza basata su valori. La sua struttura unica, fondata sulla ricerca operativa e sui principi di autogestione, promuove una cultura di innovazione tecnica.
Contribuisce attivamente alle comunità open source e alla ricerca, come dimostrato attraverso versioni pubbliche come R1T2 e la pubblicazione della sua metodologia Assembly-of-Experts.
Per i CTO, i proprietari di piattaforme di intelligenza artificiale, i responsabili dell'ingegneria e i team di approvvigionamento IT, R1T2 introduce vantaggi tangibili e opzioni strategiche:
- Costi di inferenza inferiori : con un minor numero di token di output per attività, R1T2 riduce il tempo di elaborazione della GPU e il consumo energetico, traducendosi direttamente in risparmi infrastrutturali, particolarmente importanti in ambienti ad alta produttività o in tempo reale.
- Elevata qualità di ragionamento senza sovraccarico : conserva gran parte della potenza di ragionamento di modelli di alto livello come R1-0528, ma senza la loro prolissità. È ideale per compiti strutturati (matematica, programmazione, logica) in cui sono preferibili risposte concise.
- Aperto e modificabile : la licenza MIT consente il pieno controllo e la personalizzazione dell'implementazione, consentendo l'hosting privato, l'allineamento dei modelli o un'ulteriore formazione in ambienti regolamentati o isolati.
- Modularità emergente : l'approccio AoE suggerisce un futuro in cui i modelli vengono creati in modo modulare, consentendo alle aziende di assemblare varianti specializzate ricombinando i punti di forza dei modelli esistenti, anziché riqualificarli partendo da zero.
- Avvertenze : le aziende che si affidano alla chiamata di funzioni, all'uso di strumenti o all'orchestrazione avanzata degli agenti dovrebbero tenere presente le attuali limitazioni, sebbene i futuri aggiornamenti di Chimera potrebbero colmare queste lacune.
TNG incoraggia ricercatori, sviluppatori e utenti aziendali a esplorare il modello, testarne il comportamento e fornire feedback. Il modello R1T2 Chimera è disponibile all'indirizzo huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera e le richieste di informazioni tecniche possono essere inviate a [email protected] .
Per informazioni di carattere tecnico e metodologia di riferimento, il documento di ricerca di TNG è disponibile su arXiv:2506.14794 .
Se vuoi fare colpo sul tuo capo, VB Daily è la soluzione che fa per te. Ti offriamo informazioni privilegiate su ciò che le aziende stanno facendo con l'IA generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere spunti per massimizzare il ROI.
Leggi la nostra Informativa sulla privacy
Grazie per l'iscrizione. Scopri altre newsletter di VB qui .
Si è verificato un errore.

venturebeat