HEILIGSAM! Eine neue, 200 % schnellere DeepSeek R1-0528-Variante erscheint im deutschen Labor TNG Technology Consulting GmbH

Möchten Sie intelligentere Einblicke in Ihren Posteingang erhalten? Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie nur das Wichtigste für Führungskräfte in den Bereichen KI, Daten und Sicherheit in Unternehmen. Jetzt abonnieren
Es ist etwas mehr als einen Monat her, seit das chinesische KI-Startup DeepSeek, ein Ableger des in Hongkong ansässigen High-Flyer Capital Management, die neueste Version seines erfolgreichen Open-Source-Modells DeepSeek, R1-0528, herausgebracht hat.
Wie sein Vorgänger DeepSeek-R1, der die KI-Community und die globale Geschäftswelt mit seinen geringen Trainingskosten und seiner Leistung bei Denkaufgaben überraschte und Entwicklern und Unternehmen kostenlos zur Verfügung stand, wird R1-0528 bereits von anderen KI-Laboren und -Entwicklern angepasst und neu gemischt, was zum großen Teil seiner freizügigen Apache 2.0-Lizenz zu verdanken ist.
Diese Woche hat das 24 Jahre alte deutsche Unternehmen TNG Technology Consulting GmbH eine solche Anpassung herausgebracht : DeepSeek-TNG R1T2 Chimera , das neueste Modell seiner Chimera-Familie großer Sprachmodelle (LLM). R1T2 bietet eine deutliche Steigerung von Effizienz und Geschwindigkeit und erreicht über 90 % der Intelligenz-Benchmark-Werte von R1-0528 , während es Antworten mit weniger als 40 % der Ausgabe-Token-Anzahl von R1-0528 generiert.
Das bedeutet, dass die Reaktionszeiten kürzer sind, was sich direkt in schnelleren Schlussfolgerungen und geringeren Rechenkosten niederschlägt. Auf der Modellkarte, die TNG für seinen neuen R1T2 auf der KI-Code-Sharing-Community Hugging Face veröffentlicht hat, gibt das Unternehmen an, dass dieser „etwa 20 % schneller als der normale R1“ (der im Januar veröffentlicht wurde) „und mehr als doppelt so schnell wie R1-0528“ (das offizielle Update von DeepSeek vom Mai) ist.
Die Resonanz der KI-Entwickler-Community ist bereits jetzt unglaublich positiv. „VERDAMMT! DeepSeek R1T2 – 200 % schneller als R1-0528 und 20 % schneller als R1“, schrieb Vaibhav (VB) Srivastav, Senior Leader bei Hugging Face, auf X. „Deutlich besser als R1 auf GPQA & AIME 24, erstellt über Assembly of Experts mit DS V3, R1 & R1-0528 – und es ist MIT-lizenziert und auf Hugging Face verfügbar.“
Dieser Gewinn wird durch die Assembly-of-Experts (AoE)-Methode von TNG ermöglicht – eine Technik zum Erstellen von LLMs durch selektives Zusammenführen der Gewichtstensoren (internen Parameter) aus mehreren vortrainierten Modellen, die TNG in einem im Mai auf arXiv, dem nicht von Experten begutachteten Open-Access-Online-Journal, veröffentlichten Artikel beschrieben hat.
Als Nachfolger des ursprünglichen R1T Chimera führt R1T2 eine neue „Tri-Mind“-Konfiguration ein, die drei übergeordnete Modelle integriert: DeepSeek-R1-0528, DeepSeek-R1 und DeepSeek-V3-0324. Das Ergebnis ist ein Modell, das eine hohe Denkfähigkeit bei gleichzeitig deutlich reduzierten Inferenzkosten bietet.
R1T2 wird ohne weitere Feinabstimmung oder Umschulung erstellt. Es übernimmt die Argumentationsstärke von R1-0528, die strukturierten Denkmuster von R1 und das prägnante, anweisungsorientierte Verhalten von V3-0324 und liefert so ein effizienteres und dennoch leistungsfähigeres Modell für den Einsatz in Unternehmen und Forschung.
Mixture-of-Experts (MoE) ist ein Architekturdesign, bei dem verschiedene Komponenten, sogenannte „Experten“, pro Eingabe bedingt aktiviert werden. In MoE-LLMs wie DeepSeek-V3 oder Mixtral ist während des Vorwärtsdurchlaufs eines Tokens nur eine Teilmenge der Expertenebenen des Modells (z. B. 8 von 256) aktiv. Dies ermöglicht sehr großen Modellen eine höhere Parameteranzahl und Spezialisierung bei gleichzeitig überschaubaren Inferenzkosten – da pro Token nur ein Bruchteil des Netzwerks ausgewertet wird.
Assembly-of-Experts (AoE) ist eine Technik zum Zusammenführen von Modellen, keine Architektur. Sie wird verwendet, um aus mehreren vortrainierten MoE-Modellen durch selektive Interpolation ihrer Gewichtstensoren ein neues Modell zu erstellen.
Die „Experten“ in AoE beziehen sich auf die zusammengeführten Modellkomponenten – normalerweise die gerouteten Expertentensoren innerhalb der MoE-Ebenen – und nicht auf Experten, die zur Laufzeit dynamisch aktiviert werden.
Die AoE-Implementierung von TNG konzentriert sich primär auf die Zusammenführung gerouteter Expertentensoren – dem Teil eines Modells, der hauptsächlich für spezialisiertes Denken zuständig ist – und behält dabei häufig die effizienteren Shared- und Attention-Layer von schnelleren Modellen wie V3-0324 bei. Dieser Ansatz ermöglicht es den resultierenden Chimera-Modellen, die Argumentationsstärke zu übernehmen, ohne die Ausführlichkeit oder Latenz der stärksten übergeordneten Modelle zu replizieren.
Laut den von TNG vorgelegten Benchmark-Vergleichen erreicht R1T2 zwischen 90 % und 92 % der Denkleistung seines intelligentesten Vorgängers, DeepSeek-R1-0528, gemessen mit den Testsätzen AIME-24, AIME-25 und GPQA-Diamond.

Im Gegensatz zu DeepSeek-R1-0528, das aufgrund seiner komplexen Denkkette zu langen, detaillierten Antworten neigt, ist R1T2 deutlich prägnanter gestaltet. Es liefert ähnlich intelligente Antworten, verwendet aber deutlich weniger Wörter.
Anstatt sich auf die reine Verarbeitungszeit oder Token pro Sekunde zu konzentrieren, misst TNG die „Geschwindigkeit“ anhand der Anzahl der ausgegebenen Token pro Antwort – ein praktischer Indikator für Kosten und Latenz. Laut den von TNG veröffentlichten Benchmarks generiert R1T2 Antworten mit etwa 40 % der von R1-0528 benötigten Token .
Dies führt zu einer Reduzierung der Ausgabelänge um 60 % , was wiederum die Inferenzzeit und die Rechenlast direkt reduziert und die Antworten um das Zweifache bzw. 200 % beschleunigt.
Im Vergleich zum ursprünglichen DeepSeek-R1 ist R1T2 außerdem im Durchschnitt etwa 20 % prägnanter und bietet erhebliche Effizienzsteigerungen bei Bereitstellungen mit hohem Durchsatz oder kostensensiblen Bereitstellungen.
Diese Effizienz geht nicht auf Kosten der Intelligenz. Wie die Benchmark-Tabelle im technischen Dokument von TNG zeigt, liegt R1T2 in einem attraktiven Bereich auf der Kurve der Intelligenz-Ausgabe-Kosten. Es bewahrt die Qualität der Schlussfolgerungen und minimiert gleichzeitig die Ausführlichkeit – ein entscheidendes Ergebnis für Unternehmensanwendungen, bei denen Inferenzgeschwindigkeit, Durchsatz und Kosten eine entscheidende Rolle spielen.
R1T2 wird unter einer freizügigen MIT-Lizenz veröffentlicht und ist jetzt auf Hugging Face verfügbar. Dies bedeutet, dass es Open Source ist und verwendet und in kommerzielle Anwendungen integriert werden kann.
TNG weist darauf hin, dass sich das Modell zwar gut für allgemeine Denkaufgaben eignet, aufgrund der Einschränkungen seiner DeepSeek-R1-Abstammung jedoch derzeit nicht für Anwendungsfälle empfohlen wird, die Funktionsaufrufe oder den Einsatz von Tools erfordern. Diese werden möglicherweise in zukünftigen Updates behoben.
Das Unternehmen rät europäischen Nutzern außerdem, die Einhaltung des EU-KI-Gesetzes zu prüfen, das am 2. August 2025 in Kraft tritt.
In der EU tätige Unternehmen sollten die entsprechenden Bestimmungen überprüfen oder in Erwägung ziehen, die Verwendung des Modells nach diesem Datum einzustellen, wenn die Anforderungen nicht erfüllt werden können.
US-Unternehmen, die im Inland tätig sind und Nutzer in den USA oder anderen Ländern bedienen, unterliegen jedoch nicht den Bestimmungen des EU-KI-Gesetzes. Dies bietet ihnen erhebliche Flexibilität bei der Nutzung und Bereitstellung dieses kostenlosen, schnellen Open-Source-Argumentationsmodells. Auch für Nutzer in der EU gelten einige Bestimmungen des EU-Gesetzes .
TNG hat bereits frühere Chimera-Varianten über Plattformen wie OpenRouter und Chutes verfügbar gemacht und dort Berichten zufolge täglich Milliarden von Token verarbeitet. Die Veröffentlichung von R1T2 stellt eine Weiterentwicklung dieser Bemühungen um öffentliche Verfügbarkeit dar.
Die im Januar 2001 gegründete TNG Technology Consulting GmbH hat ihren Sitz in Bayern, Deutschland, und beschäftigt über 900 Mitarbeiter, darunter einen hohen Anteil an Doktoranden und technischen Spezialisten.
Das Unternehmen konzentriert sich auf Softwareentwicklung, künstliche Intelligenz und DevOps/Cloud-Dienste und bedient große Unternehmenskunden in Branchen wie Telekommunikation, Versicherungen, Automobilindustrie, E-Commerce und Logistik.
TNG ist eine wertebasierte Beratungspartnerschaft. Ihre einzigartige Struktur, basierend auf operativer Forschung und Selbstmanagementprinzipien, fördert eine Kultur technischer Innovation.
Es leistet einen aktiven Beitrag zu Open-Source-Communitys und Forschung, wie öffentliche Veröffentlichungen wie R1T2 und die Veröffentlichung seiner Assembly-of-Experts-Methodik zeigen.
Für CTOs, Eigentümer von KI-Plattformen, technische Leiter und IT-Beschaffungsteams bietet R1T2 konkrete Vorteile und strategische Optionen:
- Geringere Inferenzkosten : Mit weniger Ausgabetoken pro Aufgabe reduziert R1T2 die GPU-Zeit und den Energieverbrauch, was sich direkt in Infrastruktureinsparungen niederschlägt – besonders wichtig in Umgebungen mit hohem Durchsatz oder in Echtzeit.
- Hohe Argumentationsqualität ohne Mehraufwand : Es behält einen Großteil der Argumentationsleistung von Spitzenmodellen wie R1-0528 bei, ohne jedoch deren Umständlichkeit zu beeinträchtigen. Dies ist ideal für strukturierte Aufgaben (Mathematik, Programmierung, Logik), bei denen präzise Antworten wünschenswert sind.
- Offen und modifizierbar : Die MIT-Lizenz ermöglicht die vollständige Kontrolle und Anpassung der Bereitstellung und ermöglicht privates Hosting, Modellausrichtung oder weitere Schulungen in regulierten oder abgeschotteten Umgebungen.
- Aufkommende Modularität : Der AoE-Ansatz deutet auf eine Zukunft hin, in der Modelle modular aufgebaut sind, sodass Unternehmen spezialisierte Varianten zusammenstellen können, indem sie die Stärken vorhandener Modelle neu kombinieren, anstatt sie von Grund auf neu zu trainieren.
- Vorbehalte : Unternehmen, die auf Funktionsaufrufe, Tool-Nutzung oder erweiterte Agenten-Orchestrierung angewiesen sind, sollten die aktuellen Einschränkungen beachten, obwohl zukünftige Chimera-Updates diese Lücken möglicherweise schließen.
TNG ermutigt Forscher, Entwickler und Unternehmensanwender, das Modell zu erkunden, sein Verhalten zu testen und Feedback zu geben. Die R1T2 Chimera ist unter huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera erhältlich. Technische Anfragen richten Sie bitte an [email protected] .
Technischen Hintergrund und Benchmark-Methodik finden Sie im Forschungspapier von TNG unter arXiv:2506.14794 .
Wenn Sie Ihren Chef beeindrucken möchten, ist VB Daily genau das Richtige für Sie. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI tun – von regulatorischen Veränderungen bis hin zu praktischen Implementierungen. So können Sie Ihre Erkenntnisse teilen und so den ROI maximieren.
Lesen Sie unsere Datenschutzrichtlinie
Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .
Ein Fehler ist aufgetreten.

venturebeat