Sélectionner la langue

French

Down Icon

Sélectionnez un pays

England

Down Icon

BON SANG ! Une nouvelle variante de DeepSeek R1-0528, 200 % plus rapide, est apparue grâce au laboratoire allemand TNG Technology Consulting GmbH.

BON SANG ! Une nouvelle variante de DeepSeek R1-0528, 200 % plus rapide, est apparue grâce au laboratoire allemand TNG Technology Consulting GmbH.

Envie d'informations plus pertinentes dans votre boîte mail ? Inscrivez-vous à nos newsletters hebdomadaires pour recevoir uniquement les informations essentielles pour les leaders de l'IA, des données et de la sécurité en entreprise. Abonnez-vous maintenant.

Cela fait un peu plus d'un mois que la startup chinoise d'IA DeepSeek, une filiale de High-Flyer Capital Management basée à Hong Kong, a publié la dernière version de son modèle open source à succès DeepSeek, R1-0528.

Comme son prédécesseur, DeepSeek-R1 — qui a secoué les communautés de l'IA et des entreprises mondiales par le faible coût de sa formation et ses performances dans les tâches de raisonnement, le tout disponible gratuitement pour les développeurs et les entreprises — R1-0528 est déjà en cours d'adaptation et de remix par d'autres laboratoires et développeurs d'IA, en grande partie grâce à sa licence permissive Apache 2.0.

Cette semaine, la société allemande TNG Technology Consulting GmbH, créée il y a 24 ans, a publié une adaptation de ce type : DeepSeek-TNG R1T2 Chimera , le dernier modèle de sa famille de modèles de langage étendus (LLM) Chimera. R1T2 offre une amélioration notable de l'efficacité et de la rapidité, atteignant plus de 90 % des scores de référence d'intelligence de R1-0528 , tout en générant des réponses avec moins de 40 % du nombre de jetons de sortie de R1-0528 .

Cela signifie qu'il produit des réponses plus courtes, ce qui se traduit directement par une inférence plus rapide et des coûts de calcul réduits . Sur la carte modèle TNG publiée pour son nouveau R1T2 sur la communauté de partage de code IA Hugging Face, l'entreprise indique qu'il est « environ 20 % plus rapide que le R1 standard » (celui publié en janvier) « et plus de deux fois plus rapide que le R1-0528 » (la mise à jour officielle de mai de DeepSeek).

La communauté des développeurs d'IA a déjà reçu une réponse incroyablement positive. « Zut ! DeepSeek R1T2 – 200 % plus rapide que R1-0528 et 20 % plus rapide que R1 », a écrit Vaibhav (VB) Srivastav, responsable senior chez Hugging Face, sur X. « Nettement meilleur que R1 sur GPQA et AIME 24, développé via Assembly of Experts avec DS V3, R1 et R1-0528 – et sous licence MIT, disponible sur Hugging Face. »

Ce gain est rendu possible par la méthode Assembly-of-Experts (AoE) de TNG — une technique permettant de construire des LLM en fusionnant de manière sélective les tenseurs de poids (paramètres internes) de plusieurs modèles pré-entraînés que TNG a décrits dans un article publié en mai sur arXiv, la revue en ligne en libre accès non évaluée par des pairs.

Successeur du R1T Chimera original, le R1T2 introduit une nouvelle configuration « Tri-Mind » intégrant trois modèles parents : DeepSeek-R1-0528, DeepSeek-R1 et DeepSeek-V3-0324. Le résultat est un modèle conçu pour maintenir une capacité de raisonnement élevée tout en réduisant considérablement le coût d'inférence.

R1T2 est construit sans ajustement ni réapprentissage supplémentaires. Il hérite de la force de raisonnement de R1-0528, des schémas de pensée structurés de R1 et du comportement concis et orienté instruction de V3-0324, offrant ainsi un modèle plus efficace et performant pour les entreprises et la recherche.

Le mélange d'experts (MoE) est une architecture dans laquelle différents composants, ou « experts », sont activés conditionnellement par entrée. Dans les LLM MoE comme DeepSeek-V3 ou Mixtral, seul un sous-ensemble des couches expertes du modèle (par exemple, 8 sur 256) est actif lors du passage d'un jeton donné. Cela permet aux modèles de très grande taille d'atteindre un nombre de paramètres et une spécialisation plus élevés tout en maîtrisant les coûts d'inférence, car seule une fraction du réseau est évaluée par jeton.

L'assemblage d'experts (AoE) est une technique de fusion de modèles, et non une architecture. Il permet de créer un nouveau modèle à partir de plusieurs modèles MoE pré-entraînés en interpolant sélectivement leurs tenseurs de pondération.

Les « experts » dans AoE font référence aux composants du modèle en cours de fusion (généralement les tenseurs experts routés dans les couches MoE) et non aux experts activés dynamiquement au moment de l'exécution.

L'implémentation d'AoE par TNG se concentre principalement sur la fusion des tenseurs experts routés – la partie d'un modèle principalement responsable du raisonnement spécialisé – tout en conservant souvent les couches partagées et d'attention plus efficaces des modèles plus rapides comme V3-0324. Cette approche permet aux modèles Chimera ainsi obtenus d'hériter de la puissance de raisonnement sans reproduire la verbosité ou la latence des modèles parents les plus performants.

Selon les comparaisons de référence présentées par TNG, R1T2 atteint entre 90 % et 92 % des performances de raisonnement de son parent le plus intelligent, DeepSeek-R1-0528, telles que mesurées par les ensembles de tests AIME-24, AIME-25 et GPQA-Diamond.

Cependant, contrairement à DeepSeek-R1-0528, qui tend à produire des réponses longues et détaillées grâce à son raisonnement par chaîne de pensée étendu, R1T2 est conçu pour être beaucoup plus concis. Il fournit des réponses tout aussi intelligentes tout en utilisant beaucoup moins de mots.

Plutôt que de se concentrer sur le temps de traitement brut ou les jetons par seconde, TNG mesure la « vitesse » en termes de nombre de jetons de sortie par réponse , un indicateur pratique du coût et de la latence. Selon les benchmarks partagés par TNG, R1T2 génère des réponses en utilisant environ 40 % des jetons requis par R1-0528.

Cela se traduit par une réduction de 60 % de la longueur de sortie , ce qui réduit directement le temps d'inférence et la charge de calcul, accélérant les réponses de 2X, soit 200 %.

Comparé au DeepSeek-R1 d'origine, le R1T2 est également environ 20 % plus concis en moyenne , offrant des gains d'efficacité significatifs pour les déploiements à haut débit ou sensibles aux coûts.

Cette efficacité ne se fait pas au détriment de l'intelligence. Comme le montre le graphique de référence présenté dans le document technique de TNG, R1T2 se situe dans une zone souhaitable sur la courbe intelligence/coût de production. Il préserve la qualité du raisonnement tout en minimisant la verbosité, un résultat essentiel pour les applications d'entreprise où la vitesse d'inférence, le débit et le coût sont des facteurs déterminants.

R1T2 est publié sous une licence MIT permissive et est désormais disponible sur Hugging Face, ce qui signifie qu'il est open source et disponible pour être utilisé et intégré dans des applications commerciales.

TNG note que, bien que le modèle soit bien adapté aux tâches de raisonnement général, il n'est actuellement pas recommandé pour les cas d'utilisation nécessitant l'appel de fonctions ou l'utilisation d'outils, en raison de limitations héritées de sa lignée DeepSeek-R1. Ces limitations pourraient être corrigées lors de futures mises à jour.

La société conseille également aux utilisateurs européens d'évaluer la conformité avec la loi européenne sur l'IA, qui entrera en vigueur le 2 août 2025.

Les entreprises opérant dans l’UE devraient revoir les dispositions pertinentes ou envisager de cesser d’utiliser le modèle après cette date si les exigences ne peuvent être respectées.

Toutefois, les entreprises américaines opérant sur le territoire national et fournissant des services à des utilisateurs basés aux États-Unis ou dans d'autres pays ne sont pas soumises aux dispositions de la loi européenne sur l'IA, ce qui devrait leur offrir une grande flexibilité dans l'utilisation et le déploiement de ce modèle de raisonnement open source, rapide et gratuit. Si elles fournissent des services à des utilisateurs dans l'UE, certaines dispositions de la loi européenne resteront applicables .

TNG a déjà mis à disposition des variantes antérieures de Chimera via des plateformes comme OpenRouter et Chutes, où des milliards de jetons auraient été traités quotidiennement. La sortie de R1T2 représente une nouvelle avancée dans cette démarche de mise à disposition publique.

Fondée en janvier 2001, TNG Technology Consulting GmbH est basée en Bavière, en Allemagne, et emploie plus de 900 personnes, avec une forte concentration de docteurs et de spécialistes techniques.

L'entreprise se concentre sur le développement de logiciels, l'intelligence artificielle et les services DevOps/cloud, au service d'entreprises majeures dans des secteurs tels que les télécommunications, les assurances, l'automobile, le commerce électronique et la logistique.

TNG est un partenariat de conseil fondé sur des valeurs. Sa structure unique, fondée sur la recherche opérationnelle et l'autogestion, favorise une culture d'innovation technique.

Elle contribue activement aux communautés et à la recherche open source, comme le démontrent des versions publiques comme R1T2 et la publication de sa méthodologie Assembly-of-Experts.

Pour les directeurs techniques, les propriétaires de plateformes d’IA, les responsables d’ingénierie et les équipes d’approvisionnement informatique, R1T2 présente des avantages tangibles et des options stratégiques :

  • Coûts d'inférence réduits : avec moins de jetons de sortie par tâche, R1T2 réduit le temps GPU et la consommation d'énergie, ce qui se traduit directement par des économies d'infrastructure, particulièrement importantes dans les environnements à haut débit ou en temps réel.
  • Raisonnement de haute qualité sans surcharge : il conserve une grande partie de la puissance de raisonnement des modèles haut de gamme comme R1-0528, sans leur longueur. Il est idéal pour les tâches structurées (mathématiques, programmation, logique) où des réponses concises sont préférables.
  • Ouvert et modifiable : la licence MIT permet un contrôle et une personnalisation complets du déploiement, permettant l'hébergement privé, l'alignement des modèles ou une formation complémentaire dans des environnements réglementés ou isolés.
  • Modularité émergente : l'approche AoE suggère un avenir où les modèles sont construits de manière modulaire, permettant aux entreprises d'assembler des variantes spécialisées en recombinant les points forts des modèles existants, plutôt que de les recycler à partir de zéro.
  • Mises en garde : les entreprises qui s’appuient sur l’appel de fonctions, l’utilisation d’outils ou l’orchestration avancée d’agents doivent prendre en compte les limitations actuelles, bien que les futures mises à jour de Chimera puissent combler ces lacunes.

TNG encourage les chercheurs, les développeurs et les utilisateurs professionnels à explorer le modèle, à tester son fonctionnement et à nous faire part de leurs commentaires. La Chimère R1T2 est disponible sur huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera ; les demandes techniques peuvent être adressées à [email protected] .

Pour le contexte technique et la méthodologie de référence, le document de recherche de TNG est disponible sur arXiv:2506.14794 .

Informations quotidiennes sur les cas d'utilisation métier avec VB Daily

Si vous souhaitez impressionner votre patron, VB Daily a tout prévu. Nous vous présentons en avant-première les avancées des entreprises en matière d'IA générative, des évolutions réglementaires aux déploiements pratiques, afin que vous puissiez partager vos idées pour un retour sur investissement maximal.

Lisez notre politique de confidentialité

Merci de votre abonnement. Découvrez d'autres newsletters VB ici .

Une erreur s'est produite.

venturebeat

venturebeat

Nouvelles similaires

Toutes les actualités
Animated ArrowAnimated ArrowAnimated Arrow