Selecione o idioma

Portuguese

Down Icon

Selecione o país

America

Down Icon

CARAMBA! Uma nova variante 200% mais rápida do DeepSeek R1-0528 surge no laboratório alemão TNG Technology Consulting GmbH.

CARAMBA! Uma nova variante 200% mais rápida do DeepSeek R1-0528 surge no laboratório alemão TNG Technology Consulting GmbH.

Quer insights mais inteligentes na sua caixa de entrada? Assine nossas newsletters semanais para receber apenas o que importa para líderes empresariais em IA, dados e segurança. Assine agora

Já faz pouco mais de um mês que a startup chinesa de IA DeepSeek, uma ramificação da High-Flyer Capital Management de Hong Kong, lançou a versão mais recente do seu modelo de código aberto DeepSeek, R1-0528.

Assim como seu antecessor, o DeepSeek-R1 — que abalou as comunidades de IA e de negócios globais com o quão barato era seu treinamento e quão bem ele desempenhava em tarefas de raciocínio, tudo disponível para desenvolvedores e empresas gratuitamente — o R1-0528 já está sendo adaptado e remixado por outros laboratórios e desenvolvedores de IA, em grande parte graças à sua licença permissiva Apache 2.0.

Esta semana, a empresa alemã TNG Technology Consulting GmbH, de 24 anos, lançou uma dessas adaptações: o DeepSeek-TNG R1T2 Chimera , o modelo mais recente da sua família de modelos de linguagem de grande porte (LLM) Chimera. O R1T2 proporciona um aumento notável em eficiência e velocidade, alcançando mais de 90% das pontuações de benchmark de inteligência do R1-0528 , enquanto gera respostas com menos de 40% da contagem de tokens de saída do R1-0528 .

Isso significa que ele produz respostas mais curtas, o que se traduz diretamente em inferências mais rápidas e custos computacionais mais baixos . No cartão de modelo lançado pela TNG para seu novo R1T2 na comunidade de compartilhamento de código de IA Hugging Face, a empresa afirma que ele é "cerca de 20% mais rápido que o R1 regular" (lançado em janeiro) "e mais que o dobro da velocidade do R1-0528" (atualização oficial de maio da DeepSeek).

A resposta da comunidade de desenvolvedores de IA já tem sido incrivelmente positiva. "CARAMBA! DeepSeek R1T2 – 200% mais rápido que R1-0528 e 20% mais rápido que R1", escreveu Vaibhav (VB) Srivastav, líder sênior da Hugging Face, no X. "Significativamente melhor que R1 em GPQA e AIME 24, desenvolvido pela Assembly of Experts com DS V3, R1 e R1-0528 — e licenciado pelo MIT, disponível na Hugging Face."

Esse ganho é possível graças ao método Assembly-of-Experts (AoE) da TNG — uma técnica para construir LLMs mesclando seletivamente os tensores de peso (parâmetros internos) de vários modelos pré-treinados que a TNG descreveu em um artigo publicado em maio no arXiv, o periódico online de acesso aberto não revisado por pares.

Sucessor do R1T Chimera original, o R1T2 apresenta uma nova configuração "Tri-Mind" que integra três modelos originais: DeepSeek-R1-0528, DeepSeek-R1 e DeepSeek-V3-0324. O resultado é um modelo projetado para manter alta capacidade de raciocínio, reduzindo significativamente o custo de inferência.

O R1T2 é construído sem ajustes ou retreinamentos adicionais. Ele herda a força de raciocínio do R1-0528, os padrões de pensamento estruturados do R1 e o comportamento conciso e orientado a instruções do V3-0324 — fornecendo um modelo mais eficiente, porém capaz, para uso empresarial e em pesquisa.

Mixture-of-Experts (MoE) é um projeto arquitetônico no qual diferentes componentes, ou "especialistas", são ativados condicionalmente por entrada. Em LLMs de MoE como DeepSeek-V3 ou Mixtral, apenas um subconjunto das camadas de especialistas do modelo (por exemplo, 8 de 256) está ativo durante a passagem de um token. Isso permite que modelos muito grandes alcancem contagens de parâmetros e especialização mais altas, mantendo os custos de inferência administráveis ​​— já que apenas uma fração da rede é avaliada por token.

A Assembléia de Especialistas (AoE) é uma técnica de fusão de modelos, não uma arquitetura. Ela é usada para criar um novo modelo a partir de vários modelos MoE pré-treinados, interpolando seletivamente seus tensores de peso.

Os “especialistas” em AoE se referem aos componentes do modelo que estão sendo mesclados — normalmente os tensores especialistas roteados dentro das camadas MoE — não especialistas ativados dinamicamente em tempo de execução.

A implementação de AoE da TNG concentra-se principalmente na fusão de tensores especialistas roteados — a parte de um modelo mais responsável pelo raciocínio especializado —, embora frequentemente retenha as camadas compartilhadas e de atenção mais eficientes de modelos mais rápidos, como o V3-0324. Essa abordagem permite que os modelos Chimera resultantes herdem a força do raciocínio sem replicar a verbosidade ou a latência dos modelos originais mais fortes.

De acordo com comparações de benchmark apresentadas pela TNG, o R1T2 atinge entre 90% e 92% do desempenho de raciocínio de seu pai mais inteligente, o DeepSeek-R1-0528, conforme medido pelos conjuntos de testes AIME-24, AIME-25 e GPQA-Diamond.

No entanto, ao contrário do DeepSeek-R1-0528 — que tende a produzir respostas longas e detalhadas devido ao seu raciocínio de cadeia de pensamento estendida — o R1T2 foi projetado para ser muito mais conciso. Ele fornece respostas igualmente inteligentes, usando significativamente menos palavras.

Em vez de se concentrar no tempo de processamento bruto ou em tokens por segundo, a TNG mede a "velocidade" em termos da contagem de tokens de saída por resposta — um indicador prático tanto para custo quanto para latência. De acordo com benchmarks compartilhados pela TNG, o R1T2 gera respostas usando aproximadamente 40% dos tokens exigidos pela R1-0528.

Isso se traduz em uma redução de 60% no comprimento de saída , o que reduz diretamente o tempo de inferência e a carga de computação, acelerando as respostas em 2X, ou 200%.

Quando comparado ao DeepSeek-R1 original, o R1T2 também é cerca de 20% mais conciso em média , oferecendo ganhos significativos em eficiência para implantações de alto rendimento ou sensíveis a custos.

Essa eficiência não se dá em detrimento da inteligência. Conforme demonstrado no gráfico de benchmark apresentado no artigo técnico da TNG, o R1T2 situa-se em uma zona desejável na curva de custo de inteligência versus custo de produção. Ele preserva a qualidade do raciocínio e minimiza a verbosidade — um resultado crucial para aplicações corporativas nas quais velocidade de inferência, rendimento e custo são fatores importantes.

O R1T2 é lançado sob uma licença MIT permissiva e está disponível agora no Hugging Face, o que significa que é de código aberto e pode ser usado e incorporado em aplicativos comerciais.

A TNG observa que, embora o modelo seja adequado para tarefas de raciocínio geral, ele não é recomendado atualmente para casos de uso que exigem chamada de função ou uso de ferramentas, devido às limitações herdadas de sua linhagem DeepSeek-R1. Essas limitações podem ser abordadas em atualizações futuras.

A empresa também aconselha os usuários europeus a avaliar a conformidade com a Lei de IA da UE, que entra em vigor em 2 de agosto de 2025.

As empresas que operam na UE devem revisar as disposições relevantes ou considerar interromper o uso do modelo após essa data se os requisitos não puderem ser atendidos.

No entanto, empresas americanas que operam internamente e atendem usuários sediados nos EUA ou em outras nações não estão sujeitas aos termos da Lei de IA da UE, o que deve lhes dar considerável flexibilidade ao usar e implementar esse modelo de raciocínio de código aberto, rápido e gratuito. Se atenderem usuários na UE, algumas disposições da Lei da UE ainda serão aplicáveis .

A TNG já disponibilizou variantes anteriores do Chimera por meio de plataformas como OpenRouter e Chutes, onde supostamente processava bilhões de tokens diariamente. O lançamento do R1T2 representa uma evolução adicional nesse esforço de disponibilização pública.

Fundada em janeiro de 2001, a TNG Technology Consulting GmbH está sediada na Baviera, Alemanha, e emprega mais de 900 pessoas, com alta concentração de doutores e especialistas técnicos.

A empresa se concentra no desenvolvimento de software, inteligência artificial e serviços de DevOps/nuvem, atendendo grandes clientes empresariais em setores como telecomunicações, seguros, automotivo, comércio eletrônico e logística.

A TNG opera como uma parceria de consultoria baseada em valores. Sua estrutura única, alicerçada em pesquisa operacional e princípios de autogestão, apoia uma cultura de inovação técnica.

Ela contribui ativamente para comunidades e pesquisas de código aberto, como demonstrado por meio de lançamentos públicos como o R1T2 e a publicação de sua metodologia Assembly-of-Experts.

Para CTOs, proprietários de plataformas de IA, líderes de engenharia e equipes de aquisição de TI, o R1T2 apresenta benefícios tangíveis e opções estratégicas:

  • Custos de inferência mais baixos : com menos tokens de saída por tarefa, o R1T2 reduz o tempo de GPU e o consumo de energia, o que se traduz diretamente em economia de infraestrutura — especialmente importante em ambientes de alto rendimento ou em tempo real.
  • Alta qualidade de raciocínio sem sobrecarga : preserva grande parte do poder de raciocínio de modelos de ponta, como o R1-0528, mas sem a sua prolixidade. Ideal para tarefas estruturadas (matemática, programação, lógica) em que respostas concisas são preferíveis.
  • Aberta e modificável : a licença MIT permite controle total de implantação e personalização, possibilitando hospedagem privada, alinhamento de modelos ou treinamento adicional em ambientes regulamentados ou isolados.
  • Modularidade emergente : a abordagem AoE sugere um futuro em que os modelos são construídos modularmente, permitindo que as empresas montem variantes especializadas recombinando os pontos fortes dos modelos existentes, em vez de retreinar do zero.
  • Advertências : empresas que dependem de chamada de função, uso de ferramentas ou orquestração avançada de agentes devem observar as limitações atuais, embora futuras atualizações do Chimera possam resolver essas lacunas.

A TNG incentiva pesquisadores, desenvolvedores e usuários corporativos a explorar o modelo, testar seu comportamento e fornecer feedback. O R1T2 Chimera está disponível em huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera , e consultas técnicas podem ser direcionadas a [email protected] .

Para informações técnicas e metodologia de referência, o artigo de pesquisa da TNG está disponível em arXiv:2506.14794 .

Insights diários sobre casos de uso de negócios com o VB Daily

Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Damos informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights e obter o máximo ROI.

Leia nossa Política de Privacidade

Obrigado por assinar. Confira mais newsletters do VB aqui .

Ocorreu um erro.

venturebeat

venturebeat

Notícias semelhantes

Todas as notícias
Animated ArrowAnimated ArrowAnimated Arrow