DeepSeek: tudo o que você precisa saber sobre o aplicativo de chatbot de IA

O DeepSeek se tornou viral.
O laboratório chinês de IA DeepSeek entrou na consciência popular esta semana depois que seu aplicativo de chatbot chegou ao topo das paradas da Apple App Store ( e do Google Play também ). Os modelos de IA do DeepSeek, que foram treinados usando técnicas de eficiência computacional, levaram analistas de Wall Street — e tecnólogos — a questionar se os EUA podem manter sua liderança na corrida da IA e se a demanda por chips de IA se sustentará.
Mas de onde surgiu o DeepSeek e como ele alcançou fama internacional tão rapidamente?
A DeepSeek é apoiada pela High-Flyer Capital Management, um fundo de hedge quantitativo chinês que usa IA para informar suas decisões de negociação.
O entusiasta de IA Liang Wenfeng foi cofundador da High-Flyer em 2015. Wenfeng, que supostamente começou a se interessar por negociação enquanto era estudante na Universidade de Zhejiang, lançou a High-Flyer Capital Management como um fundo de hedge em 2019, focado no desenvolvimento e implantação de algoritmos de IA.
Em 2023, a High-Flyer iniciou a DeepSeek como um laboratório dedicado à pesquisa de ferramentas de IA separadas de seus negócios financeiros. Com a High-Flyer como um de seus investidores, o laboratório se desmembrou em sua própria empresa, também chamada DeepSeek.
Desde o primeiro dia, a DeepSeek construiu seus próprios clusters de data center para treinamento de modelos. Mas, assim como outras empresas de IA na China, a DeepSeek foi afetada pelas proibições de exportação de hardware dos EUA . Para treinar um de seus modelos mais recentes, a empresa foi forçada a usar chips Nvidia H800, uma versão menos potente de um chip, o H100, disponível para empresas dos EUA.
Dizem que a equipe técnica da DeepSeek é jovem. A empresa supostamente recruta agressivamente pesquisadores de IA com doutorado das principais universidades chinesas. A DeepSeek também contrata pessoas sem nenhuma formação em ciência da computação para ajudar sua tecnologia a entender melhor uma ampla gama de assuntos, segundo o The New York Times.
A DeepSeek revelou seu primeiro conjunto de modelos — DeepSeek Coder, DeepSeek LLM e DeepSeek Chat — em novembro de 2023. Mas foi somente na primavera passada, quando a startup lançou sua família de modelos DeepSeek-V2 de última geração, que a indústria de IA começou a notar.
O DeepSeek-V2, um sistema de análise de texto e imagem de uso geral, teve um bom desempenho em vários benchmarks de IA — e era muito mais barato de executar do que modelos comparáveis na época. Ele forçou a concorrência doméstica do DeepSeek, incluindo ByteDance e Alibaba, a cortar os preços de uso de alguns de seus modelos e tornar outros completamente gratuitos.
O DeepSeek-V3 , lançado em dezembro de 2024, só aumentou a notoriedade do DeepSeek.
De acordo com os testes de benchmark internos da DeepSeek, o DeepSeek V3 supera modelos disponíveis para download e abertos, como o Llama da Meta, e modelos “fechados” que só podem ser acessados por meio de uma API, como o GPT-4o da OpenAI.
Igualmente impressionante é o modelo de “raciocínio” R1 do DeepSeek. Lançado em janeiro, o DeepSeek afirma que o R1 tem desempenho tão bom quanto o modelo o1 do OpenAI em benchmarks importantes .
Sendo um modelo de raciocínio, o R1 efetivamente verifica os fatos, o que o ajuda a evitar algumas das armadilhas que normalmente atrapalham os modelos. Modelos de raciocínio levam um pouco mais de tempo — geralmente segundos a minutos a mais — para chegar a soluções em comparação a um modelo típico sem raciocínio. A vantagem é que eles tendem a ser mais confiáveis em domínios como física, ciência e matemática.
Há uma desvantagem no R1, DeepSeek V3 e outros modelos do DeepSeek, no entanto. Sendo IA desenvolvida pela China, eles estão sujeitos a benchmarking pelo regulador de internet da China para garantir que suas respostas "incorporem valores socialistas essenciais". No aplicativo de chatbot do DeepSeek, por exemplo, o R1 não responde a perguntas sobre a Praça da Paz Celestial ou a autonomia de Taiwan.
Se a DeepSeek tem um modelo de negócios, não está claro qual é esse modelo, exatamente. A empresa precifica seus produtos e serviços bem abaixo do valor de mercado — e dá outros de graça.
Da forma como a DeepSeek conta, avanços de eficiência permitiram que ela mantivesse extrema competitividade de custos. Alguns especialistas contestam , no entanto, os números fornecidos pela empresa.
Seja qual for o caso, os desenvolvedores adotaram os modelos do DeepSeek, que não são de código aberto como a frase é comumente entendida, mas estão disponíveis sob licenças permissivas que permitem o uso comercial. De acordo com Clem Delangue, CEO da Hugging Face, uma das plataformas que hospedam os modelos do DeepSeek, os desenvolvedores do Hugging Face criaram mais de 500 modelos “derivados” do R1 que acumularam 2,5 milhões de downloads combinados.
O sucesso da DeepSeek contra rivais maiores e mais estabelecidos foi descrito como "uma reviravolta na IA" e "exagerado". O sucesso da empresa foi, pelo menos em parte, responsável por fazer o preço das ações da Nvidia cair 18% na segunda-feira e por provocar uma resposta pública do CEO da OpenAI, Sam Altman.
A Microsoft anunciou que o DeepSeek está disponível em seu serviço Azure AI Foundry , a plataforma da Microsoft que reúne serviços de IA para empresas sob um único banner. Quando questionado sobre o impacto do DeepSeek nos gastos de IA da Meta durante sua teleconferência de resultados do primeiro trimestre, o CEO Mark Zuckerberg disse que os gastos com infraestrutura de IA continuarão sendo uma "vantagem estratégica" para a Meta.
Ao mesmo tempo, algumas empresas estão banindo o DeepSeek , assim como países e governos inteiros, incluindo a Coreia do Sul . O estado de Nova York também proibiu o uso do DeepSeek em dispositivos governamentais .
Quanto ao que o futuro do DeepSeek pode reservar, não está claro. Modelos aprimorados são um dado adquirido. Mas o governo dos EUA parece estar ficando cauteloso com o que percebe como influência estrangeira prejudicial .
O TechCrunch tem uma newsletter focada em IA! Inscreva-se aqui para recebê-la na sua caixa de entrada toda quarta-feira.
Esta história foi publicada originalmente em 28 de janeiro de 2025 e será atualizada continuamente com mais informações.
techcrunch