Selecione o idioma

Portuguese

Down Icon

Selecione o país

America

Down Icon

Minimalismo de modelo: a nova estratégia de IA que está economizando milhões para as empresas

Minimalismo de modelo: a nova estratégia de IA que está economizando milhões para as empresas

Este artigo faz parte da edição especial da VentureBeat, “O custo real da IA: desempenho, eficiência e ROI em escala”. Leia mais nesta edição especial.

O advento de grandes modelos de linguagem (LLMs) tornou mais fácil para as empresas visualizarem os tipos de projetos que podem realizar, levando a um aumento nos programas piloto que agora estão em transição para implantação.

No entanto, à medida que esses projetos ganharam força, as empresas perceberam que os LLMs anteriores que usavam eram difíceis de manejar e, pior, caros.

Entra em cena modelos de linguagem reduzida e destilação. Modelos como a família Gemma do Google , o Phi da Microsoft e o Small 3.1 da Mistral permitiram que as empresas escolhessem modelos rápidos e precisos que funcionam para tarefas específicas. As empresas podem optar por um modelo menor para casos de uso específicos, permitindo-lhes reduzir o custo de execução de seus aplicativos de IA e, potencialmente, obter um melhor retorno sobre o investimento.

O engenheiro renomado do LinkedIn , Karthik Ramgopal, disse ao VentureBeat que as empresas optam por modelos menores por alguns motivos.

“Modelos menores exigem menos computação, memória e tempos de inferência mais rápidos, o que se traduz diretamente em menores despesas operacionais (OPEX) e despesas de capital (CAPEX) de infraestrutura, considerando os custos de GPU, a disponibilidade e os requisitos de energia”, disse Ramgoapl. “Modelos específicos para tarefas têm um escopo mais restrito, tornando seu comportamento mais alinhado e sustentável ao longo do tempo, sem engenharia complexa de prompts.”

Os desenvolvedores de modelos precificam seus modelos pequenos de acordo com o preço. O o4-mini da OpenAI custa US$ 1,1 por milhão de tokens para entradas e US$ 4,4 por milhão de tokens para saídas, em comparação com a versão completa do o3, que custa US$ 10 para entradas e US$ 40 para saídas.

Hoje em dia, as empresas têm um conjunto maior de modelos pequenos, modelos específicos para tarefas e modelos destilados para escolher . Atualmente, a maioria dos modelos principais oferece uma variedade de tamanhos. Por exemplo, a família de modelos Claude da Anthropic é composta pelo Claude Opus, o modelo maior, o Claude Sonnet, o modelo multiuso , e o Claude Haiku, a versão menor. Esses modelos são compactos o suficiente para operar em dispositivos portáteis, como laptops ou celulares.

No entanto, ao discutir o retorno sobre o investimento, a pergunta sempre é: como é o ROI? Deve ser um retorno sobre os custos incorridos ou a economia de tempo que, em última análise, significa dinheiro economizado no futuro? Especialistas com quem a VentureBeat conversou disseram que o ROI pode ser difícil de avaliar, pois algumas empresas acreditam que já atingiram o ROI reduzindo o tempo gasto em uma tarefa, enquanto outras aguardam a economia real ou a geração de mais negócios para dizer se os investimentos em IA realmente funcionaram.

Normalmente, as empresas calculam o ROI usando uma fórmula simples, como descrito pelo tecnólogo-chefe da Cognizant , Ravi Naarla, em uma publicação : ROI = (Benefícios-Custo)/Custos. Mas, com programas de IA, os benefícios não são imediatamente aparentes. Ele sugere que as empresas identifiquem os benefícios que esperam alcançar, estimem-nos com base em dados históricos, sejam realistas quanto ao custo total da IA, incluindo contratação, implementação e manutenção, e entendam que precisam estar envolvidas a longo prazo.

Especialistas argumentam que modelos pequenos reduzem os custos de implementação e manutenção, principalmente ao ajustar modelos para fornecer mais contexto para sua empresa.

Arijit Sengupta, fundador e CEO da Aible , afirmou que a forma como as pessoas contextualizam os modelos determina a economia de custos que podem obter. Para indivíduos que precisam de contexto adicional para instruções longas e complexas, isso pode resultar em custos de token mais altos.

“Você precisa contextualizar os modelos de uma forma ou de outra; não existe almoço grátis. Mas, com modelos grandes, isso geralmente é feito colocando-o no prompt”, disse ele. “Pense em ajustes finos e pós-treinamento como uma forma alternativa de contextualizar os modelos. Posso incorrer em US$ 100 em custos pós-treinamento, mas não é astronômico.”

Sengupta disse que eles viram reduções de custos de cerca de 100 vezes somente após o treinamento, muitas vezes reduzindo o custo de uso do modelo "de milhões de um dígito para algo como US$ 30.000". Ele ressaltou que esse número inclui despesas operacionais de software e o custo contínuo do modelo e dos bancos de dados vetoriais.

“Em termos de custo de manutenção, se você fizer isso manualmente com especialistas humanos, pode ser caro manter porque modelos pequenos precisam ser treinados posteriormente para produzir resultados comparáveis ​​aos modelos grandes”, disse ele.

Os experimentos conduzidos pela Aible mostraram que um modelo específico para cada tarefa e ajustado tem bom desempenho para alguns casos de uso, assim como os LLMs, o que demonstra que implementar vários modelos específicos para cada caso de uso, em vez de modelos grandes para fazer tudo, é mais econômico.

A empresa comparou uma versão pós-treinada do Llama-3.3-70B-Instruct com uma versão menor, com 8 parâmetros, do mesmo modelo. O modelo 70B, pós-treinado por US$ 11,30, apresentou precisão de 84% nas avaliações automatizadas e de 92% nas avaliações manuais. Após o ajuste fino, que custou US$ 4,58, o modelo 8B atingiu 82% de precisão na avaliação manual, o que seria adequado para casos de uso mais específicos e de menor complexidade.

O dimensionamento correto de modelos não precisa comprometer o desempenho. Hoje em dia, as organizações entendem que a escolha do modelo não significa apenas escolher entre GPT-4o ou Llama-3.1; é saber que alguns casos de uso, como sumarização ou geração de código, são melhor atendidos por um modelo pequeno .

Daniel Hoske, diretor de tecnologia da Cresta , fornecedora de produtos de IA para contact center, disse que iniciar o desenvolvimento com LLMs informa melhor as potenciais economias de custos.

“Você deve começar com o modelo maior para ver se o que você está imaginando funciona, porque se não funciona com o modelo maior, não significa que funcionará com modelos menores”, disse ele.

Ramgopal disse que o LinkedIn segue um padrão semelhante porque a prototipagem é a única maneira de esses problemas começarem a surgir.

“Nossa abordagem típica para casos de uso agênticos começa com LLMs de uso geral, pois sua ampla generalização nos permite prototipar rapidamente, validar hipóteses e avaliar a adequação do produto ao mercado”, disse Ramgopal, do LinkedIn. “À medida que o produto amadurece e encontramos restrições de qualidade, custo ou latência, fazemos a transição para soluções mais personalizadas.”

Na fase de experimentação, as organizações podem determinar o que mais valorizam em suas aplicações de IA. Descobrir isso permite que os desenvolvedores planejem melhor o que desejam economizar e selecionem o tamanho do modelo que melhor se adapta ao seu propósito e orçamento.

Os especialistas alertaram que, embora seja importante construir com modelos que funcionem melhor com o que estão desenvolvendo, LLMs de parâmetros elevados sempre serão mais caros. Modelos grandes sempre exigirão poder computacional significativo.

No entanto, o uso excessivo de modelos pequenos e específicos para tarefas também apresenta problemas. Rahul Pathak, vice-presidente de dados e IA GTM da AWS , afirmou em uma publicação de blog que a otimização de custos não advém apenas do uso de um modelo com baixa necessidade de poder computacional, mas sim da adequação do modelo às tarefas. Modelos menores podem não ter uma janela de contexto suficientemente grande para compreender instruções mais complexas, o que resulta em maior carga de trabalho para funcionários humanos e custos mais altos.

Sengupta também alertou que alguns modelos destilados podem ser quebradiços, portanto o uso a longo prazo pode não resultar em economia.

Independentemente do tamanho do modelo, os participantes do setor enfatizaram a flexibilidade para lidar com quaisquer problemas potenciais ou novos casos de uso. Portanto, se começarem com um modelo grande e um modelo menor com desempenho semelhante ou superior e custo mais baixo, as organizações não podem se esmerar quanto ao modelo escolhido.

Tessa Burg, CTO e chefe de inovação na empresa de marketing de marca Mod Op , disse ao VentureBeat que as organizações devem entender que tudo o que construírem agora sempre será substituído por uma versão melhor.

Começamos com a mentalidade de que a tecnologia por trás dos fluxos de trabalho que estamos criando, os processos que estamos tornando mais eficientes, iria mudar. Sabíamos que qualquer modelo que usássemos seria a pior versão de um modelo.

Burg afirmou que modelos menores ajudaram sua empresa e seus clientes a economizar tempo na pesquisa e no desenvolvimento de conceitos. A economia de tempo, disse ela, leva a economias orçamentárias ao longo do tempo. Ela acrescentou que é uma boa ideia separar casos de uso de alto custo e alta frequência para modelos leves.

Sengupta observou que os fornecedores agora estão facilitando a troca automática entre modelos, mas alertou os usuários para que encontrem plataformas que também facilitem o ajuste fino, para que não incorram em custos adicionais.

venturebeat

venturebeat

Notícias semelhantes

Todas as notícias
Animated ArrowAnimated ArrowAnimated Arrow