Um ex-luminar da Apple se propõe a criar o software de GPU definitivo

Em um determinado momento, entre a criação das ferramentas de desenvolvimento da Apple , a liderança de uma parte essencial da equipe de infraestrutura de IA do Google e o confronto com Elon Musk durante sua passagem como chefe do Autopilot da Tesla, a visão de Chris Lattner para o trabalho de sua vida começou a ganhar foco. A IA estava dominando o mundo e a demanda pelos chips que a alimentavam estava crescendo . Mas o conjunto de software para esses chips era dominado por apenas algumas grandes empresas. Será que os desenvolvedores conseguiriam executar facilmente seu código em todos os diferentes chips que pontilham o cenário da IA?
A resposta de Lattner a essa pergunta é a Modular, uma startup de software que ele fundou em 2022 com seu ex-colega do Google, Tim Davis. A Modular cria uma camada de software unificadora que ajuda empresas de nuvem a extrair o máximo possível de GPUs e CPUs — os chips de alta potência que sustentam a IA generativa. A startup também desenvolveu uma nova linguagem de codificação, baseada em Python, que permite aos desenvolvedores usar uma única linguagem para criar aplicativos de IA que rodam em múltiplas GPUs e CPUs. A premissa básica da Modular é que, se um desenvolvedor cria um aplicativo para um chip, ele não precisa passar por dificuldades para executá-lo no chip de outro fornecedor.
Mas o objetivo de longo prazo da Modular é ainda mais ambicioso: afrouxar o domínio de software que empresas como Nvidia e AMD têm sobre o setor e se tornar o software de fato para chips de IA.
“Nossa tese é que a necessidade por poder computacional está explodindo, mas não existe uma plataforma computacional unificada”, afirma Lattner. “A IA soberana estará em todos os lugares. Haverá muitos Stargates. Mas haverá diferentes tipos de chips otimizados para diferentes casos de uso, e é necessária uma camada unificada para isso.”
Há sinais iniciais de que a tese da Modular se confirma. Gigantes da IA como Nvidia, AMD e Amazon firmaram parceria com a startup para testar o mercado. A empresa de clusters de GPU SF Compute também trabalhou com a Modular para construir o que eles afirmam ser a API mais barata do mundo para grandes modelos de IA. A partir desta semana, a plataforma de desenvolvimento da Modular agora suporta GPUs Apple Silicon, além de chips Nvidia e AMD.
Aproveitando esse impulso, a Modular acaba de levantar US$ 250 milhões em capital de risco, sua terceira rodada de financiamento em três anos, elevando sua avaliação total para US$ 1,6 bilhão. A rodada foi liderada pelo Fundo de Tecnologia Inovadora dos EUA, com sede em Pittsburgh. A DFJ Growth também investiu, juntamente com os investidores atuais General Catalyst, Greylock e GV (anteriormente conhecido como Google Ventures).
“Investimos muito tempo e energia tentando descobrir o que torna uma startup nesse setor interessante, e com todas as empresas que tentaram construir seu próprio chip — e até mesmo as grandes empresas, como AMD e Nvidia — tudo se resume ao software”, diz Dave Munichiello, sócio-gerente da GV. “Chris me convenceu de que o software era o problema mais interessante e valioso a ser resolvido.”
Pode ser valioso, mas também é extremamente complexo. Parte dessa complicação decorre do ecossistema fechado da Nvidia. Os chips da Nvidia representam a grande maioria do mercado de GPUs, mas a plataforma de software proprietária da empresa, CUDA, com 20 anos de existência, mantém os desenvolvedores presos. A plataforma de software da AMD para computação de alto desempenho, chamada ROCm, se diferencia por ser de código aberto. Isso permite que os desenvolvedores movam o código para diferentes chips com mais facilidade.
Ainda assim, os desenvolvedores dizem que trazer o código do CUDA da Nvidia para o ROCm não é um processo tranquilo, o que significa que eles normalmente se concentram em desenvolver para apenas um fornecedor de chip.
"O ROCm é incrível, é de código aberto, mas roda no hardware de um único fornecedor", disse Lattner ao público no evento Advancing AI da AMD em junho. Em seguida, ele apresentou o motivo pelo qual o software da Modular é mais portátil e torna as GPUs muito mais rápidas.
A palestra de Lattner na AMD é representativa do tipo de dança que Lattner e Davis precisam fazer para disseminar o evangelho da Modular. Hoje, a Nvidia e a AMD são parceiras cruciais para a empresa. Em um universo futuro, elas também são concorrentes diretas. Parte da proposta de valor da Modular é que ela pode lançar software para otimizar GPUs ainda mais rápido que a Nvidia, já que pode haver um intervalo de meses entre o lançamento de uma nova GPU pela Nvidia e o lançamento de um "kernel de atenção" — uma parte essencial do software da GPU.
“No momento, o Modular é um complemento à AMD e à Nvidia, mas com o tempo, ambas as empresas poderão se sentir ameaçadas pelo fato de o ROCm ou o CUDA não serem os melhores softwares para seus chips”, diz Munichiello. Ele também se preocupa com a possibilidade de potenciais clientes de nuvem se recusarem a pagar por uma camada de software adicional como a do Modular.
Escrever software para GPUs também é uma espécie de "arte obscura", afirma Waleed Atallah, cofundador e CEO da Mako, empresa de otimização de kernel de GPU. "Mapear um algoritmo para uma GPU é algo extremamente difícil. Existem cem milhões de desenvolvedores de software, 10.000 que escrevem kernels de GPU e talvez uma centena que conseguem fazer isso bem."
A Mako está desenvolvendo agentes de IA para otimizar a codificação para GPUs. Alguns desenvolvedores acreditam que esse é o futuro da indústria, em vez de desenvolver um compilador universal ou uma nova linguagem de programação como o Modular. A Mako acaba de levantar US$ 8,5 milhões em financiamento inicial da Flybridge Capital e da aceleradora de startups Neo.
“Estamos tentando adotar uma abordagem iterativa para a codificação e automatizá-la com IA”, diz Atallah. “Ao facilitar a escrita do código, aumentamos exponencialmente o número de pessoas que conseguem fazer isso. Criar outro compilador é uma solução mais fixa.”
Lattner observa que a Modular também utiliza ferramentas de codificação de IA. Mas a empresa pretende abordar toda a pilha de codificação, não apenas os kernels.
Há cerca de 250 milhões de razões pelas quais os investidores acreditam que essa abordagem é viável. Lattner é uma espécie de luminar no mundo da codificação, tendo desenvolvido anteriormente o projeto de infraestrutura de compiladores de código aberto LLVM, bem como a linguagem de programação Swift da Apple. Ele e Davis estão convencidos de que este é um problema de software que deve ser resolvido fora do ambiente das Big Techs, onde a maioria das empresas se concentra em desenvolver software para sua própria pilha de tecnologia.
"Quando saí do Google, fiquei um pouco deprimido, porque eu realmente queria resolver isso", diz Lattner. "O que percebemos é que não se trata de pessoas inteligentes, não se trata de dinheiro, não se trata de capacidade. É um problema estrutural."
Munichiello compartilhou um mantra comum no mundo dos investimentos em tecnologia: ele diz que aposta tanto nos fundadores quanto em seus produtos. "Ele é muito teimoso e impaciente, e também está certo na maioria das vezes", disse Munichiello sobre Lattner. "Steve Jobs também era assim — não tomava decisões com base em consenso, mas frequentemente estava certo."
wired