- A IA agêntica deve impulsionar um aumento de 24 vezes no consumo de tokens até 2030, à medida que consumidores e empresas adotam a tecnologia, segundo o Goldman Sachs Research.
- Os custos unitários de tokens dos fabricantes de chips de IA estão caindo, criando as condições para melhorias nas margens brutas (gross margins) dos hyperscalers, à medida que a demanda por aplicações de agentes cresce.
- Nos próximos 12 a 18 meses, é provável que haja escassez de chips, enquanto os fabricantes de semicondutores constroem novas plantas para acompanhar a demanda.
- A adoção corporativa da IA agêntica deve superar o uso pelos consumidores, mas espera-se que isso leve tempo, à medida que as empresas administram desafios organizacionais.
O crescimento da inteligência artificial (IA) agêntica está prestes a aumentar drasticamente o volume de computação realizada pelos hyperscalers que operam large language models (LLMs), de acordo com o Goldman Sachs Research. A mudança também deve impulsionar o fluxo de caixa (cash flow) dessas grandes empresas de tecnologia.
Essa explosão no uso de tokens — unidades de texto processadas por LLMs — deve ocorrer em um momento decisivo da história de crescimento da IA. Os investidores estão receosos quanto às enormes somas que os hyperscalers estão gastando em chips e data centers para processar aplicações de IA.
Com consumidores e empresas adotando agentes de IA, espera-se que o consumo de tokens se multiplique 24 vezes, alcançando 120 quatrilhões de tokens por mês, entre 2026 e 2030, afirma Jim Schneider, analista sênior de equity [ações] que cobre semicondutores e serviços de TI dos EUA no Goldman Sachs Research.
Com o custo da computação caindo ao mesmo tempo, os players de IA estão posicionados para um período de “inflexão de margem” (margin inflection), diz Schneider.
“A preocupação na comunidade de investidores generalistas é a sustentabilidade do capex [investimentos em ativos fixos], pois os fluxos de caixa livres (free cash flows) dos hyperscalers foram comprimidos”, afirma Schneider. “O que conserta isso? A resposta está na economia subjacente do problema. Se você eleva as margens brutas, eleva o fluxo de caixa operacional (operating cash flow), e isso dá mais espaço para gastar.”
Conversamos com Schneider sobre a importância do consumo de tokens, como a IA agêntica para empresas deve superar os usos por consumidores e por que um número com 16 zeros é uma métrica-chave para os investidores.
Há muito burburinho em torno da IA agêntica, mas trata-se de um negócio mensurável?
Há muito ruído, mas vamos começar pelo básico: com a IA agêntica, você tem agentes autônomos que não apenas respondem a uma consulta que você faz — “me fale sobre isso, me fale sobre aquilo” — mas também executam uma sequência de tarefas — “vá fazer isso e vá fazer aquilo”. Conceitualmente, essas duas coisas são bastante distintas. O problema é que houve muito poucos números para quantificar essa tendência em termos de potencial de alta para os resultados de negócios.
Então, o que fizemos foi modelar alguns casos de uso comuns, como viagens online e quando um cliente liga para um call center pedindo ajuda. Usamos ferramentas para simular a implementação no mundo real da IA agêntica nas esferas do consumidor e corporativa, executamos esses cenários e, em seguida, calculamos uma contagem de tokens.
O que é uma contagem de tokens?
Tokens são unidades de computação. Pense neles como unidades de informação a serem processadas. A IA agêntica requer muitos tokens porque muitas consultas são repetidas em sequência. É como pegar uma simples solicitação de chatbot e ampliá-la 10 vezes, 20 vezes, 50 vezes.
O que descobrimos é que, até 2030, a IA agêntica multiplicará o consumo de tokens em 12 vezes no lado do consumidor, em coisas como compras online, takeovers de celular [assunção de controle do smartphone por um agente] e funções similares. Combinado com a adoção pelas empresas, isso resulta em 120 quatrilhões de tokens processados por mês.

Esse é um número grande.
Não sei o que vem depois de quatrilhão, mas é muita coisa.
Então a demanda significa mais receita para os provedores de infraestrutura de IA, e essa receita está crescendo enquanto os custos estão caindo?
Correto. Já vínhamos acompanhando a queda no custo unitário da computação de tokens há algum tempo. Os fornecedores de semicondutores estão entregando reduções de 60%-70% ao ano no custo por token para inferência, que é o processo de usar LLMs treinados para obter resultados. Essa é uma taxa de declínio muito, muito rápida. Isso está acontecendo devido à melhoria na eficiência dos chips e devido a novas eficiências arquiteturais na arquitetura de data centers de IA.
Acreditamos que essa melhoria na economia provavelmente impulsionará uma inflexão positiva nas margens brutas nos próximos 3 a 12 meses. Portanto, estamos em um ponto de inflexão interessante.
Os fabricantes de chips de IA conseguem acompanhar a demanda?
Acho que sim, no longo prazo. Construir uma nova fábrica de chips pode levar três anos. Obviamente, o ritmo em que as coisas estão se movendo é mais rápido do que isso. E se voltássemos seis meses no tempo, quando estávamos falando apenas de chatbots, teríamos capacidade suficiente para lidar com isso facilmente.
A questão é que os casos de uso estão evoluindo muito rapidamente. Não estávamos falando de agentes há um ano, agora estamos. O que está acontecendo é que a indústria está reagindo com a capacidade que era necessária há seis meses. Mas as metas estão se deslocando, e o sistema de produção de chips não consegue reagir tão rápido. Nos próximos 12 meses ou mais, estaremos em escassez. Acho que em dois anos podemos ter recuperado o atraso.
Isso cria as condições para uma melhora no desempenho do fluxo de caixa dos hyperscalers?
Sim. Atualmente, os fabricantes de semicondutores do setor estão operando com margens brutas acima de 70%, então não há problema para essas empresas. O problema está com os hyperscalers e com o fato de a maior parte do seu free cash flow estar sendo consumida pelo capex. Isso afeta as margens brutas. Mas há um cruzamento a caminho. Vemos uma inflexão dessas margens brutas porque os custos estão caindo mais rápido do que os preços.
O que está impulsionando a demanda por IA agêntica no mercado consumidor?
Se você pensar bem, grande parte da atividade do consumidor envolve consultas online. Muitas, hoje, são buscas tradicionais. Vemos a busca tradicional caindo como percentual de consultas até 2030, e isso será substituído por coisas como consultas a large language models. Mas, em seguida, vêm os casos de uso agênticos.
Já existem agentes de takeover de smartphones na China que executam uma série de tarefas em segundo plano para você: “Reserve para mim um voo para Singapura” ou “Limpe minha caixa de entrada principal, filtre todo o lixo eletrônico e organize todos os e-mails por prioridades de negócio.”
Essas funcionalidades estão se tornando mais autônomas por natureza. Estamos entrando em uma fase de agentes em segundo plano “always-on” (sempre ativos) que executam tarefas quando necessárias.
E assim você pode imaginar o mix de todas essas consultas mudando de forma bastante drástica nos próximos cinco anos. Temos modelagens que mostram consultas diárias a LLMs crescendo a uma taxa composta anual (CAGR) de 40%, alcançando 11 bilhões até 2030.
Por que o crescimento da IA agêntica na esfera corporativa está demorando mais?
A razão é que aplicar IA agêntica nos negócios é mais complexo. Escrever código ou uma peça de software envolve muito mais do que reservar um voo para Singapura. Até mesmo lidar com uma chamada de atendimento ao cliente é mais complicado.
Não basta funcionar: tem de ser testado, retestado e integrado a outras partes de código, testado novamente, documentado. E também precisa funcionar no contexto de compliance, regras, parâmetros orçamentários e outras exigências da empresa.
O ponto importante é que as taxas de adoção ainda são relativamente baixas hoje, especialmente em pequenas e médias empresas. Em 2030, projetamos que 12% dos knowledge workers [trabalhadores do conhecimento] estarão usando IA agêntica, mas, até 2040, esse número será de 37%. Há uma adoção de cauda muito longa.
Há risco de que os benefícios da demanda crescente e dos custos em queda não se materializem para todos os provedores de IA?
Há riscos de que as melhorias nas margens não se gerem em todas as cargas de trabalho de IA. Em outras palavras, esperamos que a adoção da IA agêntica no espaço corporativo seja desigual. Coisas como codificação, por exemplo, são muito eficientes, pois o agente pode executar tarefas e retornar de forma autônoma e independente muito rapidamente.
Com coisas como agentes de atendimento ao cliente, chatbots baseados em texto já são bastante eficientes. Mas existem outros trabalhos com fatores técnicos em jogo que os tornam menos atraentes para a IA agêntica. Encontramos o caso de um agente de voz em tempo real em que o custo humano era, na verdade, menor do que o custo do LLM hoje, devido ao que chamamos de “time dependency” [dependência de tempo] e “latency characteristics” [características de latência] no software. Portanto, a economia é muito menos favorável nesse caso.
Dando um passo atrás, a grande conclusão é que a demanda crescente por IA agêntica pode redefinir as suposições sobre o que vem a seguir para essa indústria.
Sim. Acho que a inflexão de margem para os hyperscalers e provedores de modelos é muito diferente da narrativa de mercado predominante de que o uso de IA simplesmente impulsionará um fardo de custos crescente e insustentável.
A evolução será desigual e um pouco não-linear; nem todos os players estão no mesmo nível. Você começará a ver diferenciação entre os hyperscalers, especialmente no que diz respeito aos seus fluxos de caixa operacionais. Todos os players serão arrastados para cima, mas em ritmos diferentes.
Fonte: Goldman Sachs
Traduzido via Claude