Na semana passada, o CEO da Nvidia, Jensen Huang, ganhou as manchetes ao dizer ao podcaster Lex Fridman que a AGI — inteligência artificial geral — já havia sido alcançada.
A AGI há muito tempo é o objetivo final de muitos pesquisadores de inteligência artificial. Esse é o caso embora não exista uma definição universalmente aceita para o termo. Em geral, ele significa uma IA tão inteligente quanto os humanos, mas há um debate acirrado sobre como exatamente definir e medir “inteligência”.
Neste caso, Fridman havia oferecido a Huang uma métrica muito incomum para AGI: a IA conseguiria iniciar e expandir um negócio de tecnologia a ponto de ele valer US$ 1 bilhão? Fridman perguntou se Huang achava que a AGI, por essa definição, poderia ser alcançada dentro de cinco a 20 anos. Huang disse que não achava que essa quantidade de tempo fosse necessária. “Acho que é agora. Acho que alcançamos a AGI”, disse ele. Em seguida, ele amenizou [hedged: qualificou/fez ressalva] a afirmação, observando que a empresa não necessariamente teria de continuar valendo tanto. “Você disse um bilhão”, Huang disse a Fridman, “e você não disse para sempre”.
Poucos pesquisadores de IA concordam com a definição de AGI que Fridman ofereceu a Huang, a qual era ao mesmo tempo mais específica (uma empresa avaliada em US$ 1 bilhão), mas também mais estreita do que a maioria das definições de AGI (que tendem a se referir à equiparação de uma vasta gama de habilidades cognitivas humanas, nem todas as quais seriam necessárias para construir um negócio bem-sucedido). Mas os pesquisadores de IA também discordam entre si sobre qual deveria ser uma definição melhor. O termo permanece teimosamente amorfo, apesar do fato de que várias das principais empresas de IA, com valorizações de mercado combinadas de mais de US$ 1 trilhão, dizem que é em direção à AGI que estão correndo. Alguns cientistas da computação evitam usar o termo completamente justamente porque dizem que ele é perpetuamente indefinido e impossível de medir. Outros dizem que empresas de tecnologia gostam de usar o termo por razões completamente cínicas — precisamente porque ele é mal definido, é fácil para as empresas criar hype ao alegar grandes avanços rumo a alcançar esse marco lendário.
O alvoroço em torno das observações de Huang sobre AGI apenas serve para destacar esse dilema no centro do boom da IA.
Tentando medir a AGI
Na verdade, apenas alguns dias antes de Fridman divulgar seu podcast, pesquisadores do Google DeepMind — incluindo o cofundador do DeepMind, Shane Legg, que primeiro ajudou a popularizar o termo AGI no início dos anos 2000 — publicaram um novo artigo acadêmico que propunha uma forma mais científica de definir e avaliar se modelos de IA haviam alcançado inteligência geral. O artigo, “Measuring Progress Toward AGI: A Cognitive Framework”, baseia-se em décadas de pesquisa em psicologia, neurociência e ciência cognitiva para construir o que seus autores chamam de “Taxonomia Cognitiva”.
A taxonomia identifica 10 faculdades cognitivas-chave — incluindo percepção, raciocínio, memória, aprendizado, atenção e cognição social — que os pesquisadores argumentam serem essenciais para a inteligência geral. O framework [estrutura analítica] então propõe avaliar sistemas de IA em todas as 10 faculdades e comparar seu desempenho com uma amostra representativa de adultos humanos com pelo menos o equivalente à educação secundária.
O principal insight [percepção central] do artigo é que os modelos de IA atuais têm um perfil cognitivo “irregular”: eles podem superar a maioria dos humanos em algumas áreas, como matemática ou recordação factual, ao mesmo tempo em que ficam dramaticamente atrás até mesmo de pessoas medianas em outras, como aprender com a experiência, manter memórias de longo prazo ou compreender situações sociais. Um modelo de IA precisaria ao menos igualar o desempenho humano mediano em todas as 10 áreas para ser considerado AGI, sugerem os pesquisadores do Google DeepMind.
Os pesquisadores também anunciaram uma competição com um prêmio total de US$ 200.000 no popular site de competições de machine learning Kaggle para que pesquisadores externos ajudem a construir avaliações para as cinco faculdades cognitivas em que os testes de benchmark [referência] existentes são mais fracos.
O artigo do DeepMind é apenas o mais recente em uma série de tentativas recentes de colocar a medição da inteligência em bases mais rigorosas.
No ano passado, uma equipe liderada por Dan Hendrycks, do Center for AI Safety, e que incluía o pioneiro do deep learning Yoshua Bengio, publicou seu próprio framework e métricas para AGI. Esse artigo também dividiu a inteligência geral em 10 domínios cognitivos separados, com base em um framework para inteligência humana desenvolvido por três psicólogos — Raymond Cattell, John Horn e John Carroll — que é o modelo de cognição humana mais validado empiricamente. Ele produziu “AGI Scores” [pontuações de AGI] para modelos de IA existentes; o sistema mais capaz testado, o GPT-5 da OpenAI, lançado em agosto de 2025, obteve apenas 57%, ficando muito aquém de igualar um adulto bem instruído em todas as dimensões cognitivas.
Uma das tentativas práticas mais ambiciosas de evidenciar o que os sistemas de IA de hoje ainda não conseguem fazer é o benchmark ARC-AGI, criado pelo conhecido pesquisador de machine learning François Chollet. O argumento central de Chollet é que a inteligência deve ser medida não pelo que um sistema já sabe, mas por quão eficientemente ele consegue aprender novas habilidades.
O benchmark ARC-AGI consiste em tarefas de quebra-cabeça visuais envolvendo grades de células coloridas. Cada tarefa mostra alguns exemplos de uma grade de entrada sendo transformada em uma grade de saída de acordo com uma regra oculta, e quem realiza o teste deve descobrir a regra e aplicá-la a uma nova entrada. Para um humano, compreender o padrão normalmente leva segundos. Para os modelos de IA de fronteira, esses quebra-cabeças continuam surpreendentemente difíceis, porque exigem o tipo de raciocínio flexível e abstrato — identificar simetrias, compreender relações espaciais, inferir regras a partir de um punhado de exemplos — com o qual os sistemas atuais têm dificuldade.
Neste mês, Chollet e seus colaboradores lançaram o ARC-AGI-3, a versão mais recente e mais exigente do benchmark. Diferentemente das edições anteriores, que apresentavam quebra-cabeças estáticos, o ARC-AGI-3 é interativo: agentes de IA devem explorar ambientes novos, adquirir objetivos em tempo real, construir modelos de mundo adaptáveis e aprender continuamente ao longo de múltiplas etapas — capacidades que vêm naturalmente aos humanos, mas que permanecem na fronteira da pesquisa em IA.
Tomados em conjunto, esses novos benchmarks representam um esforço crescente dentro da comunidade de pesquisa em IA para substituir definições vagas sobre AGI por algo mais próximo de uma medição científica. Mas, como esses pesquisadores são os primeiros a admitir, a dificuldade de definir inteligência é tão antiga quanto o próprio estudo do pensamento — e tem atormentado a inteligência artificial como campo desde seus dias mais iniciais.
Definindo inteligência
Em 1950, antes mesmo de o termo “inteligência artificial” ter sido cunhado e quando matemáticos e engenheiros eletricistas estavam apenas começando a construir os primeiros computadores modernos, o célebre matemático britânico e pioneiro da computação Alan Turing enfrentou o fato de que era extremamente difícil formular uma definição de inteligência.
Em vez de tentar fazê-lo, Turing propôs uma avaliação que chamou de “Jogo da Imitação”, que mais tarde se tornaria mais conhecida como Teste de Turing. Ela estipulava que uma máquina deveria ser considerada inteligente quando pudesse manter uma conversa geral com uma pessoa, por meio de texto, e um segundo juiz humano, lendo o intercâmbio, não conseguisse determinar de maneira confiável qual participante era a máquina e qual era o humano. Era, em essência, uma abordagem do tipo “eu vou reconhecer quando vir” para a inteligência.
Mas o Teste de Turing logo também se mostrou problemático. Eliza, um chatbot desenvolvido no MIT em meados da década de 1960, foi projetado para imitar um psicoterapeuta. A maioria de suas respostas seguia regras lógicas codificadas manualmente; Eliza frequentemente respondia aos usuários com perguntas como “Por que você acha que isso é assim?” ou “Conte-me mais” para encobrir sua compreensão fraca da linguagem. E, ainda assim, Eliza levou algumas pessoas a acreditar que as compreendia. Eliza chegou perto de passar no Teste de Turing, embora em quase todas as outras medidas não chegasse nem perto das capacidades cognitivas humanas. E, de fato, um chatbot mais sofisticado chamado “Eugene Goostman” passou oficialmente em uma competição ao vivo do Teste de Turing em 2014, novamente sem alcançar a maioria das habilidades cognitivas humanas.
Os grandes modelos de linguagem de hoje conversam com muito mais fluidez do que Eliza jamais poderia, mas ainda assim não conseguem equiparar-se aos humanos em todo o espectro de habilidades cognitivas — eles alucinam fatos, têm dificuldade com planejamento de longo horizonte e não conseguem aprender com a experiência da maneira que uma pessoa consegue.
Comparado ao Teste de Turing, o termo “inteligência artificial geral” é relativamente recente. Ele foi cunhado pela primeira vez em 1997 por Mark Gubrud, então estudante de pós-graduação da University of Maryland, que usou o neologismo em um artigo de 1997 apresentado em uma conferência sobre nanotecnologia. Ele usou a expressão “advanced artificial general intelligence” para descrever sistemas de IA que poderiam “rivalizar ou superar o cérebro humano em complexidade e velocidade, que podem adquirir, manipular e raciocinar com conhecimento geral, e que podem ser usados essencialmente em qualquer fase de operações em que uma inteligência humana de outra forma seria necessária”. Mas o artigo rapidamente caiu na obscuridade.
Depois, no início dos anos 2000, Legg — que viria a cofundar o DeepMind — cunhou independentemente o mesmo termo. Ele estava colaborando com os cientistas da computação Ben Goertzel, Cassio Pennachin e outros em um livro sobre formas potenciais de criar sistemas de machine learning que seriam capazes de lidar com uma ampla gama de problemas e tarefas. Eles queriam um termo que distinguisse a ambição desses sistemas dos algoritmos estreitos de machine learning então em voga, que, uma vez treinados, só conseguiam lidar com uma única tarefa estreita. Goertzel considerou chamar essa IA mais geral de “real AI” ou “strong AI”, mas Legg sugeriu “artificial general intelligence”, sem saber do uso anterior de Gubrud. Ele também sugeriu que o termo fosse abreviado como AGI. Desta vez, AGI pegou.
No livro de Goertzel, ele definiu AGI como “sistemas de IA que possuem um grau razoável de autocompreensão e autocontrole autônomo, e têm a capacidade de resolver uma variedade de problemas complexos em uma variedade de contextos, e de aprender a resolver novos problemas sobre os quais não sabiam em seu momento de criação”.
A definição foi útil para separar o trabalho em sistemas gerais de IA do trabalho em sistemas estreitos de machine learning, mas ela também continha uma quantidade nada pequena e pouco útil de ambiguidade: o que significava “grau razoável”? Quais problemas complexos, em quais contextos, contavam para esse padrão?
Legg mais tarde ampliaria essa ambiguidade ao oferecer uma definição mais casual de AGI que, em alguns aspectos, era mais estreita (não falava sobre autocompreensão, por exemplo), mas igualmente vaga. Por exemplo, ele disse a Nick Thompson, da The Atlantic, no ano passado: “Eu defino uma AGI como um agente artificial que consegue fazer os tipos de coisas cognitivas que as pessoas normalmente conseguem fazer. Eu vejo isso como a barra mínima natural.” Mas quais coisas? E quais pessoas?
Perguntas como essa continuaram a girar em torno da AGI. O termo significa um software que se equipara às capacidades cognitivas de um humano médio? Ou às capacidades dos humanos com os mais altos QIs? Ou do melhor especialista em cada domínio individual do conhecimento? O artigo de pesquisa de Hendrycks e Bengio, por exemplo, define AGI como igualar ou superar “a versatilidade cognitiva e a proficiência de um adulto bem instruído”. O artigo do DeepMind propõe medir em relação a uma amostra representativa de adultos. Outros usaram formulações menos precisas.
Aumentando a confusão, a AGI é frequentemente confundida na discussão pública com um conceito que pesquisadores de IA chamam de “superinteligência artificial”, ou ASI — uma IA que seria mais inteligente do que todos os humanos combinados. A maioria dos pesquisadores de IA considera AGI e ASI marcos separados, e muito diferentes em grau de sofisticação, mas no imaginário popular os dois frequentemente se misturam.
AGI se torna uma meta corporativa — e um slogan de marketing
Se o debate acadêmico sobre definir AGI tem sido longo e cheio de nuances, o mundo corporativo introduziu definições que são, para dizer o mínimo, idiossincráticas. O DeepMind foi a primeira empresa a tornar a busca por “inteligência artificial geral” uma meta de negócios. Legg colocou a expressão na primeira página do primeiro plano de negócios da empresa quando ele, Demis Hassabis e Mustafa Suleyman cofundaram a empresa em 2010.
Cinco anos depois, a OpenAI também tornou a construção de AGI sua missão explícita. Seus princípios fundadores originais de 2015 diziam que o novo laboratório — à época uma organização sem fins lucrativos — era dedicado a garantir “que a inteligência artificial geral beneficie toda a humanidade”. Três anos depois, quando o laboratório criou pela primeira vez um braço com fins lucrativos, publicou uma carta que definia AGI “como sistemas altamente autônomos que superam humanos na maior parte do trabalho economicamente valioso”. Agora, pela primeira vez, a AGI estava sendo medida por métricas financeiras, não meramente cognitivas.
E, ao que se revelou, a OpenAI logo fixaria secretamente um limiar financeiro altamente específico para AGI. Quando a Microsoft investiu pela primeira vez US$ 1 bilhão no braço com fins lucrativos da OpenAI em 2019, o acordo da gigante de tecnologia com a startup de IA a tornou a parceira preferencial de comercialização da OpenAI para qualquer modelo de IA que o laboratório desenvolvesse até, mas crucialmente não incluindo, AGI. Na época, foi relatado que a decisão sobre quando a AGI tivesse sido alcançada ficaria a critério do conselho sem fins lucrativos da OpenAI.
Mas, crucialmente, de acordo com reportagem da publicação de tecnologia The Information em 2024, quando a Microsoft concordou em investir mais US$ 10 bilhões na OpenAI em 2023, seu contrato com a OpenAI continha uma cláusula que definia AGI como uma tecnologia capaz de gerar pelo menos US$ 100 bilhões em lucros.
A OpenAI não está nem perto dessa marca. A empresa teria dito a investidores que obteve US$ 13 bilhões em receitas no ano passado, mas ainda assim conseguiu queimar US$ 8 bilhões em caixa. Ela não espera atingir o ponto de equilíbrio antes de 2030.
Apesar de estar muito aquém do limiar financeiro para AGI em seu contrato com a Microsoft, o CEO da OpenAI, Sam Altman, frequentemente fez declarações que sugerem que a OpenAI está próxima de alcançar esse marco da IA, medido por outros benchmarks. Em uma postagem em seu blog pessoal, em janeiro de 2025, intitulada “Reflections”, Altman escreveu que a OpenAI estava “agora confiante de que sabemos como construir AGI como tradicionalmente a entendemos” e que a empresa estava começando a voltar sua mira para a superinteligência. Em um ensaio subsequente intitulado “Three Observations”, ele escreveu que sistemas apontando para AGI estavam “entrando em vista”. Ainda assim, em outros momentos, Altman pareceu reconhecer a fraqueza da AGI como conceito. Mais ou menos na mesma época de sua postagem “Reflections”, Altman disse a um entrevistador da Bloomberg News que AGI “se tornou um termo muito frouxo”.
A Microsoft também optou por ignorar a definição financeira de AGI que acertou com a OpenAI quando isso convinha aos objetivos de marketing da empresa. Em março de 2023, uma equipe de pesquisadores da Microsoft publicou um artigo de 154 páginas sobre o GPT-4 com o título provocativo “Sparks of Artificial General Intelligence”, argumentando que o modelo poderia “razoavelmente ser visto como uma versão inicial (ainda que incompleta)” de AGI.
O artigo foi amplamente criticado por exagerar as capacidades do GPT-4 para fins comerciais. Até mesmo Altman se distanciou, chamando o GPT-4 de “ainda falho, ainda limitado”. A nova pesquisa e os benchmarks do Google DeepMind e da equipe Hendrycks-Bengio fazem algum progresso no sentido de estabelecer uma medida de referência para AGI, enraizada em décadas de estudo da inteligência humana. E o que está claro é que os melhores modelos de IA de hoje ainda não se equiparam à amplitude e à profundidade das capacidades cognitivas humanas.
Huang, o CEO da Nvidia, sabe disso, assim como sem dúvida tinha plena consciência do frenesi nas redes sociais e das manchetes que geraria ao dizer que a AGI havia sido alcançada. Sabemos que Huang sabe disso porque, mais tarde, no mesmo podcast em que disse “a AGI foi alcançada”, ele também disse que os populares agentes de IA OpenClaw, que podem ser alimentados por qualquer um dos principais modelos de IA de empresas como Anthropic e OpenAI, jamais poderiam replicar a Nvidia. “Ora, a probabilidade de 100.000 desses agentes construírem a Nvidia é zero por cento”, disse ele.
Huang não é apenas o CEO da Nvidia. Ele também é o fundador da empresa e a pessoa que a dirige há 33 anos, tendo-a conduzido após um momento próximo da falência, para agora vê-la valer mais de US$ 4 trilhões, tornando-a uma das empresas mais valiosas do planeta. Em muitos sentidos, Huang é um gênio singular. Mas ele também é um gênio muito humano. Então talvez precisemos de um novo padrão, não AGI, mas AJI — inteligência artificial Jensen. Quando a IA alcançar esse nível, os entusiastas de IA nas redes sociais que amplificaram ofegantemente a alegação de Huang sobre AGI realmente terão algo com que se entusiasmar.
Em 2001, a Fortune reuniu pela primeira vez “The Smartest People We Know”, reunindo CEOs e fundadores, construtores e investidores, pensadores e realizadores. Desde então, o Fortune Brainstorm Tech tem sido o lugar onde ideias ousadas colidem. De 8 a 10 de junho, retornaremos a Aspen — onde tudo começou — para marcar os 25 anos do Brainstorm. Inscreva-se agora.
Fonte: Fortune
Traduzido via ChatGPT
