Autoridades do governo chinês estão testando grandes modelos de linguagem de empresas de inteligência artificial para garantir que seus sistemas “incorporem valores socialistas centrais”, na expansão mais recente do regime de censura do país.
A Administração do Ciberespaço da China (ACC), uma poderosa agência de fiscalização e regulamentação da internet, obrigou grandes empresas de tecnologia e startups de inteligência artificial, como ByteDance, Alibaba, Moonshot e 01.AI, a participarem de uma revisão governamental compulsória de seus modelos de IA, de acordo com várias fontes envolvidas no processo.
A iniciativa inclui testes em lote das respostas de um grande modelo de linguagem a uma série de perguntas, segundo fontes com conhecimento do processo. E muitas dessas perguntas estão relacionadas às sensibilidades políticas da China e de seu presidente, Xi Jinping.
O trabalho é conduzido por autoridades nas unidades locais da ACC em todo o país e inclui uma revisão dos dados usados para o treinamento do modelo e de outros processos de segurança.
Duas décadas depois de introduzir um “grande firewall” para bloquear sites estrangeiros e outras informações consideradas prejudiciais pelo Partido Comunista, a China começou a implementar o regime regulatório mais rigoroso do mundo para controlar a inteligência artificial e o conteúdo que ela produz.
“A ACC tem uma equipe especial que faz isso. Eles vieram ao nosso escritório e ocuparam nossa sala de conferências para fazer a auditoria”, disse um funcionário de uma empresa de IA com sede em Hangzhou, que pediu para não ser identificado.
“Não passamos nos testes na primeira vez; o motivo não ficou muito claro, e por isso tivemos de conversar com nossos pares”, contou o funcionário. “É preciso um pouco de adivinhação e de adaptação. Passamos na segunda vez, mas todo o processo levou meses.”
/i.s3.glbimg.com/v1/AUTH_63b422c2caee4269b8b34177e8876b93/internal_photos/bs/2024/N/R/5jFnKgQgOD0qkQQTkA5g/igor-omilaev-eggfz5x2lna-unsplash.jpg)
O rigoroso processo de aprovação da China obrigou os grupos de inteligência artificial no país a aprenderem rapidamente a melhor maneira de censurar os grandes modelos de linguagem que desenvolvem, uma tarefa que muitos engenheiros e pessoas bem informadas do setor consideram difícil e complicada por causa da necessidade de treinar os modelos com uma grande quantidade de conteúdo em inglês.
“Nosso modelo fundacional é muito, muito desinibido [em suas respostas], portanto a filtragem de segurança é extremamente importante”, disse um funcionário de uma das mais importantes startups de IA em Pequim.
A filtragem começa com eliminar informações problemáticas dos dados de treinamento e com a formação de um banco de dados de palavras-chave sensíveis. A diretriz operacional da China para empresas de inteligência artificial publicada em fevereiro determina que os grupos de IA precisam coletar milhares de palavras-chave e perguntas sensíveis que violem “valores socialistas fundamentais”, tais como “incitar a subversão do poder do Estado” ou “minar a unidade nacional”. A ideia é que a lista de palavras-chave sensíveis deve ser atualizada semanalmente.
O resultado é visível para os usuários dos chatbots de IA da China. Consultas sobre tópicos sensíveis, como o que aconteceu em 4 de junho de 1989 – a data do massacre da Praça Tiananmen – ou se Xi se parece com o Ursinho Puff, um meme da internet, são rejeitadas pela maioria dos chatbots chineses. O chatbot Ernie do Baidu pede aos usuários que “tentem uma pergunta diferente”, enquanto o Tongyi Qianwen do Alibaba responde: “Ainda não aprendi como responder a essa questão. Continuarei a estudar para atendê-lo melhor.”
Por outro lado, Pequim lançou um chatbot de IA baseado em um novo modelo treinado a partir da filosofia política do presidente chinês, conhecida como “O Pensamento de Xi Jinping sobre o Socialismo com Características Chinesas para uma Nova Era”, assim como de outras publicações oficiais fornecidas pela Administração do Ciberespaço da China.
Mas as autoridades chinesas também estão empenhadas em evitar a criação de uma inteligência artificial que se esquive de todos os tópicos políticos. A ACC introduziu limites para o número de perguntas que os grandes modelos de linguagem podem recusar durante os testes de segurança, de acordo com funcionários de grupos que ajudam as empresas de tecnologia a lidarem com o processo. Os padrões quase nacionais revelados em fevereiro estipulam que os grandes modelos de linguagem não podem rejeitar mais de 5% das perguntas que lhes são feitas.
“Durante os testes, [os modelos] precisam responder, mas quando já estiverem em operação não haverá ninguém para vigiar isso”, disse um desenvolvedor de uma empresa de internet com sede em Xangai. “Para evitar possíveis problemas, alguns grandes modelos implementaram uma proibição total de tópicos relacionados ao presidente Xi.”
Como exemplo do processo de censura de palavras-chave, fontes bem informadas do setor mencionam o Kimi, um chatbot lançado pela startup Moonshot, de Pequim, que rejeita a maioria das perguntas relacionadas a Xi.
Mas a necessidade de responder a perguntas que não sejam tão obviamente sensíveis significa que os engenheiros chineses tiveram de descobrir uma solução para garantir que os grandes modelos de linguagem deem respostas politicamente corretas para questões como “a China tem direitos humanos?” ou “o presidente Xi Jinping é um grande líder?”.
Quando o Financial Times fez essas perguntas a um chatbot desenvolvido pela startup 01.AI, seu modelo de linguagem Yi deu uma resposta mais sutil, em que observa que os críticos dizem que “as políticas de Xi limitaram ainda mais a liberdade de expressão e os direitos humanos e reprimiram a sociedade civil”.
Pouco depois, a resposta do Yi desapareceu e foi substituída por: “Sinto muito, não posso fornecer as informações que você quer”.
Para Huan Li, um especialista em IA que desenvolve o chatbot Chatie.IO, “é muito difícil para os desenvolvedores controlarem o texto que os grandes modelos de linguagem geram, por isso eles criam outra camada para substituir as respostas em tempo real”.
Li disse que em geral as empresas usavam modelos de classificação, semelhantes aos que se encontram nos filtros que bloqueiam spam em caixas de e-mail, para ordenar a produção dos grandes modelos em grupos predefinidos. “Quando o que é produzido cai em uma categoria sensível, o sistema ativa um substituto”, explicou ele.
Especialistas chineses afirmam que a proprietária do TikTok, a ByteDance, foi a que mais avançou na criação de um grande modelo de linguagem, o Doubao, que repete com habilidade os argumentos centrais de Pequim. Um laboratório de pesquisa da Universidade Fudan fez-lhe perguntas difíceis em torno de valores socialistas fundamentais, e pôs o chatbot no topo do ranking dos grandes modelos, com uma “taxa de conformidade de segurança” de 66,4%, bem à frente da pontuação de 7,1% do GPT-4o, da OpenAI, no mesmo teste.
Quando indagado sobre a liderança de Xi, o Doubao ofereceu ao Financial Times uma longa lista das realizações do presidente e acrescentou que ele é “sem dúvida um grande líder”.
Em uma conferência técnica recente em Pequim, Fang Binxing, que ficou famoso como o pai do grande firewall da China, disse que estava desenvolvendo um sistema de protocolos de segurança para os grandes modelos de linguagem e esperava que eles fossem adotados por todos os grupos de inteligência artificial do país.
“Os grandes modelos preditivos abertos ao público precisam de mais do que apenas registros de segurança; eles precisam de monitoramento de segurança on-line em tempo real”, afirmou Fang. “A China precisa de um caminho tecnológico próprio.”
A ACC, a ByteDance, Alibaba, Moonshot, Baidu e 01.AI não responderam imediatamente aos pedidos de comentários.
Fonte: Valor Econômico

