cérebro artificial lilás flutuando em um fundo claro em cabos de rede ethernet conectados à sua base, dando a ele um aspecto de polvo
Unsplash/gettyimages

A rápida evolução da Inteligência Artificial (IA) está superando os métodos tradicionais de avaliação de desempenho, precisão e segurança, criando um desafio para empresas e órgãos públicos que buscam implementar essa tecnologia em constante desenvolvimento.

Especialistas alertam que os critérios de avaliação comumente utilizados, como benchmarks públicos, estão se tornando obsoletos à medida que modelos de IA mais complexos chegam ao mercado. Esses métodos tradicionais são facilmente manipuláveis e limitados para lidar com a sofisticação dos modelos mais recentes.

A corrida tecnológica acelerada iniciada com o lançamento do ChatGPT pela OpenAI, em 2022, impulsionada por investimentos maciços de capital de risco e grandes empresas de tecnologia, como Microsoft, Google, Meta e Amazon, tornou obsoletas muitas das métricas tradicionais para avaliar o progresso da IA.

“Um benchmark público tem vida útil curta. É útil até que as pessoas otimizem seus modelos para ele ou o ‘enganem’. Isso costumava levar alguns anos; agora, são alguns meses”, afirmou Aidan Gomez, fundador e CEO da startup de IA Cohere, em uma entrevista recente ao jornal Financial Times.

Novos modelos surgem rapidamente

Novos sistemas de IA emergem rotineiramente e podem superar completamente os benchmarks existentes à medida que os modelos melhoram, as capacidades tornam essas avaliações obsoletas.

O problema de como avaliar modelos de linguagem ampla (LLMs) se tornou crucial para empresas e governos, já que a IA generativa se tornou uma prioridade de investimento para muitos.

Governos também estão lutando para acompanhar o ritmo da inovação e gerenciar os riscos dos modelos de IA mais recentes. Na semana passada, os EUA e o Reino Unido assinaram um acordo bilateral histórico sobre segurança da IA, com base em novos institutos de IA que os dois países criaram no ano passado para “minimizar surpresas de avanços rápidos e inesperados na IA”.

Avaliação de IA: uma corrida contra o tempo

Seja avaliando segurança, desempenho ou eficiência, os grupos encarregados de testar a robustez dos sistemas de IA estão correndo para acompanhar o estado da arte.

O Centro de Pesquisa em Modelos de Fundação da Universidade de Stanford, nos Estados Unidos, desenvolveu o Holistic Evaluation of Language Models, que testa raciocínio, memorização e suscetibilidade à desinformação, entre outros critérios.

Outros sistemas públicos incluem o benchmark Massive Multitask Language Understanding, um conjunto de dados construído em 2020 por estudantes da Universidade de Berkeley, também nos EUA, para testar modelos em questões de 57 áreas temáticas. Outro é o HumanEval, que avalia a capacidade de codificação em 164 problemas de programação.

No entanto, as avaliações estão lutando para acompanhar a sofisticação dos modelos de IA atuais, que podem executar uma série de tarefas conectadas em um vasto escopo. Essas tarefas complexas são mais difíceis de avaliar em ambientes controlados.

A primeira coisa a reconhecer é que é muito difícil avaliar modelos de maneira adequada, da mesma forma que é muito difícil avaliar humanos de maneira adequada.

Desafios e soluções em constante evolução

Uma preocupação crescente com os testes públicos é que os dados de treinamento dos modelos podem já incluir as perguntas usadas nas avaliações. Pesquisadores da área de aprendizado de máquina ainda estão aprendendo como limitar esse problema de contaminação entre o que os modelos são treinados e o que são testados.

Veja também: Não há internet suficiente para treinar IAs

A Hugging Face, startup avaliada em de US$ 4,5 bilhões que fornece ferramentas para o desenvolvimento de IA e é uma plataforma influente para modelos de código aberto, hospeda uma tabela de classificação chamada LMSys, que classifica os modelos com base em sua capacidade de concluir testes personalizados definidos por usuários individuais, em vez de um conjunto fixo de perguntas. Como resultado, captura de forma mais direta as preferências reais dos usuários.

Esse ranking é útil para usuários individuais, mas tem uso mais limitado para empresas, que terão requisitos específicos para modelos de IA. Essas métricas são como quando você compra um carro que tem potência X, Y de torque e vai de 0 a 100 km/h em Z segundos. A única forma de verificar é dando uma volta para testar.

Uma abordagem abrangente para a avaliação de IA exigirá colaboração entre pesquisadores, empresas, governos e o público para definir métricas apropriadas, mitigar vieses e garantir o desenvolvimento responsável dessa tecnologia poderosa.