Homem jogando xadrez contra um robô com braço mecânico
Pexels/pavel-danilyuk

Os recentes avanços em inteligência artificial (IA) trouxeram consigo modelos de linguagem cada vez maiores e mais complexos. Mas será que essa tendência de simplesmente aumentar o tamanho é o caminho para o futuro da IA?

A ideia predominante atualmente é que os modelos de linguagem continuarão a evoluir indefinidamente, podendo até nos levar à inteligência artificial geral (IAG). No entanto, essa visão baseia-se em mitos e mal-entendidos. A previsibilidade aparente do escalonamento é uma interpretação equivocada da pesquisa. Além disso, há sinais de que os desenvolvedores de LLMs (Grandes Modelos de Linguagem, em Inglês) já estão no limite de dados de alta qualidade disponíveis para treinamento. E a indústria está vendo uma forte pressão para reduzir o tamanho dos modelos. Embora não possamos prever exatamente até onde a IA avançará com o escalonamento, não é uma escolha arriscada apostar que o escalonamento por si só nos leve à IAG.

As pesquisas sobre as leis do escalonamento mostram que, à medida que aumentamos o tamanho do modelo, a capacidade de computação para treinamento e o tamanho do conjunto de dados, os modelos de linguagem melhoram. Essa melhoria é notavelmente previsível e se mantém em várias ordens de magnitude. Essa é a principal razão pela qual muitos acreditam que o escalonamento continuará, com lançamentos regulares de modelos maiores e mais poderosos pelas principais empresas de IA, como OpenAI, Anthropic e Mistral.

Mas essa é uma interpretação completamente errada das leis do escalonamento. O que exatamente é um modelo “melhor”? As leis do escalonamento quantificam apenas a diminuição da perplexidade, ou seja, a melhoria na capacidade dos modelos de prever a próxima palavra em uma sequência. A perplexidade é irrelevante para os usuários finais. O que importa são as “habilidades emergentes”, ou seja, a tendência dos modelos de adquirir novas capacidades à medida que aumentam de tamanho.

A emergência não é regida por nenhum comportamento semelhante a uma lei. Embora até agora os aumentos de escala tenham trazido novas capacidades, não há regularidade empírica capaz de assegurar que isso continuará indefinidamente.

Uma das questões centrais sobre as capacidades dos LLMs é se eles são capazes de extrapolação ou se aprendem apenas tarefas representadas nos dados de treinamento – se eles realmente conseguem “pensar” a partir do que aprenderam ou apenas repetem informação como um papagaio. A evidência é incompleta e existem várias formas razoáveis de interpretá-la. É necessários ter uma visão cética. Em benchmarks projetados para testar a eficiência na aquisição de habilidades para resolver tarefas não vistas, os LLMs tendem a ter um desempenho ruim.

Outro obstáculo ao escalonamento contínuo é a obtenção de dados de treinamento. As empresas já estão utilizando todas as fontes de dados disponíveis. Conseguir mais dados é menos provável do que parece. Algumas pessoas supõem que novas fontes de dados, como a transcrição de todo o YouTube, aumentariam o volume de dados disponíveis. No entanto, grande parte do conteúdo do YouTube tem pouco ou nenhum áudio utilizável, resultando em um volume de dados muito inferior ao necessário, mesmo antes da deduplicação e filtragem de qualidade.

A pergunta sobre quando as empresas ficarão sem dados de alta qualidade para treinamento não é significativa. Sempre haverá mais dados de treinamento, mas obtê-los custará cada vez mais caro. Além dos custos monetários, podem haver custos morais e regulatórios.

Nenhuma tendência exponencial pode continuar indefinidamente. Contudo, é difícil prever quando uma tendência tecnológica está prestes a estagnar, especialmente quando o crescimento para repentinamente.

Uma solução polêmica, porém promissora, é o uso de dados sintéticos – ou IA alimentando IA. Nessa abordagem, cria-se um novo conjunto de dados a partir de um existente, mas totalmente artificial. A ideia é preservar a estrutura do original sem revelar o conteúdo propriamente dito.

No entanto, há riscos associados ao uso de dados sintéticos. Treinar LLMs com dados que replicam padrões existentes pode levar ao “colapso do modelo”, ocasionando estagnação no aprendizado e perda de informações valiosas. O resultado seriam modelos repetitivos e incapazes de gerar respostas originais.

Dados sintéticos são úteis para corrigir lacunas específicas e fazer melhorias em domínios específicos, mas não para substituir as fontes atuais de dados de pré-treinamento.

Existem casos em que dados sintéticos foram espetacularmente bem-sucedidos, como o AlphaGo, que derrotou o campeão mundial de Go em 2016, e o AlphaZero, que repetiu o feito em 2017, mas contra outra IA. Esses sistemas aprenderam jogando contra si mesmos. No entanto, adaptar essa estratégia a domínios além dos jogos é um desafio significativo.

Modelos compactos e treinamento mais longo

Historicamente, os três eixos do escalonamento — tamanho do conjunto de dados, tamanho do modelo e capacidade de computação de treinamento — progrediram em conjunto. No entanto, se um dos eixos (dados de alta qualidade) se tornar um gargalo, os outros dois continuarão a escalar?

Com base nas tendências de mercado atuais, construir modelos maiores não parece uma decisão comercial sábia, mesmo que isso desbloqueie novas capacidades emergentes. O foco mudou para a produção de modelos menores com um nível de capacidade dado. Desenvolvedores de modelos avançados não revelam mais os tamanhos dos modelos, mas é possível fazer suposições comparando os preços das APIs como um parâmetro aproximado para o tamanho. Por exemplo, o GPT-4o custa apenas 25% do que o GPT-4 custa, sendo semelhante ou melhor em capacidades e cometendo menos erros.

A capacidade de computação de treinamento, por outro lado, provavelmente continuará a escalar por enquanto – é uma questão de quem pode botar mais dinheiro para treinar IAs pela força bruta. Paradoxalmente, modelos menores exigem mais treinamento para atingir o mesmo nível de desempenho. Isso coloca pressão para aumentar a capacidade de computação de treinamento enquanto se reduz o tamanho dos modelos.

Um sinal de que não veremos muitas melhorias de capacidade através do escalonamento é que CEOs têm moderado as expectativas de atingir a AGI (Inteligência Artificial Geral, em Inglês). Em vez de admitir que estavam errados sobre previsões ingênuas de “AGI em 3 anos”, decidiram redefinir o que entendem por AGI de forma tão vaga que se tornou sem sentido.

Em vez de ver a generalidade como binária, podemos vê-la como um espectro. Historicamente, o esforço necessário para programar uma nova tarefa em um computador diminuiu. Podemos ver isso como um aumento na generalidade. Essa tendência começou com a mudança de computadores de propósito especial para máquinas de Turing. Nesse sentido, a natureza de propósito geral dos LLMs não é nova.