cérebro artificial flutuando contra um fundo com luzes azul, dourada e lilás
Unsplash/fakurian

A vasta quantidade de informação disponível na internet tem sido o combustível para o avanço da Inteligência Artificial (IA), especialmente no que diz respeito aos grandes modelos de linguagem (LLMs), como o GPT, usado pela OpenAI. Esses sistemas aprendem a processar e gerar texto analisando enormes quantidades de dados, permitindo respostas complexas e até mesmo a criação de conteúdo original.

No entanto, especialistas alertam para um futuro próximo onde a internet, por ser finita, não será suficiente para atender a demanda por dados cada vez mais crescentes. Um estudo do Epoch AI estima que, em apenas dois anos, as empresas de IA esgotarão as fontes de dados de alta qualidade disponíveis online. É o que conta o pesquisador Pablo Villalobos em uma matéria publicada recentemente pelo The Wall Street Journal.

Apetite insaciável por dados

Para se ter ideia da dimensão do problema, o modelo GPT-4 da OpenAI, treinado em aproximadamente 12 milhões de tokens (unidades que representam palavras e partes de palavras), precisará de 60 a 100 trilhões de tokens para a próxima geração, o GPT-5. Isso equivale de 45 a 75 trilhões de palavras, considerando a estimativa da própria OpenAI de que um token corresponde a 0,75 de uma palavra.

Mesmo explorando todo o potencial da internet, faltariam cerca de 10 a 20 trilhões de tokens para finalizar o desenvolvimento do GPT-5, segundo Villalobos. Apesar de prever o impacto a partir de 2028, as empresas do setor já buscam alternativas para alimentar seus modelos.

Além da quantidade, a qualidade importa

O desafio não se resume apenas à escassez de dados. A qualidade da informação é crucial para evitar que os LLMs aprendam conceitos equivocados ou reproduzam conteúdo prejudicial. Treinar um modelo com “lixo digital” resultaria em respostas imprecisas e disseminação de fake news, um problema já recorrente em alguns sistemas de IA.

Foto da biblioteca municipal de Stuttgart, na Alemanha, com um visual futurista branco e iluminano
Unsplash/freiburgermax

Além disso, há questões éticas relacionadas à coleta de dados na internet. Muitas vezes, esse processo ocorre sem o consentimento dos usuários, como no caso da venda de dados do Reddit para empresas de IA. O jornal The New York Times, por exemplo, está processando a OpenAI por essa prática.

Novas fronteiras no treinamento de IA

Diante desse cenário, as empresas de IA estão explorando caminhos alternativos. A OpenAI considera utilizar transcrições de vídeos públicos, como os do YouTube, para treinar o GPT-5. Outra estratégia é o desenvolvimento de modelos menores para nichos específicos, além de sistemas de remuneração baseados na qualidade da informação fornecida.

Uma solução polêmica, porém promissora, é o uso de dados sintéticos. Nessa abordagem, cria-se um novo conjunto de dados a partir de um existente, mas totalmente artificial. A ideia é preservar a estrutura do original sem revelar o conteúdo propriamente dito.

No entanto, há riscos associados ao uso de dados sintéticos. Treinar LLMs com dados que replicam padrões existentes pode levar ao “colapso do modelo”, ocasionando estagnação no aprendizado e perda de informações valiosas. O resultado seriam modelos repetitivos e incapazes de gerar respostas originais, justamente o oposto do que se espera alcançar.

Apesar dos riscos, empresas como Anthropic e OpenAI enxergam potencial nos dados sintéticos. O sucesso na implementação dessa tecnologia representaria um avanço significativo, pois permitiria o desenvolvimento de IA sem depender de dados pessoais dos usuários.