Homem de costas para a câmera digita um comando na página inicial do ChatGPT
Freepik/frimufilms

O embate judicial entre empresas de tecnologia e meios de comunicação ganhou um novo capítulo nesta terça-feira (30). Oito jornais dos Estados Unidos processaram a OpenAI e a Microsoft, acusando-as de usar ilegalmente artigos e notícias para treinar seus chatbots de IA.

Estão envolvidas na ação judicial publicações renomadas como o New York Daily News, Chicago Tribune, Orlando Sentinel, Sun Sentinel of Florida, San Jose Mercury News, Denver Post, Orange County Register e St. Paul Pioneer Press. Todas pertencem ao MediaNews Group ou ao Tribune Publishing, ambas subsidiárias da Alden Global Capital, segunda maior operadora de jornais dos Estados Unidos.

A acusação principal de é que as empresas teriam utilizado milhões de artigos protegidos por direitos autorais sem permissão para alimentar e treinar seu modelo de IA generativa da OpenAI, o GPT-4, e oferecer o conteúdo em produtos como o ChatGPT e o Microsoft Copilot. O processo não especifica um valor de indenização, mas pede um julgamento por júri e afirma que as editoras merecem compensação pelo uso indevido do conteúdo.

De acordo com a denúncia, os chatbots frequentemente exibem para seus usuários o texto completo de artigos disponíveis apenas para assinantes, sem dar referência à fonte original. Isso, segundo os jornais, diminui a necessidade do público assinar os periódicos para ter acesso a notícias locais e priva as empresas de receitas vindas tanto de assinaturas quanto do licenciamento de conteúdo para terceiros.

“Investimos bilhões de dólares apurando informações e na produção de notícias em nossas publicações. Não podemos permitir que OpenAI e Microsoft ampliem o manual de práticas das Big Tech de roubar nosso trabalho para construir seus próprios negócios às nossas custas”, declarou Frank Pine, editor executivo responsável pelos jornais da Alden Global Capital.

O processo se soma a uma crescente disputa sobre o uso de dados para alimentar a IA generativa. Informações online, incluindo posts de blogs, redes sociais, artigos da Wikipedia e outros dados, tornaram-se o combustível vital para essa indústria em ascensão.

Em dezembro do ano passado, o The New York Times também processou a OpenAI e a Microsoft por violação de direitos autorais e pediu uma indenização não revelada. “Estas ferramentas foram criadas e continuam utilizando jornalismo independente e conteúdo que estão disponíveis apenas porque nós e nossos colegas os produzimos, editamos e checamos com um alto custo e experiência considerável”, disse um porta-voz do jornal, na ocasião.

Fome de dados e práticas questionáveis

O apetite insaciável das inteligências artificiais por dados levou as gigantes da tecnologia a medidas extremas.

A OpenAI, enfrentando o esgotamento de dados de treinamento adequados, desenvolveu uma ferramenta de reconhecimento de fala chamada Whisper para transcrever grandes quantidades de texto de vídeos do YouTube. Essa medida potencialmente violou as regras do da plataforma de vídeo contra o uso de seu conteúdo para aplicativos “independentes”. Apesar das áreas cinzentas legais em potencial, a OpenAI acreditava que constituía uso justo e usou os dados transcritos para treinar seu modelo GPT-4, liderado pelo presidente da OpenAI, Greg Brockman.

Veja também:

O Google, ciente das ações da OpenAI, pode ter usado táticas semelhantes para coletar dados de vídeo do YouTube para seus modelos de IA, potencialmente infringindo direitos autorais. As mudanças mais amplas nos termos de serviço do Google também sugerem a intenção de aproveitar os dados de usuários do Google Docs e outros aplicativos para o desenvolvimento de IA, levantando preocupações de privacidade.

Ansiosa para competir com o ChatGPT da OpenAI, a Meta também cogitou táticas agressivas para acumular dados. As discussões internas incluíram a compra de editoras como Simon & Schuster e a indexação de conteúdo protegido por direitos autorais de toda a internet, mesmo antecipando possíveis processos judiciais. Essa abordagem reflete a imensa pressão para acompanhar o ritmo da corrida da IA.

IA treinando IA?

Com a previsão de que os dados de alta qualidade prontamente disponíveis na internet se esgote até 2026, as empresas de tecnologia estão explorando soluções alternativas. Uma abordagem são os dados “sintéticos”, onde os modelos de IA geram seus próprios dados de treinamento. Embora promissor, este método apresenta desafios como modelos presos em loops de feedback e reforço de seus próprios vieses.