Fotos de crianças brasileiras foram usadas para treinar IAs sem consentimento

Menina loira cobrindo o rosto com as mãos em um fundo preto — Unsplash/caleb_woods

Fotos de crianças brasileiras, capturando momentos de toda a sua infância, estão sendo usadas sem autorização para alimentar e treinar ferramentas de inteligência artificial (IA), incluindo geradores de imagens populares como o Stable Diffusion. Esse fato, divulgado pela Human Rights Watch (HRW), representa um risco urgente à privacidade das crianças, aumentando a possibilidade de imagens geradas sem consentimento contendo suas semelhanças.

Uma pesquisadora da HRW, Hye Jung Han, foi crucial para expor o problema. Ela analisou uma fração mínima do conjunto de dados LAION-5B, construído a partir de capturas da web pública pelo Common Crawl. Embora o conjunto não contenha as fotos reais, ele inclui pares de imagem e texto derivados de bilhões de imagens e legendas postadas online desde 2008. Entre essas imagens, Han encontrou 170 fotos de crianças de pelo menos 10 estados brasileiros, principalmente em blogs pessoais e de pais, além de frames de vídeos do YouTube com poucas visualizações.

A HRW alerta que o uso dessas imagens sem consentimento não só representa uma invasão de privacidade, mas também pode levar a graves consequências, como a criação de deepfakes. “Os riscos são ainda mais alarmantes quando consideramos que essas imagens podem ser usadas para gerar conteúdos explícitos e prejudiciais sem o conhecimento ou consentimento das crianças e suas famílias”, afirma Han.

A LAION, uma organização sem fins lucrativos alemã que criou o conjunto de dados, colaborou com a HRW para remover os links para as imagens das crianças. Contudo, isso não elimina as fotos da web pública, onde podem ser usadas em outros conjuntos de dados de IA.

De acordo com a análise da HRW, muitas das identidades das crianças brasileiras eram facilmente rastreáveis devido a informações como nomes e localizações incluídas nas legendas das imagens. Em um momento em que estudantes estão mais vulneráveis a ataques de bullying ou exploração, essas ferramentas de IA podem ser usadas para criar clones digitais de crianças com base nas imagens referenciadas nos conjuntos de dados. “As fotos analisadas abrangem toda a infância. Elas capturam momentos íntimos, como o nascimento de bebês, crianças pequenas apagando velas de aniversário e adolescentes posando para fotos no carnaval escolar”, destaca o relatório da HRW.

A HRW também destacou casos em que meninas no Brasil relataram assédio por colegas que utilizaram ferramentas de IA para criar deepfakes sexualmente explícitos baseados em suas fotos de perfis de redes sociais. Uma vez postados online, esses deepfakes podem causar danos duradouros, potencialmente permanecendo na internet por toda a vida.

Medidas e políticas de proteção

Há menos risco de que as fotos das crianças brasileiras estejam atualmente alimentando ferramentas de IA, já que todas as versões publicamente disponíveis do LAION-5B foram retiradas do ar em dezembro, de acordo com a LAION. Essa decisão foi tomada por “excesso de cautela” após um relatório da Universidade de Stanford encontrar links no conjunto de dados apontando para conteúdo ilegal na web pública, incluindo 3.226 casos suspeitos de material de abuso sexual infantil. O conjunto de dados não estará disponível novamente até que a LAION determine que todo o conteúdo ilegal tenha sido removido.

“LAION está atualmente trabalhando com a Internet Watch Foundation, o Canadian Centre for Child Protection, Stanford e Human Rights Watch para remover todas as referências conhecidas de conteúdo ilegal do LAION-5B. Somos gratos pelo apoio e esperamos republicar uma versão revisada do LAION-5B em breve”, disse um porta-voz da LAION em um comunicado.

A HRW ainda incitou o governo a adotar políticas urgentes para proteger os dados das crianças contra o uso indevido alimentado pela IA. “Crianças não deveriam viver com o medo de que suas fotos possam ser roubadas e usadas contra elas”, disse Han. “O governo deve adotar políticas urgentes para proteger os dados das crianças contra o uso indevido alimentado pela IA”.

Em abril, o Conselho Nacional dos Direitos da Criança e do Adolescente publicou uma resolução direcionando o Ministério dos Direitos Humanos e da Cidadania a desenvolver uma política nacional para proteger os direitos das crianças e adolescentes no ambiente digital, incluindo especificamente a IA.

Nos Estados Unidos, leis foram introduzidas no Congresso para prevenir a disseminação de deepfakes explícitos sem consentimento, mas a HRW recomenda que o Brasil vá além, proibindo completamente a inclusão de dados pessoais de crianças em sistemas de IA.

LIAON

Quando o LAION-5B foi introduzido, na segunda metade de 2022, ele foi descrito como uma tentativa de replicar o conjunto de dados da OpenAI e promovido como “o maior conjunto de dados de texto e imagem disponível livremente”. Com seu lançamento, pesquisadores de IA sem acesso aos conjuntos de dados proprietários de empresas privadas puderam experimentar mais livremente com IA.

Na época, pesquisadores da LAION lançaram um artigo que dizia que antecipavam “problemas potenciais decorrentes de um conjunto de dados não filtrado” e “introduziram uma marcação de conteúdo inapropriado aprimorada” para facilitar a identificação de conteúdo prejudicial e atualizar e melhorar o conjunto de dados.