CIÊNCIA & TECNOLOGIA

O que é o colapso dos modelos de IA, sobre o qual alertam pesquisadores

Pesquisadores da área de inteligência artificial têm levantado preocupações sobre um fenômeno chamado “colapso dos modelos de IA”, que pode comprometer a eficácia das futuras gerações dessas tecnologias. O termo se refere a um processo degenerativo que ocorre quando modelos de IA são treinados utilizando dados gerados por outros modelos de IA, em vez de dados originados por humanos.

Esse fenômeno é motivo de preocupação crescente na comunidade científica, especialmente à medida que cresce a quantidade de conteúdos gerados por IA na internet e a utilização desses materiais para “retroalimentar” o treinamento dos modelos.

Colapso dos modelos de IA

Em um artigo publicado na revista Nature no último mês de julho, os pesquisadores Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson e Yarin Gal mostram como os modelos de IA apresentam resultados piores quando são treinados em dados gerados artificialmente.

A principal preocupação dos pesquisadores é que o aumento do conteúdo gerado por IA na internet crie um ciclo de retroalimentação, onde novos modelos de IA são treinados em dados gerados por modelos anteriores.

De acordo com os autores, “o desenvolvimento de modelos de linguagem de larga escala (LLMs) requer grandes quantidades de dados de treinamento. No entanto, embora os LLMs atuais tenham sido treinados em texto predominantemente gerado por humanos, isso pode mudar. Se os dados de treinamento da maioria dos modelos futuros também forem extraídos da web, eles inevitavelmente treinarão em dados produzidos por seus predecessores”.

Pesquisadores alertam que o treinamento de IA com dados gerados por IA pode causar “colapso dos modelos”

O estudo mostra como essa prática pode resultar em uma perda progressiva de precisão e diversidade nos resultados dos modelos, em um processo que os cientistas chamam de “colapso dos modelos”.

Esse processo, conforme detalhado pelos autores, ocorre devido a três tipos de erros que se acumulam ao longo de gerações de modelos: erro de aproximação estatística, erro de expressividade funcional e erro de aproximação funcional.

Cada um desses erros contribui para a degradação gradual da qualidade dos modelos, que passam a reproduzir de forma imprecisa as informações originais, culminando no que os pesquisadores descrevem como uma “perda de informação” em estágios iniciais e uma “convergência que pouco se assemelha à original” em estágios mais avançados.

Regurgitação de dados no treinamento de IAs

A prática de treinar modelos de IA com dados gerados por outros modelos também é discutida em outro artigo científico: “Regurgitative Training” (ou “Treinamento Regurgitativo”, em tradução direta), de Jinghui Zhang, Dandan Qiao, Mochen Yang e Qiang Wei, também publicado em julho.

Nesse estudo, os autores exploram os efeitos do que chamam de “regurgitação de dados no treinamento de IAs” e concluem que esse processo resulta em uma perda de desempenho dos modelos.

Pesquisadores dizem que IAs treinadas com dados gerados por outros modelos apresentam queda de desempenho (Imagem: Reprodução/Freepik) — Pesquisadores dizem que IAs treinadas com dados gerados por outros modelos apresentam queda de desempenho

Segundo os pesquisadores, “o sucesso explosivo de LLMs, como ChatGPT e Llama, significa que uma quantidade substancial de conteúdo online será gerada por LLMs em vez de humanos, o que inevitavelmente entrará nos conjuntos de dados de treinamento de LLMs de próxima geração”.

O “treinamento regurgitado” é visto pelos autores como algo inevitável, devido à proliferação de conteúdo gerado por IA. “Há evidências que sugerem que uma grande parte da web já é gerada por modelos de tradução automática”, destaca a equipe no artigo.

Porém, os pesquisadores concluem em suas análises que “treinar um novo LLM usando dados gerados (menos que parcialmente) por ele mesmo ou por outros LLMs geralmente resulta em desempenho inferior em relação ao treinamento com dados reais”.

Fim dos dados gerados por humanos

Os dois artigos publicados em julho também se relacionam com outro ponto crítico sobre o treinamento de modelos de IA: a perspectiva de que os dados disponíveis gerados por humanos podem acabar em breve.

Com a popularização das soluções de inteligência artificial, a demanda por banco de dados de alta qualidade para treinar as IAs cresceu exponencialmente. Para obter esses dados, grandes empresas de tecnologia, como OpenAI, Meta e Google, realizam a chamada “raspagem” de conteúdos da web, coletando terabytes de dados para alimentar seus modelos.

Modelos podem ficar sem dados de qualidade produzidos por humanos na web a partir de 2026, alertam pesquisadores (Imagem: Kjpargeter/Freepik) — Modelos podem ficar sem dados de qualidade produzidos por humanos na web a partir de 2026, alertam pesquisadores

No entanto, um artigo publicado em 2023 alerta que o estoque de dados de texto gerados por humanos pode se esgotar até 2026, caso a velocidade da coleta de dados continue no ritmo atual.

Para chegar a essa conclusão, os autores de “Ficaremos sem dados? Limites da escalabilidade do LLM com base em dados gerados por humanos” desenvolveram um modelo preditivo sobre a demanda por dados e a produção humana de texto com disponibilidade pública na web.

“Nossa análise revela uma conjuntura crítica se aproximando até o final desta década, onde a dependência atual de dados de texto humano público para treinamento de LLMs pode se tornar insustentável”, conclui o time de pesquisadores.

Sem dados humanos de alta qualidade, os modelos de IA podem enfrentar um declínio acentuado em sua capacidade de aprendizado e apresentar uma queda de desempenho.

Com a perspectiva de que os futuros LLMs serão inevitavelmente treinados com dados gerados por IA, os pesquisadores temem um processo degenerativo que tornará as IAs cada vez mais “burras”, podendo levar ao colapso dos modelos de inteligência artificial.

INFORMA PARAÍBA

O que é o colapso dos modelos de IA, sobre o qual alertam pesquisadores

Colapso dos modelos de IA

Regurgitação de dados no treinamento de IAs

Fim dos dados gerados por humanos

You may like

Relógio

Instagram Portal Informa Paraíba

Grupo do Portal Informa Paraíba (Facebook)

TWITTER DO PORTAL INFORMA PARAÍBA

Página do Portal Informa Paraíba (Facebook)

Ator mais bem pago de Hollywood revela motivo para interpretar lenda do UFC em novo filme

Fórmula 1: Domenicali quer mais polêmicas para agitar a categoria

Surian quer reação do Treze na partida contra o América-RN

João Fonseca despacha jovem dinamarquês rumo à segunda rodada em Madrid

Lentes asféricas controlam miopia em crianças

Como a inteligência artificial pode auxiliar na sua vida financeira

Choques econômicos positivos podem contribuir para o aumento da criminalidade, aponta estudo

Demanda fraca e juros altos elevam preocupação da indústria no início de 2025

Nordeste tem maior número de municípios sem Planos Diretores de Drenagem e Manejo de Águas Pluviais

Intimar acusado em UTI, como no caso Bolsonaro, é caso único no mundo

Deputado do Parlamento Europeu propõe sanções contra Alexandre de Moraes por intimação a Bolsonaro na UTI

Bolsonaro intimado em UTI: Lei proíbe citação de doentes

Escândalo no INSS põe Lupi em situação de desconforto no governo

The Times noticia intimação de Bolsonaro em plena UTI e choca o mundo

Agenda de jogos internacional para hoje (25)

QUAL FENÔMENO GERA A ELETRICIDADE?

O QUE A CHINA RESTRINGIU COMO RETALIAÇÃO AOS EUA?

QUAL URUBU USA OLFATO?

QUE ÓLEO FOI ASSOCIADO AO CÂNCER?

QUAL ESCORPIÃO É MAIS PERIGOSO?

Diretor do Instituto Alpargatas celebra renovação de parcerias com a PMCG e destaca: “Temos na gestão de Bruno a efetividade de uma educação de qualidade”

Cagepa executa obra de melhoria no esgotamento sanitário do bairro do Roger

João Azevêdo celebra avanços da Paraíba na educação profissional e no ensino integral

Paraíba leva diversidade do interior à Femptur e reforça promoção turística no mercado regional

Encontro discute estratégias de captação de famílias para serviço de acolhimento de crianças e adolescentes

Governo da Paraíba e Capes investem em pesquisa de novos produtos de leite caprino com vegetais do Semiárido

Primeira-dama do Estado visita Associação Integrada Mães de Autistas e discussão ampliação de parcerias

Encontro Nacional de Gestores da Cultura é aberto em João Pessoa com a presença de quase duas mil pessoas de todo o Brasil

Relatório propõe desvinculação da perícia criminal das Polícias Civis

Novo projeto de Ruy vai beneficiar descontos ilegais nos benefícios de aposentados e pensionistas do INSS

ESA 2025: oportunidade de carreira no exército com 1.100 vagas

Prescrição intercorrente: a aplicação do Decreto nº 20.910 em Estados e Municípios

4 sinais que ela não te quer mais (e o que fazer para ter certeza)

Rússia ameaça atacar capitais europeias em retaliação

Sine-JP fecha o ano com oferta de 582 vagas de emprego

ROVER CHINÊS ENCONTRA VESTÍGIOS DE OCEANO EXTINTO EM MARTE

Juízes comemoram inclusão do Judiciário entre atividades de risco

ESCALA 6X1: DO TIKTOK AO CONGRESSO

CRIANDO LAGARTOS EXÓTICOS LEGALMENTE

COMO TRANSPLANTAR ORQUÍDEAS DO VASO PARA A ÁRVORE?

Viviane Pereira vence luta de estreia no último Pré-Olímpico de Boxe

Pessoas feias tendem a ser de esquerda, revela estudo

Paraíba gera mais de 2,7 mil empregos com carteira assinada em novembro

Estes são os países onde a Bíblia é proibida

CHICO BUARQUE: 80 ANOS DE CRIATIVIDADE

PIX TERÁ OPÇÃO DE PAGAMENTO POR APROXIMAÇÃO

AS 9 RARIDADES DO CERRADO

Policiais ganham direito após anos de luta: já é possível escolher outro estado para trabalhar

BRASILEIROS CRIAM VACINA CONTRA O CÂNCER DE PRÓSTATA

UTENSÍLIOS FEITOS DE PLÁSTICO PRETO PODEM TER SUBSTÂNCIAS CANCERÍGENAS

Prefeitura de Cabedelo efetua pagamento de salários do mês de maio nesta quarta-feira (29)

CELULAR PODE IMPACTAR EM ATÉ 40% NO DESEMPENHO ESCOLAR DAS CRIANÇAS

O FUTURO DA EDUCAÇÃO (PARTE I)

COMO FAZER PARA TRABALHAR NA ALEMANHA?

DIABETES: TUDO O QUE VOCÊ PRECISA SABER SOBRE A CONDIÇÃO

O FUTURO DA EDUCAÇÃO (PARTE II)

SISTEMA IMUNE, MAGIA DA NATUREZA

QUANDO SUSPEITAR DE UMA INSUFICIÊNCIA CARDÍACA?

‘IDIOMA QUE FALAMOS DETERMINA COMO PENSAMOS’

Manifestação em São Paulo Clama por Liberdade aos Presos Políticos e Impeachment de Alexandre de Moraes

QUAL FENÔMENO GERA A ELETRICIDADE?

O QUE A CHINA RESTRINGIU COMO RETALIAÇÃO AOS EUA?

QUAL URUBU USA OLFATO?

QUE ÓLEO FOI ASSOCIADO AO CÂNCER?

QUAL ESCORPIÃO É MAIS PERIGOSO?

QUANTOS PROFISSIONAIS O BRASIL PRECISA FORMAR ATÉ 2025?

ONDE ADQUIRIR ANIMAIS SILVESTRES LEGALMENTE?

O QUE A DESCOBERTA SUGERE SOBRE MARTE?

QUAL PAÍS É APONTADO COMO BENEFICIADO PELAS AÇÕES DE TRUMP?