goblins e a teoria do colapso dos modelos de linguagem
a IA reproduz versões empobrecidas de si mesmo num ouroboros que destrói a variação e riqueza de detalhes que ela mesmo depende para funcionar
Recentemente, algumas pessoas notaram que o ChatGPT passou a gostar muito de falar de goblins e outras criaturas mágicas em contextos onde o assunto simplesmente não tinha nada a ver. A própria OpenAI publicou uma investigação interna, em 29 de abril, documentando como os modelos da empresa desenvolveram essa compulsão por mencionar criaturas fantásticas – e como isso é evidência de um problema estrutural bem mais amplo.
O que chamou atenção não é a existência do viés em si, modelos de linguagem desenvolvem padrões estatísticos o tempo todo, como o uso de travessão ou estruturas de frases repetitivas. O problema era a persistência e amplificação desse viés ao longo de várias gerações de treinamento.
Resumindo a história, descobriram que um prompt de sistema que simulava uma personalidade nerd gerava umas respostas brincalhonas e o treinamento por reforço recompensava essas respostas com pontuações altas – não necessariamente pelo humor, mas também. Algumas dessas respostas continham cacoetes de linguagem como “goblin” e “gremlin” por causa da personalidade 🤓.
Por serem recompensadas, essas palavras apareciam com mais frequência nas saídas do modelo, que por sua vez eram reutilizadas como dados de treinamento até que o modelo internalizava o “vício de linguagem” e o reproduzia em qualquer contexto, com ou sem o prompt de nerd.
Só que esse fenômeno não acontece só num modelo ou produto isolado, isso afeta praticamente todos os produtos dos últimos anos. Esse ciclo de retroalimentação invariavelmente leva ao “colapso de modelos”, quando sistemas treinados recursivamente com suas próprias saídas vão ficando mais burros.
Funciona assim: os modelos se tornam amplamente usados, geram grandes volumes de texto e imagem que são publicados na internet em vídeos, textos de LinkedIn e essa quantidade absurda de conteúdo com cara de IA volta para o bancos de dados que os próximos modelos consultam para treinamento. E aí um modelo, que já tem viés, ao treinar sobre suas próprias saídas, adiciona mais viés em cima.
A cada iteração o sistema reproduz versões empobrecidas de si mesmo num ouroboros que destrói a variação e riqueza de detalhes informacional que ele mesmo depende para funcionar. A sensação de que um modelo piorou depois de atualizado vem do fato de que os modelos convergem para respostas cada vez mais homogêneas.
Se um viés tão caricato levou meses para ser rastreado, quantos vieses mais sutis em recomendações que orientam decisões reais permanecem indetectáveis nesses produtos que bilhões de pessoas usam diariamente? A resposta honesta é que nem quem criou sabe.
O mais engraçado é que existem iniciativas organizadas de resistência como Glaze, Nightshade e Poison Fountain que tentam sabotar o treinamento por meio do envenenamento de dados. Mas foram as contradições do modelo capitalista que conseguiram degradar a tecnologia antes mesmo de encontrar um modelo sustentável.




