Início Ciência e tecnologia Estudos mostram que o ChatGPT erra a ciência com mais frequência do...

Estudos mostram que o ChatGPT erra a ciência com mais frequência do que você pensa

1
0

O professor da Washington State University, Mesut Cisek, e sua equipe de pesquisa testaram repetidamente o ChatGPT com hipóteses retiradas de artigos científicos. O objetivo era que a IA pudesse determinar com precisão se cada afirmação era apoiada por pesquisas – em outras palavras, se era verdadeira ou falsa.

No geral, a equipe avaliou mais de 700 hipóteses e fez a mesma pergunta 10 vezes para cada uma, para medir a consistência.

Resultados de precisão e limites de desempenho de IA

Quando o teste foi administrado pela primeira vez em 2024, o ChatGPT acertou 76,5% das vezes. Num teste de acompanhamento em 2025, a precisão aumentou ligeiramente para 80%. No entanto, uma vez que os investigadores ajustaram a hipótese aleatória, os resultados pareceram muito menos impressionantes. A IA teve um desempenho cerca de 60% melhor que o acaso, um nível mais próximo de D do que a confiabilidade forte.

O sistema teve mais problemas para detectar declarações falsas, rotulando-as corretamente apenas 16,4% das vezes. Também mostrou inconsistências significativas. Mesmo recebendo exatamente a mesma solicitação 10 vezes, o ChatGPT produziu respostas consistentes em cerca de 73% das vezes.

Respostas inconsistentes aumentam a ansiedade

“Não estamos falando apenas de precisão, estamos falando de inconsistência, porque se você fizer a mesma pergunta repetidamente, terá respostas diferentes”, disse Cisek, professor associado do Departamento de Marketing e Negócios Internacionais do Carson College of Business da WSU e autor principal da nova publicação.

“Usamos 10 prompts com exatamente a mesma pergunta.

Fluência de IA vs. Compreensão Real

Resultados, publicados Avaliação de negócios da RutgersDestaque a importância de ter cautela ao confiar na IA para decisões importantes, especialmente aquelas que exigem raciocínio sutil ou complexo. Embora a IA generativa possa produzir uma linguagem suave e verossímil, ela ainda não demonstra o mesmo nível de compreensão conceitual.

De acordo com Cisek, estas descobertas sugerem que a inteligência artificial geral capaz de verdadeiramente “pensar” pode estar mais longe do que muitos esperam.

“As ferramentas atuais de IA não entendem o mundo da mesma forma que nós – elas não têm um ‘cérebro’”, disse Cisek. “Eles apenas memorizam e podem lhe dar algumas dicas, mas não entendem do que estão falando.”

Desenho e métodos do estudo

Cisek trabalhou com os co-autores Sevingul Ulu da Southern Illinois University, Ken Woosley da Rutgers University e Kate Karniuchina da Northeastern University.

A equipe utilizou 719 hipóteses de estudos científicos publicados em revistas de negócios desde 2021. Essas questões geralmente envolvem nuances, afetando o suporte de uma hipótese. Um simples julgamento de verdade ou falsidade requer um raciocínio cuidadoso para reduzir tal complexidade.

Os pesquisadores testaram a versão gratuita do ChatGPT-3.5 em 2024 e o ChatGPT-5 mini atualizado em 2025. No geral, o desempenho foi semelhante em ambas as versões. Após o ajuste para o acaso, que dá 50% de chance de uma resposta correta, o desempenho da IA ​​foi cerca de 60% maior que o acaso em ambos os anos.

Principais pontos fracos no raciocínio da IA

Os resultados indicam uma limitação fundamental dos sistemas de IA de modelos de linguagem grande. Embora possam produzir respostas fluentes e persuasivas, muitas vezes têm dificuldade em raciocinar através de questões complexas. Isto pode levar a respostas que parecem plausíveis, mas que na verdade estão erradas, diz Cisek.

Por que os especialistas são cautelosos com a IA

Com base nestas descobertas, os investigadores recomendam que os líderes empresariais examinem minuciosamente a informação gerada pela IA e abordem-na com ceticismo. Enfatizam a necessidade de formação para compreender melhor o que os sistemas de IA podem ou não fazer de forma eficaz.

Embora este estudo tenha se concentrado especificamente no ChatGPT, Cicek observou que testes semelhantes com outras ferramentas de IA produziram resultados comparáveis. O trabalho também se baseia em pesquisas anteriores que apontam para cautela em relação ao hype da IA. Uma pesquisa nacional de 2024 descobriu que os consumidores eram menos propensos a comprar produtos quando estes eram comercializados com foco na IA.

“Seja sempre cético”, disse ele. “Não sou contra a IA. Estou usando-a. Mas é preciso ter muito cuidado.”

Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui