Início Desporto Especialistas chocados prevêem que a IA “a um ano de saber mais...

Especialistas chocados prevêem que a IA “a um ano de saber mais do que todos os especialistas humanos”

2
0

A IA estará pronta para obter nota máxima em um dos testes de conhecimento mais desafiadores do mundo, conhecido como Último Exame da Humanidade (HLE), dentro de meses, afirmam os desenvolvedores.

O HLE foi criado por chefes de tecnologia para ver o quão inteligentes são seus sistemas e consiste em 2.500 questões cuidadosamente escolhidas, abrangendo quase uma centena de assuntos, desde ciência de foguetes e mitologia até fisiologia.

Todos precisam de pelo menos um nível de conhecimento de doutorado e alcançar uma pontuação próxima de 100 por cento dará ao indivíduo o título de ‘especialista geral’.

Apenas dois anos atrás, o elogiado sistema ChatGPT da OpenAI obteve 3% no teste, e os rivais Google e Anthropic não se saíram muito melhor.

O teste serviu para acalmar os receios sobre o crescente domínio da IA, com os investigadores a afirmarem que continua a existir “uma lacuna acentuada” entre os grandes modelos de linguagem (LLMs) e os melhores académicos do mundo.

Mas o aparentemente impossível HLE pode ser outro marco na ascensão imparável da IA.

O Google Gemini obteve impressionantes 45,9% em testes no mês passado, abaixo dos 18,8% alguns meses após sua primeira tentativa.

E a nota máxima está no horizonte, de acordo com Calvin Zhang, chefe de pesquisa da Scale, a empresa de IA por trás da HLE.

AI, um dos testes de conhecimento mais desafiadores do mundo, denominado Humanity's Last Exam (HLE), estará pronto para receber nota máxima em alguns meses, afirmam os desenvolvedores (Foto de estoque)

AI, um dos testes de conhecimento mais desafiadores do mundo, denominado Humanity’s Last Exam (HLE), estará pronto para receber nota máxima em alguns meses, afirmam os desenvolvedores (Foto de estoque)

“Queríamos criar estes referenciais académicos fechados, estabelecidos nos limites de pessoas especializadas, que apenas algumas pessoas no mundo pudessem realmente resolver”, disse ele.

‘Temos visto avanços insanos nesses modelos de linguagem nos últimos anos. É impressionante, os criadores do modelo fizeram realmente um excelente trabalho no desenvolvimento deste modelo lógico.’

Kate Olszewska, gerente de produto do Google DeepMind, acrescentou: “Se realmente nos importarmos com isso como a única coisa na vida, acho que poderemos chegar lá muito rapidamente”.

A Anthropic – a empresa por trás do sistema Cloud AI – obteve 34,2% no HLE e está melhorando suas notas em um ritmo rápido.

Retornar uma pontuação de 100 por cento no teste de IA seria um desenvolvimento significativo, já que o teste foi “projetado para ser a referência acadêmica fechada definitiva de seu tipo”, de acordo com seus autores.

Isso significa que se a tecnologia quebrar o HLE, experimentos futuros precisarão ser feitos em questões para as quais nenhum ser humano sabe as respostas.

O teste foi desenvolvido por pesquisadores da Scale e do Center for AI Safety, uma organização sem fins lucrativos, para testar tanto a amplitude do conhecimento da IA ​​quanto a profundidade do seu raciocínio.

Especialistas de cerca de 50 países submeteram 70.000 perguntas para consideração em Setembro de 2024, em resposta a um apelo global que oferecia um prémio de 500.000 dólares.

Eles precisavam de uma resposta curta e inequívoca e isso era difícil de encontrar na internet.

A lista foi reduzida para 13.000 depois que as perguntas puderam ser respondidas por qualquer modelo existente.

Alguns dos 2.500 selecionados foram removidos ou editados após feedback dos usuários

Exigem uma vasta gama de competências – desde conhecimentos de biologia a competências linguísticas – e um grande número delas permanece secreta para encerrar sistemas que beneficiam de serem discutidos publicamente online.

O sucesso na HLE evocará memórias do supercomputador Deep Blue da IBM derrotando o campeão mundial de xadrez Garry Kasparov em uma partida em 1997, confundindo as previsões da maioria dos especialistas.

Desde então, uma série de benchmarks importantes de IA foram aprovados, incluindo o multidisciplinar Massive Multitask Language Understanding lançado em 2020, que muitas vezes pontua acima de 90 por cento, depois que os sistemas começaram a considerá-lo muito fácil.

À medida que a IA atinge o ponto em que pode se destacar em experimentos feitos por humanos, a expansão além dos limites existentes da cognição humana tornou-se cada vez mais um foco principal para os desenvolvedores, acrescentou Olszewska.

Mas, de acordo com Zhang, sempre haverá espaço para a experiência humana em áreas físicas como a cirurgia, bem como para habilidades baseadas em decisões, incluindo julgamento e criatividade, que são mais difíceis de serem dominadas pela IA.

Source link

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui