Início Ciência e tecnologia O estudo mostra que os modelos de linguagem da visão não podem...

O estudo mostra que os modelos de linguagem da visão não podem lidar com perguntas com palavras de negligência

38
0

Verifique o raio-x do baú de um novo paciente para um radiologista. Ele percebeu que o tecido do paciente tem inchaço, mas não há coração estendido. Para aumentar o diagnóstico, ele pode usar um modelo de aprendizado de máquina em linguagem de visão para procurar relatórios de pacientes semelhantes.

No entanto, se o modelo detectar relatórios com ambos os termos incorretamente, é provável que o paciente seja tecido e o coração estendido provavelmente esteja relacionado ao cardíaco, mas pode haver várias causas subjacentes sem nenhum coração estendido.

Em um novo estudo, os pesquisadores do MIT descobriram que os modelos de linguagem da visão provavelmente cometem esses erros nas circunstâncias do mundo real porque não entendem negligência-“não” e “tais palavras falsas ou desaparecidas.

“Essas palavras de negligência podem ter um efeito muito importante e, se usarmos esses modelos apenas cegamente, podemos ler nas consequências catastróficas”, disse um graduado do MIT neste estudo e Kumail Alhamud, o principal autor deste estudo.

Os pesquisadores testaram as habilidades dos modelos de linguagem da visão para detectar negligência nas legendas da imagem. Os modelos geralmente são realizados além de uma suposição aleatória. Com base nessas pesquisas, a equipe criou um conjunto de dados de imagens com a legenda em questão, para que os objetos ausentes descrevam as palavras negligenciadas que descrevem os objetos ausentes.

Eles mostram que o treinamento novamente um modelo de linguagem de visão com esse conjunto de dados quando um modelo não possui algumas imagens solicitadas a recuperar as imagens que não possuem objetos que levam a melhorar o desempenho. Aumenta a precisão ao responder a perguntas de múltipla escolha com legendas negligenciadas.

No entanto, os pesquisadores alertaram que mais trabalho precisa ser feito para resolver as causas raiz desse problema. Eles esperam que suas pesquisas alertam de usuários em potencial não para a escassez do olho anterior que pode ter um impacto sério nas configurações de alto nível de STEAC, onde esses modelos estão sendo usados ​​atualmente, determinados que qualquer paciente recebe tratamento específico para detectar a detecção de produtos em plantas de plantio.

“Este é um artigo técnico, mas há problemas ainda maiores a serem considerados. Se algo básico é quebrado como negligência, a maneira como estamos usando -os agora não deve ser usada de várias maneiras, grandes modelos de visão/idioma – sem avaliação intensiva”, Professor Associado (ECS) do Departamento de Engenharia Elétrica e Ciência da Computação (ECS) e membro do Departamento Médico do Departamento Médico.

Os estudantes de pós -graduação de Gasemi e Alhamud MIT se juntaram ao jornal de Shaden Alasammi; Tian, ​​jovem de Opina; Ex -postdok Guha da Universidade de Oxford; Philip Hs Tor, professor de Oxford; E o professor assistente da EECS Yun Kim e membros do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) no MIT. A pesquisa será apresentada em uma conferência sobre visão computacional e reconhecimento de padrões.

Negligência

Os modelos de linguagem da visão (VLM) são treinados usando grandes coleções e legendas relacionadas, que aprendem a codificar como um conjunto de números conhecidos como apresentação do vetor. Os modelos usam esses vetores para distinguir entre imagens diferentes.

Um VLM usa dois codificadores separados, para um texto e para uma imagem e codificadores aprenderam a produzir vetores semelhantes para qualquer imagem e legenda de texto relacionada.

“As legendas revelam o que está nas imagens – elas são um rótulo positivo e, na verdade, é todo o problema que se não olha para a imagem de um cachorro e nenhum helicóptero pula sobre uma cerca”, diz “Ghasemi”.

Como os conjuntos de dados de captura de imagem não têm exemplos de negligência, os VLMs nunca aprendem a identificá-lo.

Para aprofundar esse problema, os pesquisadores projetaram duas tarefas de referência que examinam a capacidade de entender a negligência do VLM.

Para o primeiro, eles usaram um modelo de idioma grande (LLM) para re -recorrer em um conjunto de dados existente pensando sobre os problemas relacionados relacionados ao LLM em uma imagem. Em seguida, eles testaram os modelos solicitando suas palavras negligentes para recuperar as imagens que contêm os objetos específicos dos modelos, mas não outros.

Para o segundo trabalho, eles projetaram perguntas de múltipla escolha que solicitam a legenda mais adequada a partir de uma lista de opções próximas relacionadas. Essas legendas simplesmente separadas adicionando uma referência a um objeto que não aparece na imagem ou ignoram qualquer objeto exibido na imagem.

Os modelos geralmente falham nas duas atividades, o desempenho da recuperação da imagem é reduzido em cerca de 25 % com legendas negligentes. Quando se trata de responder a várias perguntas favoritas, os melhores modelos alcançaram cerca de 39 % de precisão, vários modelos realizam oportunidades aleatórias ou abaixo.

Uma das razões para essa falha é um atalho que os pesquisadores confirmam que a chamada é viés – os VLMs ignoram as palavras negligenciam e, em vez disso, se concentram em objetos de imagens.

“Isso não acontece apenas para palavras como ‘não’ e ‘não’. Independentemente da negligência ou exclusão que você expressa, os modelos só o ignoram”, diz Alhamud.

Foi compatível em cada VLM testá -lo.

“Um problema resolvido”

Como os VLMs geralmente não são treinados nas legendas da imagem com negligência, os pesquisadores desenvolveram conjuntos de dados com palavras de negligência como o primeiro passo para resolver o problema.

Usando um conjunto de dados com 10 milhões de pares de legendas de texto de imagem, eles prometem oferecer legendas relacionadas à LLMK que especificam o que é excluído das imagens, fornecem novas legendas com palavras de negligência.

Eles tinham que ser particularmente cuidadosos para que essas legendas sintéticas ainda fossem lidas naturalmente, ou se enfrentassem uma legenda mais complexa de seres humanos, poderia falhar um VLM para falhar no mundo real.

Eles descobriram que o Finitooning VLMS com seu conjunto de dados leva a performances no quadro. Ele melhora as habilidades de recuperação de imagens dos modelos cerca de 10 %, bem como a eficácia de responder a perguntas múltiplas aumenta o desempenho em cerca de 30 %.

“Mas nossa solução não é perfeita nós

Ao mesmo tempo, ele espera que o trabalho deles seja resolver mais usuários para resolver o problema que desejam usar e incentivá -los a projetar alguns exemplos para testá -lo antes de implantá -lo.

No futuro, os pesquisadores podem expandir essa tarefa ensinando VLM a processar texto e imagens separadamente, o que pode melhorar sua negligência. Além disso, eles podem desenvolver conjuntos de dados adicionais que incluem pares de capturas de imagem para aplicativos específicos, como assistência médica.

Source link