- Um novo estudo mostra que os sistemas de inteligência artificial utilizados para diagnosticar o cancro a partir de lâminas patológicas não funcionam igualmente bem para todos os pacientes, com precisão variando entre diferentes grupos populacionais.
- Os pesquisadores identificaram três fatores-chave por trás desse viés e desenvolveram um novo método que reduziu significativamente essas diferenças.
- As descobertas sublinham a razão pela qual a IA médica deve ser avaliada rotineiramente quanto a preconceitos, para ajudar a garantir cuidados de cancro justos e fiáveis para todos.
Fundamentos de Patologia e Diagnóstico de Câncer
Durante décadas, a patologia tem sido essencial para a forma como os médicos diagnosticam e tratam o câncer. Um patologista estuda um pedaço extremamente fino de tecido humano ao microscópio, procurando sinais visuais que revelem se o câncer está presente e, em caso afirmativo, que tipo e estágio atingiu.
Para um especialista treinado, examinar uma amostra de tecido rosado e rodopiante pontilhado de células roxas é como classificar um teste sem nome – a lâmina contém informações importantes sobre a doença, mas não dá pistas sobre quem é o paciente.
Quando a IA vê mais do que o esperado
Esta suposição não se aplica totalmente aos sistemas de inteligência artificial que agora entram nos laboratórios de patologia. Um novo estudo liderado por pesquisadores da Harvard Medical School mostra que os modelos patológicos de IA podem inferir detalhes populacionais diretamente de lâminas de tecidos. Esta capacidade imprevisível pode introduzir viés no diagnóstico do câncer em diferentes grupos de pacientes.
Depois de avaliar vários modelos de IA amplamente utilizados, concebidos para detectar o cancro, os investigadores descobriram que estes sistemas não funcionam igualmente bem para todos os pacientes. A precisão do diagnóstico varia com base na raça, sexo e idade autorreferidos pelos pacientes. A equipe também descobriu vários motivos pelos quais essa disparidade ocorre.
Para resolver o problema, os pesquisadores desenvolveram um framework chamado FAIR-Path, que reduziu significativamente o viés nos modelos testados.
“Ler uma população a partir de um slide de patologia é considerado uma ‘missão impossível’ para um patologista humano, então o preconceito na IA patológica foi uma surpresa para nós”, disse o autor sênior Kun-Hsing Yu, professor associado de informática biomédica no Instituto Blavatnik e professor assistente no Hospital HMS e no Hospital Brigham.
Yu enfatizou que reconhecer e corrigir preconceitos na IA médica é importante, pois pode afetar diretamente a precisão do diagnóstico e os resultados dos pacientes. O sucesso do FAIR-Path sugere que melhorar a justiça na IA da patologia do cancro, e talvez outras ferramentas de IA médica, pode não exigir grandes mudanças nos sistemas existentes.
O trabalho, que foi apoiado em parte por financiamento federal, é descrito no Cell Reports Medicine de 16 de dezembro.
Examinando a IA do Câncer
Yu e seus colegas examinaram o viés em quatro modelos de IA de patologia comumente usados atualmente em desenvolvimento para diagnóstico de câncer. Esses sistemas de aprendizagem profunda foram treinados em grandes coleções de lâminas patológicas rotuladas, permitindo-lhes aprender padrões biológicos e aplicar esse conhecimento a novas amostras.
A equipe avaliou os modelos usando um grande conjunto de dados multiinstitucional que incluía lâminas patológicas de 20 tipos diferentes de câncer.
Nos quatro modelos, as lacunas de desempenho surgiram de forma consistente. Os sistemas de IA foram menos precisos para determinados grupos demográficos definidos por raça, sexo e idade. Por exemplo, os modelos tiveram dificuldade em distinguir os subtipos de cancro do pulmão entre pacientes afro-americanos e pacientes do sexo masculino. Eles também mostraram menor precisão na classificação dos subtipos de câncer de mama em pacientes mais jovens. Além disso, os modelos tiveram dificuldade em detectar câncer de mama, renal, tireoide e estômago em alguns grupos populacionais. No geral, estas disparidades apareceram em cerca de 29 por cento das tarefas de diagnóstico analisadas.
De acordo com Yu, estes erros ocorrem porque os sistemas de IA extraem informações demográficas de imagens de tecidos – e depois dependem de padrões associados a essa população ao tomar decisões de diagnóstico.
Os resultados foram inesperados. “Porque esperaríamos que a avaliação patológica fosse objetiva”, disse Yu. “Ao avaliar as imagens, não precisamos necessariamente conhecer a população de pacientes para fazer o diagnóstico”.
Isso levou os pesquisadores a fazer uma pergunta-chave: por que a IA patológica não conseguiu atender aos mesmos padrões de objetividade?
Por que a patologia de preconceito aparece na IA
A equipe identificou três principais contribuintes para o preconceito.
Primeiro, os dados de treinamento costumam ser desiguais. Amostras de tecidos são mais fáceis de obter de alguns grupos demográficos do que de outros, resultando em conjuntos de dados desequilibrados. Isto torna difícil para os modelos de IA diagnosticarem o cancro em grupos sub-representados, incluindo algumas populações definidas por raça, idade ou género.
No entanto, Yu observou que “o problema acaba sendo muito mais profundo do que isso”. Em vários casos, os modelos tiveram um desempenho insatisfatório para determinados grupos populacionais, mesmo quando os tamanhos das amostras eram iguais.
Análises adicionais indicaram diferenças na incidência da doença. Alguns cancros ocorrem com mais frequência em determinadas populações, permitindo que os modelos de IA sejam particularmente precisos para esses grupos. Como resultado, os mesmos modelos podem ter dificuldade em diagnosticar cancros em populações onde estas doenças são menos comuns.
Os pesquisadores também descobriram que os modelos de IA podem detectar diferenças moleculares sutis em grupos populacionais. Por exemplo, os sistemas podem identificar mutações em genes causadores de cancro e usá-los como atalhos para classificar tipos de cancro – o que pode reduzir a precisão em populações onde estas mutações são menos comuns.
“Descobrimos que a IA é tão poderosa que pode distinguir muitos sinais biológicos obscuros que não podem ser detectados pela avaliação humana padrão”, disse Yu.
Com o tempo, isto pode fazer com que os modelos de IA se concentrem em sinais mais intimamente ligados à população do que à doença, prejudicando a eficácia do diagnóstico em diferentes grupos de pacientes.
Tomados em conjunto, disse Yu, esses resultados mostram que os vieses na IA patológica são afetados não apenas pela qualidade e equilíbrio dos dados de treinamento, mas também pelos modelos treinados para interpretar o que veem.
Um novo método para reduzir preconceitos
Depois de identificar as fontes de preconceito, os pesquisadores decidiram corrigi-las.
Eles desenvolveram o FAIR-Path, uma estrutura baseada em um método existente de aprendizado de máquina conhecido como aprendizado contrastivo. Esta abordagem modifica o treino de IA para que os modelos se concentrem mais fortemente em diferenças complexas, tais como diferenças entre tipos de cancro, ao mesmo tempo que reduz a atenção a diferenças menos relevantes, incluindo características demográficas.
Quando o caminho FAIR é aplicado aos modelos testados, a discriminação diagnóstica é reduzida em cerca de 88 por cento.
“Mostramos que, ao fazer esses pequenos ajustes, os modelos podem aprender características robustas que os tornam mais generalizáveis e justos em diferentes populações”, disse Yu.
O resultado é encorajador, acrescentou ele, porque sugere que uma redução significativa do viés é possível sem um conjunto de dados de treinamento perfeitamente equilibrado ou totalmente representativo.
Olhando para o futuro, Yu e sua equipe estão trabalhando com instituições em todo o mundo para estudar o viés patológico da IA em regiões com diferentes populações, práticas clínicas e ambientes laboratoriais. Estão também a explorar a forma como o caminho FAIR pode ser adaptado a situações com dados limitados. Outra área de interesse é compreender como o preconceito impulsionado pela IA contribui para maiores disparidades nos cuidados de saúde e nos resultados dos pacientes.
Em última análise, disse Yu, o objetivo é criar sistemas de IA patológica que auxiliem especialistas humanos, fazendo diagnósticos rápidos, precisos e justos para todos os pacientes.
“Acho que há esperança de que, se formos mais conscientes e cuidadosos sobre como projetamos sistemas de IA, possamos criar modelos que possam funcionar bem em todas as populações”, disse ele.
Autoria, Financiamento, Divulgação
Autores adicionais do estudo incluem Shih-Yen Lin, Pei-Chen Tsai, Fung-Ye Su, Chun-Yen Chen, Fuchen Li, Junhan Zhao, Yuk Yung Ho, Sung-Lu Michael Lee, Elizabeth Healy, Po-Jen Lin, Ting-Wan Kao, Dmytro Vremenko, Rosen Thoma, Schoen, Rose, Deborah Dillon, Nancy Yu. Lynn, David Meredith, Keith L. Ligon, Ying-Chun Low, Nippon Chaisuria, David J. Cook, Adelheid Wohrer, Jeffrey Meyerhardt, Shuji Ogino, McLean P. Nasrallah, Jeffrey A. Golden, Sabina Signoresi e Chiying Signoresi.
Financiado pelo Instituto Nacional de Ciências Médicas Gerais e pelo Instituto Nacional do Coração, Pulmão e Sangue dos Institutos Nacionais de Saúde (Concessões R35GM142879, R01HL174679), Departamento de Defesa (Prêmio de Desenvolvimento de Carreira do Programa de Pesquisa do Câncer da Sociedade Americana para Pesquisa do Câncer Revisado por Pares HT9425-231). RSG-24-1253761-01-ESED), um Google Research Scholar Award, um prêmio de inovação do reitor da Harvard Medical School, Conselho Nacional de Ciência e Tecnologia de Taiwan (NSTC concede 113-2917-I-006-009, 112-2634-F-006-, NSTC 113-2321-B-006-023, 114-2917-I-006-016) e uma bolsa de doutorado da Jin Miao Education Foundation.
foi consultor da Ligon Travera, Bristol Myers Squibb, Servier, IntegraGen, LEK Consulting e Blaze Bioscience; recebeu capital da Travera; e conta com financiamento de pesquisa da Bristol Myers Squibb e Lilly. Vremenko é cofundador e acionista da Vectorly.
Os autores prepararam o manuscrito inicial e usaram o ChatGPT para editar seções selecionadas para melhorar a legibilidade. Após utilizar esta ferramenta, os autores revisam e editam o conteúdo solicitado e assumem total responsabilidade pelo conteúdo do artigo publicado.



