Treinado com uma compreensão conjunta do comportamento de proteínas e celulares, o modelo pode ajudar a diagnosticar e desenvolver novos medicamentos.
Uma proteína localizada na parte errada de uma célula pode contribuir para várias doenças, como Alzheimer, fibrose cística e câncer. No entanto, em células humanas únicas, existem cerca de 000,3 variantes diferentes de proteínas e proteínas e, como os cientistas geralmente podem testar apenas para um punhado de testes, é muito caro e que consome tempo para detectar a localização da proteína manualmente.
Uma nova geração de técnicas de cálculo tenta facilitar o processo usando modelos de aprendizado de máquina, que geralmente ganham milhares de proteínas e seus locais medidos em várias linhas celulares. Um dos maiores conjuntos de dados deste nacional é o atlas de proteínas humanas, que cataloga mais de 13.000 proteínas em mais de 40.000 proteínas. No entanto, por mais que seja, o Atlas da Proteína Humana pesquisou cerca de 0,25 % de todas as linhas de proteínas e celulares apenas no banco de dados.
Agora, pesquisadores do MIT, Harvard e Broad Institute desenvolveram uma nova abordagem de contagem que pode explorar o restante do espaço ininterrupto com eficiência. Seu método pode prever a localização de qualquer proteína em qualquer linha celular humana, mesmo as proteínas e as células nunca foram testadas antes.
Sua estratégia está um passo à frente da abordagem baseada em IA, localizando uma proteína em um único nível de célula, em vez de uma estimativa média em todos os tipos de células. Por exemplo, a localização dessa célula única pode identificar a localização de uma proteína em uma certa célula cancerígena após o tratamento.
Os pesquisadores combinaram um modelo de linguagem de proteínas com um tipo especial de modelo de visão computacional para capturar os ricos detalhes sobre uma proteína e célula. No final, o usuário obtém uma imagem de uma célula com uma peça destacada que indica a previsão do modelo sobre onde a proteína está localizada. Como a localização de uma proteína é uma condição eficaz de suas condições funcionais, essa técnica pode ajudar pesquisadores e médicos diagnosticar ou detectar mais eficientemente as metas de medicamentos, além de permitir entender melhor como processos biológicos complexos estão relacionados à localização de proteínas dos biólogos.
“Você pode fazer esses testes de localização de proteínas no computador sem tocar em um banco de laboratório, esperançosamente se salvam por alguns meses. Você ainda precisa verificar a previsão, essa técnica pode funcionar como a triagem preliminar do que fazer experimentalmente”, disse o Programa de Biologia do MIT e o programa social de co-laid.
Tseo ingressou no artigo de engenharia elétrica e ciência da computação (EECs) e Eric e Wendy Shatter Center graduado Jinn Jang; Yunaho Bye do Broad Institute of MIT e Harvard; E o escritor sênior Fee Chen, professor assistente de Harvard e membro do Broad Institute, Andrew e Erna Viterby Professora Caroline Uhler e Instituto de Dados, Sistemas e IDSs, e diretora do Broad Institute, Diretor (Broad Institute) do Broad Institute (Broad Institute). O estudo está presente hoje NaturezaO
Modelo Associado
Muitos modelos de previsão de proteínas existentes podem simplesmente prever com base em dados de proteínas e celulares nos quais foram treinados ou não conseguirem identificar a localização de uma proteína em uma única célula.
Para superar essas limitações, os pesquisadores desenvolveram um método de duas partes para prever a prostituta das proteínas invisíveis, denominadas PIPs.
A primeira parte usa um modelo de sequência de proteínas com base na localização de uma proteína baseada na cadeia de aminoácidos e em sua estrutura 3D que a forma.
A segunda parte inclui um modelo de imagem, projetado para preencher as partes ausentes de uma imagem. Esse modelo de visão computacional mostra três imagens manchadas de uma célula para coletar informações sobre a condição dessa célula, como seu tipo, recursos distintos e se está sob pressão.
Os PETs ingressam nas apresentações feitas por cada modelo para prever onde a proteína está localizada em uma única célula, um destaque usando um decodificador de figura para produzir o que a posição prevista mostra.
“Células diferentes em uma linha celular mostram características diferentes e nosso modelo é capaz de entender essa infestação”, disse Tesio.
Um usuário insere a sequência de aminoácidos que forma a proteína e três manchas celulares – para um núcleo, para um microtúbulo e um retículo endoplasmático. Então os filhotes fazem o resto deles.
Um entendimento profundo
Durante o processo de treinamento, os pesquisadores nomearam várias estratégias durante o processo de treinamento para ensinar como combinar informações de cada modelo, para que pudesse fazer uma estimativa educada da posição da proteína, mesmo que não tenha visto a proteína antes.
Por exemplo, eles determinam o modelo uma tarefa secundária durante o treinamento: buggy de localização como o núcleo celular claramente nomeando. Isso é feito juntamente com a tarefa inicial da PANTS para ajudar o modelo a aprender com mais eficácia.
Uma boa analogia pode ser um professor que pede para escrever os nomes de seus alunos, além de desenhar todas as partes de uma flor. Esta etapa adicional foi encontrada para ajudar o modelo a melhorar o entendimento geral de potenciais buggies celulares.
Além disso, ao mesmo tempo treinado em proteínas e linhas celulares, é verdade que ajuda a desenvolver uma compreensão profunda de onde a localização da localização em uma proteínas de imagem celular.
O filhote até entende como diferentes partes de uma sequência de proteínas contribuem individualmente para sua localização geral.
“A maioria dos outros métodos geralmente precisa ter manchas de proteínas primeiro, então você já o viu em seus dados de treinamento que nosso é único em nossa abordagem que pode generalizar simultaneamente em todas as linhas de proteínas e celulares”, disse Jang.
Como as bonecas podem generalizar em proteínas invisíveis, ela pode capturar alterações na localização impulsionadas por mutações exclusivas de proteínas que não estão incluídas no atlas de proteínas humanas.
Os pesquisadores verificaram que os filhotes podem prever a nova posição de assinante de proteínas na linha celular invisível, realizando testes de laboratório e comparando os resultados. Além disso, quando comparado a um método de IA basal, o erro médio menos previsto é exibido em média ao longo de suas proteínas testadas.
No futuro, os pesquisadores desejam aprimorar os filhotes para que o modelo possa entender a interação proteína-proteína e pode prever a localização de várias proteínas em uma sala. A longo prazo, eles querem permitir que os filhotes prevejam os tecidos humanos vivos do que as células sânscritas.
Esta pesquisa foi financiada pelo Centro Eric e Wendy Shmidt do Broad Institute, Institutos Nacionais de Saúde, Fundação Nacional de Ciências, The Buros Welcome Fund, The Cerell Scholars Foundation, Harvard Stem Cell Institute, Merkin Institute, Office of Naval Research and Energy Department.


