Doenças genéticas raras podem agora ser identificadas em pacientes, e mutações específicas de tumores identificadas – um marco tornado possível pela sequenciação de ADN, que transformou a investigação biomédica há décadas. Nos últimos anos, a introdução de novas tecnologias de sequenciamento (sequenciamento de próxima geração) gerou uma onda de sucesso. Entre 2020 e 2021, por exemplo, estes métodos permitiram a rápida descodificação e monitorização global do genoma do SARS-CoV-2.
Ao mesmo tempo, um número crescente de investigadores está a tornar os seus resultados de sequenciação acessíveis ao público. Isto levou a uma explosão de dados armazenados em grandes bases de dados, como o SRA americano (Sequence Read Archive) e o ENA europeu (European Nucleotide Archive). Juntos, estes arquivos contêm agora cerca de 100 petabytes de informação – aproximadamente o equivalente ao total de texto encontrado em toda a Internet, com um único petabyte equivalendo a um milhão de gigabytes.
Até agora, os cientistas biomédicos necessitavam de enormes recursos informáticos para pesquisar nestes vastos repositórios genéticos e compará-los com os seus próprios dados, tornando quase impossíveis pesquisas abrangentes. Pesquisadores da ETH Zurique desenvolveram agora uma maneira de superar essa limitação.
Pesquise o texto completo em vez de baixar todo o conjunto de dados
A equipe desenvolveu uma ferramenta chamada Metagraph, que agiliza e acelera drasticamente o processo. Em vez de baixar conjuntos de dados inteiros, o MetaGraph permite pesquisas diretas em dados brutos de DNA ou RNA – como usar um mecanismo de busca na Internet. Os cientistas simplesmente inserem uma sequência genética de interesse num campo de pesquisa e, dependendo da consulta, podem ver onde essa sequência aparece numa base de dados global, em segundos ou minutos.
“É uma espécie de Google para DNA”, explica o Prof. Gunnar Raats, cientista de dados do Departamento de Ciência da Computação da ETH Zurique. Anteriormente, os pesquisadores só podiam pesquisar metadados descritivos e depois tinham que baixar conjuntos de dados inteiros para acessar sequências brutas. Esse método era lento, imperfeito e caro.
O Metagraph também é notavelmente econômico, de acordo com os autores do estudo. Representar sequências biológicas disponíveis publicamente exigiria apenas alguns discos rígidos de computador e não custaria mais do que US$ 0,74 por megabase para consultas grandes.
Dado que o novo motor de busca de ADN é rápido e preciso, poderá acelerar significativamente a investigação – especialmente na identificação de agentes patogénicos emergentes ou na análise de factores genéticos associados à resistência aos antibióticos. O sistema pode até ajudar a identificar vírus benéficos que destroem bactérias nocivas (bacteriófagos) escondidas neste enorme banco de dados.
Encolhimento por um fator de 300
Em sua pesquisa publicada em 8 de outubro, o Dr. a naturezaA equipe da ETH demonstrou como funciona o MetaGraph. A ferramenta organiza e compacta dados genéticos usando gráficos matemáticos avançados que estruturam as informações de forma mais eficiente, da mesma forma que um software de planilha organiza valores. “Matematicamente falando, é uma matriz enorme com milhões de colunas e trilhões de linhas”, explica Rätsch.
A indexação para tornar pesquisáveis grandes conjuntos de dados é um conceito familiar na ciência da computação, mas o método ETH se destaca pela forma como combina dados brutos com metadados, ao mesmo tempo em que atinge uma taxa de compactação notável de quase 300 vezes. Esta redução funciona como o resumo de um livro – ela captura todas as informações relevantes em um formato muito menor, eliminando redundância e preservando descrições e relacionamentos essenciais.
“Estamos ultrapassando os limites do possível para manter os conjuntos de dados tão compactos quanto possível sem perder informações essenciais”, disse o Dr. Andre Kahles, que, como Rätsch, é membro do Grupo de Informática Biomédica da ETH Zurique. Ao contrário de outras máscaras de detecção de DNA atualmente em pesquisa, o método dos pesquisadores da ETH é escalonável. Isso significa que quanto maior a quantidade de dados a serem pesquisados, menos poder computacional adicional a ferramenta necessita.
Metade dos dados já está disponível
Introduzido pela primeira vez em 2020, o Metagraph tem sido continuamente refinado. A ferramenta agora está acessível publicamente para pesquisa (https://metagraph.ethz.ch/search) e já indexa milhões de sequências de DNA, RNA e proteínas de vírus, bactérias, fungos, plantas, animais e humanos. Atualmente, cerca de metade de todos os conjuntos de dados de sequências globais disponíveis foram incluídos, com o restante previsto para o final do ano. Como o MetaGraph é de código aberto, ele também pode atrair o interesse de empresas farmacêuticas que lidam com grandes quantidades de dados de pesquisas internas.
Kahles ainda acredita que é possível que o mecanismo de busca de DNA um dia seja usado por particulares: “No início, nem mesmo o Google sabia exatamente para que servia um mecanismo de busca. Se o sequenciamento de DNA continuar a se desenvolver rapidamente, identificar plantas na sua varanda com mais precisão pode se tornar comum”.



