Científicos del MIT obtuvieron mapa completo del genoma del SARS-CoV-2
COMPARTIR
TEMAS
Los investigadores del MIT han determinado el conjunto de genes codificadores de proteínas del virus y han analizado la probabilidad de nuevas mutaciones de ayudar al virus a adaptarse
A principios de 2020, unos meses después de que comenzara la pandemia Covid-19, los científicos pudieron secuenciar el genoma completo del virus que causa la infección, SARS-CoV-2. Si bien muchos de sus genes ya se conocían en ese momento, el complemento completo de genes que codifican proteínas estaba sin resolver.
Ahora, después de realizar un extenso estudio de genómica comparativa, los investigadores del MIT han generado lo que describen como la anotación genética más precisa y completa del genoma del SARS-CoV-2. En su estudio, que aparece hoy en Nature Communications , confirmaron varios genes que codifican proteínas y descubrieron que algunos otros que se habían sugerido como genes no codifican ninguna proteína.
"Pudimos utilizar este poderoso enfoque de genómica comparativa para firmas evolutivas para descubrir el verdadero contenido funcional de codificación de proteínas de este genoma enormemente importante", dice Manolis Kellis, autor principal del estudio y profesor de informática en el MIT. Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL), así como miembro del Broad Institute of MIT y Harvard.
El equipo de investigación también analizó casi 2.000 mutaciones que han surgido en diferentes aislados de SARS-CoV-2 desde que comenzó a infectar a los humanos, lo que les permitió evaluar la importancia que esas mutaciones pueden tener para cambiar la capacidad del virus para evadir el sistema inmunológico o volverse más infeccioso. .
Genómica comparada El genoma del SARS-CoV-2 consta de casi 30.000 bases de ARN. Los científicos han identificado varias regiones que se sabe que codifican genes que codifican proteínas, basándose en su similitud con los genes que codifican proteínas que se encuentran en virus relacionados. Se sospechaba que algunas otras regiones codificaban proteínas, pero no se habían clasificado definitivamente como genes codificadores de proteínas.
Para precisar qué partes del genoma del SARS-CoV-2 contienen realmente genes, los investigadores realizaron un tipo de estudio conocido como genómica comparativa, en el que comparan los genomas de virus similares. El virus SARS-CoV-2 pertenece a un subgénero de virus llamado Sarbecovirus, la mayoría de los cuales infectan a los murciélagos. Los investigadores realizaron su análisis sobre el SARS-CoV-2, el SARS-CoV (que causó el brote de SARS en 2003) y 42 cepas de sarbecovirus de murciélago.
Kellis ha desarrollado previamente técnicas computacionales para realizar este tipo de análisis, que su equipo también ha utilizado para comparar el genoma humano con genomas de otros mamíferos. Las técnicas se basan en analizar si determinadas bases de ADN o ARN se conservan entre especies y comparar sus patrones de evolución a lo largo del tiempo.
Usando estas técnicas, los investigadores confirmaron seis genes que codifican proteínas en el genoma del SARS-CoV-2, además de los cinco que están bien establecidos en todos los coronavirus. También determinaron que la región que codifica un gen llamado ORF3a también codifica un gen adicional, al que denominan ORF3c. El gen tiene bases de ARN que se superponen con ORF3a pero ocurren en un marco de lectura diferente. Este gen dentro de un gen es raro en genomas grandes, pero común en muchos virus, cuyos genomas están bajo presión selectiva para mantenerse compactos. El papel de este nuevo gen, así como de varios otros genes del SARS-CoV-2, aún no se conoce.
Los investigadores también demostraron que otras cinco regiones que se habían propuesto como posibles genes no codifican proteínas funcionales, y también descartaron la posibilidad de que todavía haya más genes codificadores de proteínas conservados por descubrir.
"Analizamos todo el genoma y estamos muy seguros de que no hay otros genes codificadores de proteínas conservados", dice Irwin Jungreis, autor principal del estudio y científico investigador de CSAIL. "Se necesitan estudios experimentales para descubrir las funciones de los genes no caracterizados, y al determinar cuáles son reales, permitimos que otros investigadores centren su atención en esos genes en lugar de dedicar su tiempo a algo que ni siquiera se traduce en proteínas. . "
Los investigadores también reconocieron que muchos artículos anteriores utilizaban no solo conjuntos de genes incorrectos, sino también, a veces, nombres de genes en conflicto. Para remediar la situación, reunieron a la comunidad del SARS-CoV-2 y presentaron un conjunto de recomendaciones para nombrar los genes del SARS-CoV-2, en un artículo separado publicado hace unas semanas en Virology.
Evolucion rapida En el nuevo estudio, los investigadores también analizaron más de 1.800 mutaciones que han surgido en el SARS-CoV-2 desde que se identificó por primera vez. Para cada gen, compararon qué tan rápido ha evolucionado ese gen en particular en el pasado con cuánto ha evolucionado desde que comenzó la pandemia actual.
Descubrieron que, en la mayoría de los casos, los genes que evolucionaron rápidamente durante largos períodos de tiempo antes de la pandemia actual han continuado haciéndolo, y los que tendían a evolucionar lentamente han mantenido esa tendencia. Sin embargo, los investigadores también identificaron excepciones a estos patrones, que pueden arrojar luz sobre cómo ha evolucionado el virus a medida que se ha adaptado a su nuevo huésped humano, dice Kellis.
En un ejemplo, los investigadores identificaron una región de la proteína de la nucleocápside, que rodea el material genético viral, que tenía muchas más mutaciones de las esperadas a partir de sus patrones de evolución históricos. Esta región proteica también se clasifica como diana de las células B humanas. Por lo tanto, las mutaciones en esa región pueden ayudar al virus a evadir el sistema inmunológico humano, dice Kellis.
"La región más acelerada en todo el genoma del SARS-CoV-2 se encuentra justo en el medio de esta proteína de la nucleocápside", dice. "Especulamos que aquellas variantes que no mutan esa región son reconocidas por el sistema inmunológico humano y eliminadas, mientras que aquellas variantes que acumulan mutaciones aleatoriamente en esa región son de hecho más capaces de evadir el sistema inmunológico humano y permanecer en circulación".
Los investigadores también analizaron mutaciones que han surgido en variantes preocupantes, como la cepa B.1.1.7 de Inglaterra, la cepa P.1 de Brasil y la cepa B.1.351 de Sudáfrica. Muchas de las mutaciones que hacen que esas variantes sean más peligrosas se encuentran en la proteína de pico y ayudan a que el virus se propague más rápido y evite el sistema inmunológico. Sin embargo, cada una de esas variantes también lleva otras mutaciones.
"Cada una de esas variantes tiene más de otras 20 mutaciones, y es importante saber cuáles de ellas probablemente estén haciendo algo y cuáles no", dice Jungreis. "Por lo tanto, usamos nuestra evidencia de genómica comparativa para obtener una suposición de primer paso sobre cuál de estos es probable que sea importante en función de cuáles estaban en posiciones conservadas".
Estos datos podrían ayudar a otros científicos a centrar su atención en las mutaciones que parecen tener más probabilidades de tener efectos significativos en la infectividad del virus, dicen los investigadores. Han hecho que el conjunto de genes anotado y sus clasificaciones de mutación estén disponibles en el Navegador de genomas de la Universidad de California en Santa Cruz para otros investigadores que deseen usarlo.
"Ahora podemos ir y estudiar realmente el contexto evolutivo de estas variantes y comprender cómo encaja la pandemia actual en esa historia más amplia", dice Kellis. "Para las cepas que tienen muchas mutaciones, podemos ver cuáles de estas mutaciones probablemente sean adaptaciones específicas del huésped, y qué mutaciones quizás no sean nada del otro mundo".