¿Puede una IA predecir el lenguaje de la mutación viral?

Los virus conducen a existencia bastante repetitiva. Entran en una celda, secuestran su maquinaria para convertirla en una fotocopiadora viral, y esas copias se dirigen a otras celdas armadas con instrucciones para hacer lo mismo. Así va, una y otra vez. Pero con cierta frecuencia, en medio de este repetido copiar y pegar, las cosas se confunden. Surgen mutaciones en las copias. A veces, una mutación significa que no se produce un aminoácido y que una proteína vital no se pliega, por lo que la versión viral va al cubo de basura de la historia evolutiva. A veces, la mutación no hace nada en absoluto, porque diferentes secuencias que codifican las mismas proteínas compensan el error. Pero de vez en cuando, las mutaciones van perfectamente bien. Los cambios no afectan la capacidad del virus para existir; en cambio, producen un cambio útil, como hacer que el virus sea irreconocible para las defensas inmunológicas de una persona. Cuando eso permite que el virus evite los anticuerpos generados a partir de infecciones pasadas o de una vacuna, se dice que esa variante mutante del virus ha “escapado”.

Los científicos siempre están atentos a las señales de un posible escape. Eso es cierto para el SARS-CoV-2, a medida que surgen nuevas cepas y los científicos investigan qué podrían significar los cambios genéticos para una vacuna de larga duración. (Hasta ahora, las cosas se ven bien). También es lo que confunde a los investigadores que estudian la influenza y el VIH, que habitualmente evaden nuestras defensas inmunológicas. Entonces, en un esfuerzo por ver lo que posiblemente vendrá, los investigadores crean mutantes hipotéticos en el laboratorio y ven si pueden evadir los anticuerpos tomados de pacientes recientes o receptores de vacunas. Pero el código genético ofrece demasiadas posibilidades de probar cada rama evolutiva que el virus podría tomar con el tiempo. Es cuestión de mantenerse al día.

El invierno pasado, Brian Hie, biólogo computacional del MIT y fanático de la poesía lírica de John Donne, estaba pensando en este problema cuando se topó con una analogía: ¿Qué pasaría si pensáramos en secuencias virales como pensamos en el lenguaje escrito? Cada secuencia viral tiene una especie de gramática, razonó: un conjunto de reglas que debe seguir para ser ese virus en particular. Cuando las mutaciones violan esa gramática, el virus llega a un callejón sin salida evolutivo. En términos de virología, carece de “aptitud”. También como el lenguaje, desde la perspectiva del sistema inmunológico, también se podría decir que la secuencia tiene una especie de semántica. Hay algunas secuencias que el sistema inmunológico puede interpretar y, por lo tanto, detener el virus con anticuerpos y otras defensas, y otras que no puede. Entonces, un escape viral podría verse como un cambio que preserva la gramática de la secuencia pero cambia su significado.

La analogía tenía una elegancia simple, casi demasiado simple. Pero para Hie, también era práctico. En los últimos años, los sistemas de inteligencia artificial se han vuelto muy buenos para modelar principios de gramática y semántica en el lenguaje humano. Lo hacen entrenando un sistema con conjuntos de datos de miles de millones de palabras, organizadas en oraciones y párrafos, de las cuales el sistema deriva patrones. De esta manera, sin que se le indique ninguna regla específica, el sistema aprende dónde deben ir las comas y cómo estructurar una cláusula. También se puede decir que intuye el significado de ciertas secuencias —palabras y frases— basándose en los muchos contextos en los que aparecen a lo largo del conjunto de datos. Son patrones, todo el camino hacia abajo. Así es como los modelos de lenguaje más avanzados, como el GPT-3 de OpenAI, puede aprender a producir una prosa perfectamente gramatical que se las arregle para mantenerse razonablemente en el tema.

Una ventaja de esta idea es que se puede generalizar. Para un modelo de aprendizaje automático, una secuencia es una secuencia, ya sea que esté organizada en sonetos o aminoácidos. Según Jeremy Howard, investigador de inteligencia artificial en la Universidad de San Francisco y experto en modelos de lenguaje, la aplicación de dichos modelos a secuencias biológicas puede ser fructífera. Con suficientes datos de, digamos, secuencias genéticas de virus que se sabe que son infecciosos, el modelo aprenderá implícitamente algo sobre cómo se estructuran los virus infecciosos. “Ese modelo tendrá mucho conocimiento sofisticado y complejo”, dice. Sabía que este era el caso. Su asesora graduada, la científica informática Bonnie Berger, había realizado anteriormente un trabajo similar con otro de los miembros de su laboratorio, utilizando IA para predecir patrones de plegamiento de proteínas.

Fuente

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí