Análisis y comparación de algoritmos de machine learning para el estudio de la predicción de estructura, enfocado en la interacción entre proteínas

Cargando...
Miniatura
Fecha
2023
Título de la revista
ISSN de la revista
Título del volumen
Editor
Resumen
Las proteínas son cadenas de moléculas más pequeñas, llamadas aminoácidos, que se conectan de manera lineal en un orden específico. Los aminoácidos tienen distintas propiedades bioquímicas que contribuyen a que la proteína forme una estructura tridimensional, que finalmente especifica que función cumple la proteína. Existen diversas técnicas experimentales para obtener la estructura tridimensional de una proteína, pero estas técnicas toman bastante tiempo. Debido a esto, nace el campo de predicción de estructuras a través de métodos computacionales. El objetivo de este proyecto ha sido comparar distintas técnicas del estado del arte, que hacen uso de inteligencia artificial, deep learning, procesamiento del lenguaje natural y mecanismos de atención, para modelar la estructura tridimensional de las proteínas. El foco principal es el modelamiento de complejos proteicos de dos cadenas, estas técnicas son evaluadas en base a la estructura obtenida, comparada con la estructura experimental del Protein Data Bank. En base a estos resultados, se evalúa si el mejor método es capaz de predecir con precisión la interfaz de interacción entre ambas cadenas del complejo. Posteriormente, se hace uso de una función que permite predecir la calidad de complejos de los que no se tiene una estructura experimental, y se utiliza para evaluar los modelos obtenidos. Se hace uso de esta función para evaluar el dataset elegido para modelar complejos y un dataset de pares proteínas no interactuantes, a modo de analizar la tasa de éxito que tiene la función para diferenciar entre pares de proteínas interactuantes y no interactuantes. Finalmente, utilizando los cálculos y análisis obtenidos sobre las estructuras, se diseñó una aplicación web almacenada que realiza el cálculo de la función sigmoide sobre un archivo PDB obtenido de algunos de los métodos, en base a las distancias entre los aminoácidos de las cadenas de los complejos, y la puntuación de confianza de posición de los aminoácidos que se encuentran en la interfaz calculada.
Descripción
Memoria (Ingeniero Civil en Informática) --Universidad del Bío-Bío. Concepción, 2023.
Palabras clave
PROTEINAS-PROCESAMIENTO DE DATOS, ALGORITMOS COMPUTACIONALES-USOS, APRENDIZAJE AUTOMATICO, PROCESAMIENTO DE LENGUAJE NATURAL, INTELIGENCIA ARTIFICIAL, DEEP LEARNING, ATENCION
Citación