Escudo de la República de Colombia
Sistema Nacional de Biliotecas - Repositorio Institucional Universidad Nacional de Colombia Biblioteca Digital - Repositorio Institucional UN Sistema Nacional de Bibliotecas UN

Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform

Arango Argoty, Gustavo Alonso (2014) Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform. Maestría thesis, Universidad Nacional de Colombia - Sede Manizales.

Texto completo

[img]
Vista previa
PDF - Versión Aceptada
Available under License Creative Commons Attribution Non-commercial No Derivatives.

6MB

Resumen

En esta tesis se propone un método para la predicción de anotaciones de proteínas a partir de la estimación de características en secuencias biológicas. Dicha estimación emplea información sobre la estructura de las proteínas a partir de las estadísticas de contactos potenciales entre pares de aminoácidos. Inicialmente, una proteína es transformada a una serie numérica por medio de estos contactos potenciales. Debido a las interacciones entre aminoácidos cercanos, la transformada wavelet puede fácilmente detectar las subsecuencias pertenecientes a posiciones específicas a lo largo de la proteína. Así, todas las subsecuencias son agrupadas de acuerdo a su distribución y estos grupos son modelados empleando perfiles de Modelos Ocultos de Markov. Finalmente, los perfiles son usados como características donde proteínas de análisis son mapeadas generando así un espacio de representación que es usado para entrenar un clasificador basado en vectores de soporte. La metodología ha sido rigurosamente evaluada y comparada con tres diferentes criterios de caracterización: 1) características globales comúnmente usadas para representar proteínas, 2) características específicas como motivos y dominios, y por último 3) evaluación de el rendimiento de varios programas construidos para la predicción de anotación de proteínas. Como resultado el método propuesto ha logrado los mas altos puntajes de predicción en la mayoría de los casos de estudio. De manera que estas predicciones sugieren a nuestro método como una alternativa a los comúnmente usados algoritmos de caracterización. Por otra parte, a pesar de que el enfoque de la metodología esta diseñada para resolver problemas de clasificación, la comunidad científica puede hacer uso de ella en dos diferentes enfoques: 1) como un predictor de anotaciones en proteínas y 2) como una herramienta para encontrar motivos. Por último, el código fuente del método se encuentra para libre descarga en: http://sourceforge.net/projects/wamofi/?source=navbar, Abstract : In this thesis, a method to predict semantic annotations of the proteins from its primary structure is proposed. The main contribution of this thesis lies in the implementation of a novel protein feature representation, which makes use of the pairwise statistical contact potentials describing the protein interactions and geometry at the atomic level. Initially, a protein sequence is decomposed into a numerical series by a contact potential. From the interactions between adjacent amino acids, the wavelet transform can easily detect and characterize subsequences at specific position along the protein sequence. Then, all subsequences are grouped into clusters and a Hidden Markov Model (HMM) profile is built for each one of the groups. Finally, the modeled profiles HMM are used as features in order to build a feature space with the aim to train and evaluate a support vector machine classifier. Evaluations of the proposed methodology are driven against three different views 1) known protein features 2) motif-domain based features (PFam terms) and 3) performance evaluation over several methods for protein annotation prediction. As result, The method have acquired the highest performance prediction in most of the study cases. Thus, this efficiency suggest our approach as an alternative method for the characterization of protein sequences. Although, the research in this thesis focuses on the classification problem, the scientific community can make use of the methodology in two different ways: 1) as a protein predictor and 2) as a motif finding tool. Finally, the source code of the method is free available for download at SourceForge http://sourceforge.net/projects/wamofi/?source=navbar

Tipo de documento:Tesis/trabajos de grado - Thesis (Maestría)
Colaborador / Asesor:Castellanos Domínguez, César Germán
Información adicional:Tesis presentada en cumplimiento a los requerimientos necesarios para obtener el grado de Maestría en Ingeniería en Automatización Industrial
Palabras clave:Transformada wavelet continua, Potenciales de contacto estadísticos, Prediccion de proteínas, Máquinas de vectores de soporte, Alineamiento de secuencias, Continuous wavelet transform, Statistical contact potentials, Protein prediction, Support vector machine, Sequence alignment
Temática:5 Ciencias naturales y matemáticas / Science > 51 Matemáticas / Mathematics
5 Ciencias naturales y matemáticas / Science > 54 Química y ciencias afines / Chemistry
6 Tecnología (ciencias aplicadas) / Technology > 62 Ingeniería y operaciones afines / Engineering
Unidad administrativa:Sede Manizales > Facultad de Ingeniería y Arquitectura > Departamento de Ingeniería Eléctrica, Electrónica y Computación > Ingeniería Electrónica
Código ID:39867
Enviado por : Biblioteca Digital Universidad Nacional de Colombia - Sede Manizales
Enviado el día :08 Agosto 2014 21:31
Ultima modificación:08 Agosto 2014 21:31
Ultima modificación:08 Agosto 2014 21:31
Exportar:Clic aquí
Estadísticas:Clic aquí
Compartir:

Solamente administradores del repositorio: página de control del ítem

Vicerrectoría de Investigación: Número uno en investigación
Indexado por:
Indexado por Scholar Google WorldCat DRIVER Metabiblioteca OAIster BASE BDCOL Registry of Open Access Repositories SNAAC Red de repositorios latinoamericanos eprints Open archives La referencia Tesis latinoamericanas OpenDOAR CLACSO
Este sitio web se ve mejor en Firefox