Escudo de la República de Colombia
Sistema Nacional de Biliotecas - Repositorio Institucional Universidad Nacional de Colombia Biblioteca Digital - Repositorio Institucional UN Sistema Nacional de Bibliotecas UN

Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos

Narvaez Prieto, Jonathan Freddy (2018) Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos. Maestría thesis, Universidad Nacional de Colombia Sede Bogotá.

Texto completo

[img]
Vista previa
PDF - Versión Aceptada
Available under License Creative Commons Attribution Non-commercial.

4MB

Resumen

Este proyecto propone una plataforma para el procesamiento de datos biológicos, imple-mentando una estrategia para la ejecución de flujos de procesamiento de información deforma distribuida. Esta plataforma implementa una estrategia de contenedores para el aisla-miento y portabilidad del software de bioinformática, aprovecha las caracter ́ısticas de controlque esta tecnología prove; así mismo, el almacenamiento distribuido es una parte central deesta plataforma, lo que permite controlar el acceso de la información a cada uno de los nodosde forma eficiente implementando una estrategia de metadatos que permite una fácil ubicación de los experimentos que quieren ser procesados por cada uno de los nodos del sistemadistribuido. Se implementó un modelo de control de recursos llamadoDominant ResourceFairness(DRF) y de distribución de procesos para sistemas distribuidos llamado Heterogeneous Earliest Finish Time(HEFT). Además, se realizó una prueba con un flujo de procesamiento de datos de RNA-Seq usando datos clínicos deMycobacterium Tuberculosis. La prueba mostró que fue posible abordar unaestrategia distribuida para obtener un mejor rendimiento y tiempos de ejecuci ́on a la horade realizar este tipo de análisis sobre datos biológicos. Se observó que las aplicaciones queno son paralelizables afectan en gran medida el rendimiento, y algunas aplicaciones dentrode la prueba no hacen uso eficiente del almacenamiento, generando grandes bloques de información sobre el sistema de archivos causando algunos problemas, Abstract: This project proposes a platform for processing biological data, implementing a strategy for the execution of distributed information processing flows. This platform implements a strategy of containers for the isolation and portability of bioinformatics software and also takes advantage of the control features that this technology provides; in addition, distributed storage is a central part of the platform that allows to control access to the information in each of the nodes efficiently by implementing a metadata strategy that allows an easy location of the experiments that want to be analyzed by each of the nodes corresponding to the distributed system. A resource control model called Dominant Resource Fairness (DRF) and process distribution model for distributed systems called Heterogeneous Earliest Finish Time (HEFT) were implemented. Additionally, a test was performed with a data processing flow for RNA-Seq using clinical data related to Mycobacterium Tuberculosis. The test indicates that it is possible to develop a distributed strategy to obtain better performance and execution times when performing this type of analysis on biological data with a clear information processing flow for the data coming from the information sequencing. It was noted that non-parallelizable applications affect performance to a significant extent, and some applications within the test do not make efficient use of storage by generating large blocks of information about the file system causing some problems.

Tipo de documento:Tesis/trabajos de grado - Thesis (Maestría)
Colaborador / Asesor:Niño Vasquez, Luis Fernando
Información adicional:Magíster en Telecomunicaciones. Línea de Investigación: Redes y Sistemas de Telecomunicaciones.
Palabras clave:Flujo de Datos, Sistemas Distribuidos, Almacenamiento Distribuido, Contenedores, Bioinformática, Workflow, Distributed Systems, Distributed Storage, Containers, Bioinformatics
Temática:0 Generalidades / Computer science, information & general works
5 Ciencias naturales y matemáticas / Science > 57 Ciencias de la vida; Biología / Life sciences; biology
6 Tecnología (ciencias aplicadas) / Technology
6 Tecnología (ciencias aplicadas) / Technology > 62 Ingeniería y operaciones afines / Engineering
Unidad administrativa:Sede Bogotá > Facultad de Ingeniería > Departamento de Ingeniería de Sistemas e Industrial
Código ID:69707
Enviado por : Jonathan Narvaez
Enviado el día :25 Oct 2018 14:41
Ultima modificación:25 Oct 2018 14:43
Ultima modificación:25 Oct 2018 14:43
Exportar:Clic aquí
Estadísticas:Clic aquí
Compartir:

Solamente administradores del repositorio: página de control del ítem

Vicerrectoría de Investigación: Número uno en investigación
Indexado por:
Indexado por Scholar Google WorldCat DRIVER Metabiblioteca OAIster BASE BDCOL Registry of Open Access Repositories SNAAC Red de repositorios latinoamericanos eprints Open archives La referencia Tesis latinoamericanas OpenDOAR CLACSO
Este sitio web se ve mejor en Firefox