Escudo de la República de Colombia
Sistema Nacional de Biliotecas - Repositorio Institucional Universidad Nacional de Colombia Biblioteca Digital - Repositorio Institucional UN Sistema Nacional de Bibliotecas UN

Un modelo integrado de técnicas de aprendizaje de máquinas no supervisadas y ontologías para la detección automática de sentimientos desde una estructura gramatical simple en español

Henriquez Miranda, Carlos Nelson (1997) Un modelo integrado de técnicas de aprendizaje de máquinas no supervisadas y ontologías para la detección automática de sentimientos desde una estructura gramatical simple en español. Doctorado thesis, Universidad Nacional de Colombia - Sede Medellín.

Texto completo

[img]
Vista previa
PDF - Versión Aceptada
Available under License Creative Commons Attribution Non-commercial No Derivatives.

5MB

Resumen

Recientemente el análisis de sentimientos (AS) ha mostrado un alto interés debido a la producción a gran escala de opiniones por parte de usuarios en la Internet. Las empresas en general, necesitan saber la reputación que tienen ante sus usuarios en la Web. Hasta ahora, la gran mayoría de trabajos de investigación involucran sistemas de AS que detectan el sentimiento global de una opinión escrita sobre una frase o un documento completo; estos sistemas resultan a veces incompletos ante la realidad de las organizaciones que quieren saber en detalle el comportamiento de sus productos. Resultados de esa necesidad, existen enfoques de AS dedicados a realizar un análisis más completo de grano fino, en donde se identifican las características o aspectos más importantes de una opinión para poder determinar el sentimiento de cada uno de los aspectos. Sin embargo, la mayoría de enfoques, no tienen en cuenta el concepto o significado de las palabras en el proceso de identificar los aspectos, por otra parte, se necesita un gran número de documentos etiquetados manualmente para determinar el sentimiento. Con el fin de dar solución a estos problemas, este trabajo de tesis doctoral, propone la construcción de un modelo para analizar sentimientos a nivel de aspectos en español, que permita extraer automáticamente las características de una opinión y determinar el sentimiento (polaridad) asociado. El modelo está basado en dos técnicas, la primera se basa en ontologías para detección aspectos explícitos e implícitos y la segunda, utiliza el aprendizaje de máquina no supervisado para determinar la polaridad sobre una estructura gramatical simple. Este modelo tiene en cuenta el significado de los aspectos en el momento de extracción, y es completamente no supervisado, lo que permite implementar un sistema que sea rápidamente escalable a cualquier idioma o dominio. Para la implementación del modelo, se desarrolló el prototipo AspectSA (elaborado en JAVA), que contiene componentes de software que permiten realizar el análisis de sentimientos a nivel de aspectos en los dominios de restaurante y hoteles. Adicionalmente, este prototipo se validó utilizando un conjunto de experimentos basados en corpus, desarrollados por SemEval 2016 en español. Los resultados obtenidos superaron a todos los participantes de SemEval y a los sistemas existentes para el lenguaje español., Abstract: Recently the sentiment analysis has shown a high interest due to large-scale production of opinions by users on the Internet. The companies generally need to know the reputation they have of their users on the Web. So far, the vast majority of research involving this systems that detect the overall sentiment of a written opinion on a phrase or an entire document. These systems are sometimes incomplete before the reality of organizations that want to know in detail the behavior of their products. Due to the above, there are some approaches dedicated to a more complete analysis offine grain, where the characteristics or most important aspects of an opinion are identified in order to determine the feeling of each one of the aspects. However, most approaches do not take into account the concept or meaning of words in the process of identifying aspects and also a large number of documents labeled manually is needed to determine the sentiment. In order to solve these problems, this doctoral thesis proposes the construction of a model to aspect-based sentiment analysis in Spanish that allows to automatically extract the characteristics of an opinion and determine the associated sentiment (polarity). The model is based on Ontologies for detection of characteristics (explicit and implicit aspects) and machine learning unsupervised to determine the polarity on a simple grammatical structure. This model takes into account the meaning of the aspects at the time of extraction and is completely unsupervised which allows to implement a system that is quickly scalable to any language or domain. For the implementation of the model was developed the prototype AspectSA (elaborated in JAVA), which contains software components that allow the aspect-based sentiment analysis in the domains of restaurants and hotels. In addition, this prototype was validated using a set of experiments based on the data set developed by SemEval 2016 in Spanish. The results obtained exceeded all SemEval participants and the existing systems for the Spanish language.

Tipo de documento:Tesis/trabajos de grado - Thesis (Doctorado)
Colaborador / Asesor:Guzman Luna, Jaime Alberto
Información adicional:Doctor en Ingeniería
Palabras clave:Análisis de sentimientos a nivel de aspectos, Ontologías, Aprendizaje de máquina no supervisado., Aspect-Based Sentiment Analysis, Ontology, Unsupervised machine learning, Opinion mining
Temática:0 Generalidades / Computer science, information & general works > 03 Obras enciclopédicas generales / Encyclopedias & books of facts
Unidad administrativa:Sede Medellín > Facultad de Minas > Escuela de Sistemas > Ingeniería de Sistemas e Informática
Código ID:59833
Enviado por : Ing. carlos henriquez miranda
Enviado el día :19 Enero 2018 20:12
Ultima modificación:19 Enero 2018 20:16
Ultima modificación:19 Enero 2018 20:16
Exportar:Clic aquí
Estadísticas:Clic aquí
Compartir:

Solamente administradores del repositorio: página de control del ítem

Vicerrectoría de Investigación: Número uno en investigación
Indexado por:
Indexado por Scholar Google WorldCat DRIVER Metabiblioteca OAIster BASE BDCOL Registry of Open Access Repositories SNAAC Red de repositorios latinoamericanos eprints Open archives La referencia Tesis latinoamericanas OpenDOAR CLACSO
Este sitio web se ve mejor en Firefox