Escudo de la República de Colombia
Sistema Nacional de Biliotecas - Repositorio Institucional Universidad Nacional de Colombia Biblioteca Digital - Repositorio Institucional UN Sistema Nacional de Bibliotecas UN

Bayesian Analysis of the Heterogeneity of Literary Style

Puig, Xavier and Font, Marti and Ginebra, Josep (2016) Bayesian Analysis of the Heterogeneity of Literary Style. Revista Colombiana de Estadística, 39 (2). pp. 205-227. ISSN 2389-8976

Texto completo

[img]
Vista previa
PDF - Versión Publicada
Available under License Creative Commons Attribution.

778kB

URL oficial: https://revistas.unal.edu.co/index.php/estad/artic...

Resumen

We proposed statistical analysis of the heterogeneity of literary style in a set of texts that simultaneously use different stylometric characteristics, like word length and the frequency of function words. The data set consists of several tables with the same number of rows, with the i-th row of all tables corresponding to the i-th text. The analysis proposed clusters the rows of all these tables simultaneously into groups with homogeneous style, based on a finite mixture of sets of multinomial models, one set for each table.  Different from the usual heuristic cluster analysis approaches, our method naturally incorporates the text size, the discrete nature of the data, and the dependence between categories in the analysis. The model is checked and chosen with the help of posterior predictive checks, together with the use of closed form expressions for the posterior probabilities that each of the models considered to be appropriate. This is illustrated through an analysis of the heterogeneity in Shakespeare’s plays, and by revisiting the authorshipattributionproblem of Tirant lo Blanc., Se propone un análisis estadístico para modelar la heterogeneidad delestilo literario en un conjunto de textos, para ello se utilizan simultáneamente diferentes características estilométricas, como longitud de palabra y la frecuencia de palabras función. Los datos consisten en varias tablas con el mismo número de filas, donde la fila i-ésima corresponde al texto i-ésimo. El análisis propuesto agrupa las filas de todas estas tablas simultáneamente en grupos de estilo homogéneo, en base a una mezcla finita de modelos multinomiales. El modelo propuesto tiene la ventaja sobre los análisis de conglomerados heurísticos habituales, de incorporar de forma natural el tamaño del texto, la naturaleza discreta de los datos y la dependencia entre las categorías. El modelo se selecciona y válida con la ayuda de simulaciones de la distribución predictiva a posteriori, junto con el uso de las expresiones en forma cerrada para la probabilidad a posteriori de cada uno de los modelos de mezcla considerados. Todo ello se ilustra a través de un análisis de la heterogeneidad en las obras de Shakespeare, y revisitando el problema de atribución de autoría del texto Tirant lo Blanc.

Tipo de documento:Artículo - Article
Palabras clave:Authorship, Cluster analysis, Multinomial distribution, Análisi de conglomerados, Atribución, Distribución multinomial.
Temática:5 Ciencias naturales y matemáticas / Science > 51 Matemáticas / Mathematics
3 Ciencias sociales / Social sciences > 31 Colecciones de estadística general / Statistics
Unidad administrativa:Revistas electrónicas UN > Revista Colombiana de Estadística
Código ID:67538
Enviado por : Dirección Nacional de Bibliotecas STECNICO
Enviado el día :20 Septiembre 2018 19:58
Ultima modificación:20 Septiembre 2018 19:58
Ultima modificación:20 Septiembre 2018 19:58
Exportar:Clic aquí
Estadísticas:Clic aquí
Compartir:

Solamente administradores del repositorio: página de control del ítem

Vicerrectoría de Investigación: Número uno en investigación
Indexado por:
Indexado por Scholar Google WorldCat DRIVER Metabiblioteca OAIster BASE BDCOL Registry of Open Access Repositories SNAAC Red de repositorios latinoamericanos eprints Open archives La referencia Tesis latinoamericanas OpenDOAR CLACSO
Este sitio web se ve mejor en Firefox