Aggregation of Explanatory Factor Levels in a Binomial Logit Model: Generalization to the Multifactorial Unsaturated Case

La agregación de niveles en un factor explicativo del modelo logit binomial: generalización al caso multifactorial no saturado
ERNESTO PONSOT-BALAGUER1, SURENDRA SINHA2, ARNALDO GOITÍA3

1Universidad de Los Andes (ULA), Facultad de Ciencias Económicas y Sociales (FACES), Departamento de Estadística, Mérida, Venezuela. Associate Professor. Email: ernesto@ula.ve 
2FACES-ULA, Instituto de Estadística Aplicada y Computación (IEAC), Programa de Doctorado en Estadística, Mérida, Venezuela. Professor. Email: sinha32@yahoo.com 
3FACES-ULA, Instituto de Estadística Aplicada y Computación (IEAC), Programa de Doctorado en Estadística, Mérida, Venezuela. Professor. Email: goitia@ula.ve 


Abstract

We discuss a situation in which, once a logit model is fitted to the data in a contingency table, some factor levels are grouped. Generally, researchers reapply a logit model on the pooled data, however, this approach leads to the violation of the original distributional assumption, when the probabilities of success of the random variables of aggregation differ. In this paper we suggest an alternative procedure that operates under the unsaturated, multifactorial, binomial, logit model. Based on asymptotic theory and taking advantage of the decrease in the variance when the correct distributional assumption is made, the suggested procedure significantly improves the estimates, reduces the standard error, produces lower residuals and is less likely to reject the goodness of fit test on the model. We present the necessary theory, the results of an extensive simulation designed for this purpose, and the suggested procedure contrasted with the usual approach, through a complete numerical example.

Key words: Contingency tables, Generalized linear model, Levels sets, Logit model.


Resumen

Se discute la situación en la que, una vez ajustado un modelo logit a los datos contenidos en una tabla de contingencia, se selecciona un factor cualquiera de los participantes y se agregan algunos de sus niveles. Generalmente los investigadores proceden a postular nuevamente un modelo logit sobre los datos agrupados, sin embargo, este proceder conduce a la violación del supuesto distribucional original, cuando las probabilidades de éxito de las variables aleatorias de la agregación, son disímiles. En este trabajo se sugiere un procedimiento alternativo que opera en el marco del modelo logit binomial no saturado, multifactorial. Con base en la teoría asintótica y aprovechando la disminución en la varianza cuando se postula el modelo distribucional correcto, el procedimiento sugerido mejora apreciablemente las estimaciones, reduce el error estándar, produce valores residuales más cercanos al cero y menores probabilidades de rechazo en la prueba de bondad del ajuste del modelo. Sustentan tales afirmaciones tanto los desarrollos teóricos necesarios, como los resultados de una extensa simulación diseñada al efecto. También se expone el procedimiento sugerido contrastado con el habitual, mediante un ejemplo numérico completo.

Palabras clave: conjuntos de niveles, modelo lineal generalizado, modelo logit, tablas de contingencia.


Texto completo disponible en PDF


References

1. Christensen, R. (2002), Plain Answers to Complex Questions. The Theory of Linear Models, 3 edn, Springer-Verlag, Nueva York, Estados Unidos.

2. Graybill, F. (1969), Introduction to Matrices with Applications in Statistics, 1 edn, Wadsworth Publishing, California, Estados Unidos.

3. Hilbe, J. M. (2009), Logistic Regression Models, 1 edn, Chapman & Hall, Florida, Estados Unidos.

4. Hosmer, D. W. & Lemeshow, S. (2000), Applied Logistic Regression, 2 edn, John Wiley & Sons, Nueva York, Estados Unidos.

5. Lehmann, E. L. (1999), Elements of Large-Sample Theory, 1 edn, Springer-Verlag, Nueva York, Estados Unidos.

6. McCullagh, P. & Nelder, J. (1989), Generalized Linear Models, 2 edn, Chapman & Hall, London, United Kingdom.

7. Menard, S. (2010), Logistic Regression: From Introductory to Advanced Concepts and Applications, 1 edn, SAGE Publications, Inc., California, Estados Unidos.

8. Nelder, J. .. & Wedderburn, R. W. M. (1972), 'Generalized Linear Models', Journal of the Royal Statistical Society. Serie A(135), 370-384.

9. Ponsot, E. (2011), Estudio de la Agrupación de Niveles en el Modelo Logit, Unpublisehd PhD Thesis, Instituto de Estadística Aplicada y Computación, Facultad de Ciencias Económicas y Sociales, Universidad de Los Andes, Mérida, Venezuela.

10. Ponsot, E., Sinha, S. & Goitía, A. (2009), 'Sobre la agrupación de niveles del factor explicativo en el modelo logit binario', Revista Colombiana de Estadística 32(2), 157-187.

11. R Development Core Team, (2007), R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria. *http://www.R-project.org         [ Links ]

12. Rodríguez, G. (2008), 'Lectures notes about generalized linear models'. *http://data.princeton.edu/wws509/notes         [ Links ]

13. SAS Institute Inc., (2004), SAS/STAT(R) 9.1 User's Guide, SAS Institute Inc., Carolina del Norte, Estados Unidos.

14. Searle, S., Casella, G. & McCulloch, C. (2006), Variance Components, 1 edn, John Wiley and Sons, Inc., Nueva Jersey, Estados Unidos.

[Recibido en junio de 2011. Aceptado en febrero de 2012]

Este artículo se puede citar en LaTeX utilizando la siguiente referencia bibliográfica de BibTeX:

@ARTICLE{RCEv35n1a09, 
AUTHOR = {Ponsot-Balaguer, Ernesto and Sinha, Surendra and Goitía, Arnaldo}, 
TITLE = {{Aggregation of Explanatory Factor Levels in a Binomial Logit Model: Generalization to the Multifactorial Unsaturated Case}}, 
JOURNAL = {Revista Colombiana de Estadística}, 
YEAR = {2012}, 
volume = {35}, 
number = {1}, 
pages = {139-166} 
}