Handling categorical features with many levels Using a Product Partition Model Grant

abstract

  • Represent the categorical predictor by a graph where the nodes are the categories and we establish a probability distribution on significant partitions of this graph. Conditional on the observed data, we obtain a posterior distribution for the aggregation of levels, which allows us to infer about the most likely clustering for the categories We draw inferences about all other parameters of the regression model. We compare our methods with state-of-the-art methods and show that it has equally good predictive performance and more interpretable results. Our approach balances accuracy against interpretability, a major current concern in statistics and machine learning.
  • Representar el predictor categórico por un gráfico donde los nodos son las categorías y establecemos una distribución de probabilidad sobre particiones significativas de este gráfico. Condicionalmente a los datos observados, obtenemos una distribución posterior para la agregación de niveles, lo que permite inferir sobre el agrupamiento más probable para las categorías Extraemos inferencias sobre todos los demás parámetros del modelo de regresión. Comparamos nuestros métodos con los de última generación y demostramos que tiene un rendimiento predictivo igualmente bueno y resultados más interpretables. Nuestro enfoque equilibra la precisión frente a la interpretabilidad, una preocupación importante actual en estadísticas y aprendizaje automático.

date/time interval

  • 2022-03-01 - 2022-07-01

keywords

  • Agglomeration
  • Machine learning
  • Probability distributions
  • Statistics