¿Cuál es la diferencia entre la impureza de Gini y la entropía en el árbol de decisión?


Respuesta 1:

La impureza de Gini y una entropía son los llamados criterios de selección para los árboles de decisión. Esencialmente, le ayudan a determinar cuál es un buen punto de división para los nodos raíz / decisión en los árboles de clasificación / regresión (los ejemplos a continuación se encuentran en un árbol de clasificación). Los árboles de decisión se dividen en la característica y el punto de división correspondiente que da como resultado la mayor ganancia de información (IG) para un criterio dado (gini o entropía en este ejemplo). En términos generales, podemos definir la ganancia de información como

IG = información antes de dividir (padre) - información después de dividir (hijos)

Para una comprensión más clara de padres e hijos, mire el árbol de decisión a continuación.

A continuación se encuentra una fórmula más adecuada para la fórmula de ganancia de información.

Dado que los árboles de clasificación tienen divisiones binarias, la fórmula se puede simplificar en la siguiente fórmula.

Dos criterios comunes I, utilizados para medir la impureza de un nodo son el índice de Gini y la entropía.

En aras de comprender un poco mejor estas fórmulas, la imagen a continuación muestra cómo se calculó la ganancia de información para un árbol de decisión con criterio de Gini.

La imagen a continuación muestra cómo se calculó la ganancia de información para un árbol de decisión con entropía.

No voy a entrar en más detalles sobre esto, ya que debe tenerse en cuenta que las diferentes medidas de impurezas (índice de Gini y entropía) generalmente producen resultados similares. El siguiente gráfico muestra que el índice de Gini y la entropía son criterios de impureza muy similares. Supongo que una de las razones por las que Gini es el valor predeterminado en scikit-learn (biblioteca de Python) es que la entropía puede ser un poco más lenta de calcular (porque utiliza un logaritmo).

Las diferentes medidas de impurezas (índice de Gini y entropía) generalmente producen resultados similares. Gracias a Data Science StackExchange y Sebastian Raschka por la inspiración para este gráfico.

Si desea obtener más información sobre cómo funcionan los árboles de decisión, no dude en hacer clic aquí para obtener más información.


Respuesta 2:

Dos métricas para elegir cómo dividir un árbol. La medición de Gini es la probabilidad de que una muestra aleatoria se clasifique incorrectamente si seleccionamos aleatoriamente una etiqueta de acuerdo con la distribución en una rama.

La entropía es una medida de información (o más bien falta de ella). Calcula la ganancia de información haciendo una división. Cuál es la diferencia en las entradas. Esto mide cómo reduce la incertidumbre sobre la etiqueta.

Ver:

https: //en.m.wikipedia.org/wiki / ...