Algoritmo de C4.5

C4.5 es un algoritmo usado para generar un árbol de decisión desarrollado por Ross Quinlan. C4.5 es una extensión de Quinlan antes algoritmo de ID3. Los árboles de decisión generados por C4.5 se pueden usar para la clasificación, y por esta razón, C4.5 a menudo se refiere como un clasificador estadístico.

Algoritmo

C4.5 construye árboles de decisión de un juego de datos de formación del mismo modo como ID3, usando el concepto de la entropía de información. Los datos de formación son un juego de muestras ya secretas. Cada muestra es un vector donde representan atributos o rasgos de la muestra. Los datos de formación se aumentan con un vector donde representan la clase a la cual cada muestra pertenece.

En cada nodo del árbol, C4.5 elige un atributo de los datos que el más con eficacia parten su juego de muestras en subconjuntos enriquecidos en una clase o el otro. Su criterio es la ganancia de información normalizada (diferencia en la entropía) que resulta de elegir un atributo para partir los datos. El atributo con la ganancia de información normalizada más alta se elige para tomar la decisión. El algoritmo C4.5 entonces blasfema de nuevo a las sublistas más pequeñas.

Este algoritmo tiene unos casos bajos.

Pseudocódigo

En el pseudocódigo, el algoritmo general para construir árboles de decisión es:

  1. Examine casos para ver bajos
  2. Para cada atributo un
  3. Encuentre la ganancia de información normalizada de dividirse en un
  4. Deje a a_best ser el atributo con el de la ganancia de información normalizado más alto
  5. Cree un nodo de decisión que se divide en a_best
  6. La nueva maldición a las sublistas obtenidas dividiéndose en a_best, y añade aquellos nodos como niños del nodo

Realizaciones

J48 es una fuente abierta la realización de Java del algoritmo C4.5 en el instrumento de minería de datos weka.

Mejoras de algoritmo ID3

C4.5 hizo varias mejoras en ID3. Algunos de éstos son:

¿

Mejoras de algoritmo C5.0/See5

Quinlan continuó a crear C5.0 y See5 (C5.0 para Unix/Linux, See5 para Windows) que vende comercialmente. C5.0 ofrece varias mejoras en C4.5. Algunos de éstos son:

La fuente para una versión de Linux enhebrada del modo solo de C5.0 está disponible bajo la GPL.

Véase también

Enlaces externos



Buscar