¿Cuál es la diferencia intuitiva entre el análisis discriminante lineal y una máquina de vectores de soporte lineal?


Respuesta 1:

Son casi diferentes

LDA se utiliza para reducir la dimensionalidad de los vectores de características. Es como un preproceso antes de la clasificación. Después de la reducción, las distancias de las características entre las diferentes clases serán mayores. Las distancias de las características de las mismas clases serán más pequeñas. Por lo tanto, LDA es útil para una clasificación posterior.

SVM es un enfoque de aprendizaje supervisado que puede usarse para clasificación y regresión. En clasificación, puede separar los ejemplos de diferentes clases con un margen máximo.

Para obtener más información sobre LDA y SVM, simplemente búsquelos en google.


Respuesta 2:

A2A.

Mostofsupervisedmachinelearningcanbelookedatusingthefollowingframework:Youhaveasetoftrainingpoints(xi,yi),andyouwanttofindafunction[math]f[/math]that"fitsthedatawell",thatis,[math]yif(xi)[/math]formost[math]i[/math].Most of supervised machine learning can be looked at using the following framework: You have a set of training points (x_i, y_i), and you want to find a function [math]f[/math] that "fits the data well", that is, [math]y_i \approx f(x_i)[/math] for most [math]i[/math].

Comenzarás haciendo lo siguiente:

  • Definetheformoff.Forinstance,wecandefine[math]f=wx+b[/math],forsomeconstants[math]w[/math]and[math]b[/math].Notethatthisisasetoffunctionsfordifferentvaluesof[math]w[/math]and[math]b[/math],youwillgetdifferentfunctions[math]f[/math],andyouwanttofindan[math]f[/math]fromthissetthatdoesthebest.Asyoumighthavenoticed,wehavebeentalkingaboutthisnotionofbest,whichisilldefineduptothispoint.So,weneedtomakethismoreconcrete.Thegoalhere,asstatedabove,istohave[math]yif(xi)[/math]formost[math]i[/math].Define the form of f. For instance, we can define [math]f = wx + b[/math], for some constants [math]w[/math] and [math]b[/math]. Note that this is a set of functions — for different values of [math]w[/math] and [math]b[/math], you will get different functions [math]f[/math], and you want to find an [math]f[/math] from this set that does the “best”.As you might have noticed, we have been talking about this notion of “best”, which is ill-defined up to this point. So, we need to make this more concrete. The goal here, as stated above, is to have [math]y_i \approx f(x_i)[/math] for most [math]i[/math].

Los dos pasos anteriores definen esencialmente la clase de función y la función de pérdida respectivamente.

Dependiendo de cómo elija su clase de función y la función de pérdida, obtendrá diferentes modelos de aprendizaje supervisado [o incluso modelos de aprendizaje no supervisados]:

  • Clase de función lineal con función de pérdida de error al cuadrado - Regresión lineal Clase de función lineal con función de pérdida logística - Regresión logística Clase de función lineal con pérdida de bisagra - Clase de función SVM que contiene una red de neuronas con pérdida de entropía cruzada - Redes neuronales

y así.

Veamos más de cerca SVM y LDA usando ese marco. Claramente, tienen una clase de función idéntica: el conjunto de todos los límites de decisión lineales. La diferencia se debe, entonces, a cómo definimos "mejor".

InSVM,line1isbetterthanline[math]2[/math]ifthemarginof[math]1[/math]islarger,thatis,itisfartherfrombothclasses.In SVM, line \ell_1 is better than line [math]\ell_2[/math] if the “margin” of [math]\ell_1[/math] is larger, that is, it is farther from both classes.

Entonces, en la imagen de arriba, se prefiere la línea negra a la línea gris.

InLDA,youassumethatpointsbelongingtoeachclassdefineaGaussiandistribution.Aline1isbetterthanline[math]2[/math]ifsmallerfractionofthetwoGaussianslieonthewrongsideof[math]1[/math]comparedto[math]2[/math].In LDA, you assume that points belonging to each class define a Gaussian distribution. A line \ell_1 is better than line [math]\ell_2[/math] if smaller fraction of the two Gaussians lie on the wrong side of [math]\ell_1[/math] compared to [math]\ell_2[/math].

En la imagen de arriba, las elipses denotan las distribuciones gaussianas definidas por los puntos azul y rojo. La probabilidad disminuye a medida que te alejas del centro; entonces el color más oscuro corresponde a una mayor probabilidad.

Nuevamente, la línea negra se prefiere a la línea gris, porque solo hay pequeñas partes de las áreas de color claro en el lado equivocado de la línea negra, mientras que, para la línea gris, las partes más oscuras también están en el lado equivocado.

Lo anterior también da otra diferencia:

  • Para un SVM, solo los puntos que están cerca de la otra clase ["vectores de soporte"] afectan el límite de decisión. Cambiar puntos distintos de esos no cambia el límite de decisión. Para LDA, la distribución de puntos afecta el límite de decisión. Entonces, por ejemplo, si voltea los puntos rojos horizontal o verticalmente para que el área sombreada roja permanezca igual, obtendrá el mismo límite de decisión.

Respuesta 3:

A2A.

Mostofsupervisedmachinelearningcanbelookedatusingthefollowingframework:Youhaveasetoftrainingpoints(xi,yi),andyouwanttofindafunction[math]f[/math]that"fitsthedatawell",thatis,[math]yif(xi)[/math]formost[math]i[/math].Most of supervised machine learning can be looked at using the following framework: You have a set of training points (x_i, y_i), and you want to find a function [math]f[/math] that "fits the data well", that is, [math]y_i \approx f(x_i)[/math] for most [math]i[/math].

Comenzarás haciendo lo siguiente:

  • Definetheformoff.Forinstance,wecandefine[math]f=wx+b[/math],forsomeconstants[math]w[/math]and[math]b[/math].Notethatthisisasetoffunctionsfordifferentvaluesof[math]w[/math]and[math]b[/math],youwillgetdifferentfunctions[math]f[/math],andyouwanttofindan[math]f[/math]fromthissetthatdoesthebest.Asyoumighthavenoticed,wehavebeentalkingaboutthisnotionofbest,whichisilldefineduptothispoint.So,weneedtomakethismoreconcrete.Thegoalhere,asstatedabove,istohave[math]yif(xi)[/math]formost[math]i[/math].Define the form of f. For instance, we can define [math]f = wx + b[/math], for some constants [math]w[/math] and [math]b[/math]. Note that this is a set of functions — for different values of [math]w[/math] and [math]b[/math], you will get different functions [math]f[/math], and you want to find an [math]f[/math] from this set that does the “best”.As you might have noticed, we have been talking about this notion of “best”, which is ill-defined up to this point. So, we need to make this more concrete. The goal here, as stated above, is to have [math]y_i \approx f(x_i)[/math] for most [math]i[/math].

Los dos pasos anteriores definen esencialmente la clase de función y la función de pérdida respectivamente.

Dependiendo de cómo elija su clase de función y la función de pérdida, obtendrá diferentes modelos de aprendizaje supervisado [o incluso modelos de aprendizaje no supervisados]:

  • Clase de función lineal con función de pérdida de error al cuadrado - Regresión lineal Clase de función lineal con función de pérdida logística - Regresión logística Clase de función lineal con pérdida de bisagra - Clase de función SVM que contiene una red de neuronas con pérdida de entropía cruzada - Redes neuronales

y así.

Veamos más de cerca SVM y LDA usando ese marco. Claramente, tienen una clase de función idéntica: el conjunto de todos los límites de decisión lineales. La diferencia se debe, entonces, a cómo definimos "mejor".

InSVM,line1isbetterthanline[math]2[/math]ifthemarginof[math]1[/math]islarger,thatis,itisfartherfrombothclasses.In SVM, line \ell_1 is better than line [math]\ell_2[/math] if the “margin” of [math]\ell_1[/math] is larger, that is, it is farther from both classes.

Entonces, en la imagen de arriba, se prefiere la línea negra a la línea gris.

InLDA,youassumethatpointsbelongingtoeachclassdefineaGaussiandistribution.Aline1isbetterthanline[math]2[/math]ifsmallerfractionofthetwoGaussianslieonthewrongsideof[math]1[/math]comparedto[math]2[/math].In LDA, you assume that points belonging to each class define a Gaussian distribution. A line \ell_1 is better than line [math]\ell_2[/math] if smaller fraction of the two Gaussians lie on the wrong side of [math]\ell_1[/math] compared to [math]\ell_2[/math].

En la imagen de arriba, las elipses denotan las distribuciones gaussianas definidas por los puntos azul y rojo. La probabilidad disminuye a medida que te alejas del centro; entonces el color más oscuro corresponde a una mayor probabilidad.

Nuevamente, la línea negra se prefiere a la línea gris, porque solo hay pequeñas partes de las áreas de color claro en el lado equivocado de la línea negra, mientras que, para la línea gris, las partes más oscuras también están en el lado equivocado.

Lo anterior también da otra diferencia:

  • Para un SVM, solo los puntos que están cerca de la otra clase ["vectores de soporte"] afectan el límite de decisión. Cambiar puntos distintos de esos no cambia el límite de decisión. Para LDA, la distribución de puntos afecta el límite de decisión. Entonces, por ejemplo, si voltea los puntos rojos horizontal o verticalmente para que el área sombreada roja permanezca igual, obtendrá el mismo límite de decisión.