¿Cuál es la diferencia entre PCA e ICA?


Respuesta 1:

Tanto PCA como ICA intentan encontrar un conjunto de vectores, una base, para los datos. Por lo tanto, puede escribir cualquier punto (vector) en sus datos como una combinación lineal de la base.

En PCA, la base que desea encontrar es la que mejor explica la variabilidad de sus datos. El primer vector de la base PCA es el que mejor explica la variabilidad de sus datos (la dirección principal), el segundo vector es la segunda mejor explicación y debe ser ortogonal al primero, etc.

En ICA, la base que desea encontrar es aquella en la que cada vector es un componente independiente de sus datos, puede pensar en sus datos como una mezcla de señales y luego la base ICA tendrá un vector para cada señal independiente.

Como ejemplo de ICA, considere estas dos imágenes:

Los mezclé en diferentes proporciones produciendo estas dos mezclas:

Si ahora aplicamos ICA a estas imágenes, obtenemos este resultado:

Si bien no es 100% perfecto, es una excelente separación de las dos imágenes mixtas.

De una manera más práctica, podemos decir que PCA ayuda cuando desea encontrar una representación de rango reducido de sus datos e ICA ayuda cuando desea encontrar una representación de sus datos como subelementos independientes. En términos simples, PCA ayuda a comprimir datos e ICA ayuda a separar datos.

Nota: PCA y SVD son lo mismo y, por lo general, es mejor usar el SVD de la matriz de datos centrada porque los algoritmos SVD son más rápidos y numéricamente más estables que PCA.

Nota 2: En algunos casos, el NMF (factorización matricial no negativa) puede funcionar como ICA. En NMF, la base que desea encontrar es la que le ayuda a reconstruir los datos como una suma positiva sobre los vectores de base. Esto significa que la base tendrá vectores que representan partes de sus datos originales, si sus datos contienen imágenes, entonces la base NMF contiene partes de imágenes que lo ayudarán a reconstruir cualquiera de sus imágenes en el conjunto de datos.

Espero eso ayude,

Luis


Respuesta 2:

Ambas técnicas intentan obtener nuevas fuentes combinando linealmente las fuentes originales. PCA intenta encontrar fuentes no correlacionadas, mientras que ICA intenta encontrar fuentes independientes.

La "falta de correlación" tiene una definición fuerte que se puede usar fácilmente en un esquema de optimización, se reduce a la minimización de mínimos cuadrados. Sin embargo, hay varias formas de acercarse a la "independencia". Una forma, que está motivada por el teorema del límite central, es encontrar el espacio fuente que maximice la "no gaussianidad" de todas las fuentes, que se puede medir de diferentes maneras. ICA es más de una clase de técnicas de separación de fuente ciega.

PCA también puede clasificar cada fuente. ICA no tiene esta propiedad, lo que la convierte en una herramienta deficiente para la reducción de dimensionalidad.