El Umbral de Compresión en Machine Learning
En algoritmos de reducción de dimensionalidad como PCA, existe un punto donde eliminar más variables no mejora la interpretabilidad ni la eficiencia. Este punto puede modelarse como un umbral de compresión.
Modelo Matemático
Sea \( X \in \mathbb{R}^{n \times p} \) una matriz de datos con \( p \) variables. Aplicamos PCA y obtenemos componentes principales \( \lambda_1, \lambda_2, \dots, \lambda_p \).
Definimos la varianza explicada acumulada como:
$$ V(k) = \frac{\sum_{i=1}^{k} \lambda_i}{\sum_{i=1}^{p} \lambda_i} $$
El umbral se alcanza cuando:
$$ \frac{dV(k)}{dk} \to 0 $$
Este punto indica que añadir más componentes no mejora la representación del sistema, y se ha alcanzado una compresión óptima.