跳转至

Approaching almost any machine learning problem

Principal Component Analysis (PCA):

PCA 是一种用于降维和数据压缩的线性技术。它的目标是找到数据中最重要的方向,即方差最大的方向,然后将数据投影到这些方向上。这些方向被称为主成分。通过选择最重要的主成分,我们可以保留数据中的大部分信息,同时降低数据的维度。

  1. 计算协方差矩阵: 首先,计算数据集的协方差矩阵。协方差矩阵描述了数据中不同维度之间的关系。
  2. 计算特征向量和特征值: 对协方差矩阵进行特征值分解,得到特征向量和特征值。特征向量表示主成分的方向,而特征值表示在这个方向上的方差大小。
  3. 选择主成分: 根据特征值的大小选择主成分。特征值越大,说明相应的特征向量所代表的主成分越重要。
  4. 投影数据: 将数据投影到选定的主成分上,从而实现降维。这样,我们就可以用较少的主成分表示原始数据。

PCA 在数据压缩、特征提取和可视化等领域广泛应用。

t-distributed Stochastic Neighbor Embedding (t-SNE):

t-SNE 是一种非线性降维算法,主要用于可视化高维数据。它能够保留数据点之间的相对距离,特别适用于发现数据中的聚类结构。

  1. 计算相似度: 对于每对数据点,计算它们之间的相似度,使用高斯分布表示。
  2. 构建条件概率分布: 基于相似度构建条件概率分布,描述数据点在高维空间中的分布。
  3. 构建 t 分布: 在低维空间中重复上述步骤,构建 t 分布,表示数据点在低维空间中的分布。
  4. 最小化 KL 散度: 通过最小化 KL 散度(Kullback-Leibler divergence),调整低维空间中的数据点位置,使其尽可能符合条件概率分布。

t-SNE 通常用于可视化高维数据,尤其在发现聚类结构方面表现出色。然而,需要注意的是,t-SNE 对于不同的初始化可能会导致不同的结果,因此在解释结果时需要谨慎。

Image compression using PCA (Principal Component Analysis) involves applying PCA to the pixel values of an image and retaining only the most significant principal components. The basic idea is to reduce the dimensionality of the image while preserving as much information as possible. Here's a step-by-step guide on how to perform image compression using PCA:

  1. Flatten the Image:
  2. Convert the 2D image matrix to a 1D vector by flattening the pixel values. For a color image, you'll have separate vectors for each color channel (e.g., Red, Green, Blue).
  3. Standardize the Data:
  4. Standardize the pixel values (subtract mean, divide by standard deviation) to ensure that each color channel has zero mean and unit variance.
  5. Compute Covariance Matrix:
  6. Calculate the covariance matrix of the standardized pixel values. The covariance matrix represents the relationships between different color channels.
  7. Perform PCA:
  8. Use PCA to compute the eigenvectors and eigenvalues of the covariance matrix. The eigenvectors represent the principal components, and the eigenvalues indicate their significance.
  9. Select Principal Components:
  10. Select the top-k eigenvectors corresponding to the k largest eigenvalues. These principal components capture the most important information in the image.
  11. Project Data onto Lower-Dimensional Space:
  12. Project the standardized pixel values onto the subspace spanned by the selected principal components. This effectively reduces the dimensionality of the image.
  13. Reconstruction:
  14. Reconstruct the compressed image by reversing the PCA transformation. This involves multiplying the lower-dimensional representation by the transpose of the selected principal components and adding back the mean.
  15. Visualize the Results:
  16. Compare the original image with the compressed image to assess the quality of the compression.