PCA(Principal Component Analysis)图是一种用于数据可视化的工具,它展示了数据在前几个主要成分上的分布情况。以下是PCA图的基本解读方法:
PCA图的基本组成部分:
散点图:
样本点按照主成分(如PC1, PC2等)投影后的坐标位置绘制,每个样本可能用不同颜色或形状表示不同的分类或标签。
图例:
图中通常会有图例来标识不同颜色或形状代表的样本类别或标签。
坐标轴:
X轴和Y轴通常代表前两个或前三个主成分(PC1, PC2, PC3),它们是方差贡献最大的两个或三个维度。
方差解释:
图中会标注每个主成分的方差贡献率,显示该主成分在数据中捕捉的方差信息。
样本点连线距离:
体现样本之间的相似性,距离越短,相似性越大。
置信椭圆:
通常为95%的置信区间,表示样本点分布的置信范围。
如何解读PCA图:
异常值检测:观察样本在各个主成分上的得分,明显偏离其他样本的点可能是异常值。
聚类分析:将相似的样本归为同一类,不相似的样本归为不同类。
预测分析:已知某些样本的类别或标签,可以在PCA图中找到这些样本的位置,并预测新样本的分类或标签。
具体案例解读:
图例说明:绿色圆点可能代表肿瘤体积较小的患者粪便样本,蓝色代表中等,红色代表较大。
坐标轴:纵坐标可能是第二主成分,横坐标是第一主成分,主成分贡献率表示每个主成分的方差占总方差的比例。
样本点连线距离:样本点之间连线距离短表示样本间差异小,反之则差异大。
圆圈相关:不同颜色的圆圈代表不同的样本组,圆圈之间的距离表示样本组之间的分离程度。
示例数据解读:
如果红色圆圈的数据点SHKT-FP值高,则说明这些数据点可能具有某些共同的特征或属性。
注意事项:
通常,我们只考察贡献度前2或前3的主成分,以简化可视化并突出主要变化方向。
PCA图可以帮助我们理解数据的结构,识别主要变化方向,以及进行数据降维。
希望这些信息能帮助你更好地理解PCA图。