主成分分析(PCA)作为一种强大的数据降维和探索性分析方法,在处理包含大量变量的数据集时,能够帮助研究者更清晰地揭示数据内在的变异模式。
主成分分析是一种广泛应用于数据降维和探索性分析的技术,尤其在量表构建或其他多变量数据集的研究中发挥着重要作用。本文将详细介绍如何在R语言环境中高效地实现主成分分析及其可视化过程。
本次演示将使用R语言内置的mtcars数据集,该数据集包含32个观测值和11个变量。尽管观测数量相对较少,但变量数量较多,适合进行主成分分析以筛选关键主成分。
在进行主成分分析时,有几个关键点需要注意:主成分分析仅适用于数值型数据,并且所有数值型变量必须经过标准化处理
主成分分析仅处理数值型数据分类数据需要转换为数值型数据(例如通过独热编码)数值型数据必须进行标准化(否则分析结果可能存在误导性)从数据结构来看,mtcars数据集仅包含数值型变量,但尚未进行标准化处理。因此,在进行主成分分析前,我们需要对数据进行标准化。这一步骤非常简单,只需在相关函数中设置scale参数为TRUE即可:
上述代码实现了对mtcars数据集的完整主成分分析,并输出了每个主成分解释的方差比例。
在实际应用中,我们通常需要绘制碎石图来确定保留的主成分数量,这一过程也非常便捷:
更具趣味性的是,我们可以轻松地展示变量与主成分之间的关系:
在上图中,所有主成分均从图中心发出,其中hp(马力)、cyl(气缸数)、disp(排量)和wt(重量)等变量对主成分1的贡献较大。然而,这还不足以满足我们的需求,因为该数据集涉及汽车数据,我们更希望了解不同汽车在哪些变量上表现更突出。
为此,我们可以在图中的样本点添加标签:
通过这种方式,你可以清晰地看到哪些样本点的特征最为相似。
此外
你可以对样本点进行分组展示,例如在我的示例中,汽车来自日本、美国和欧洲三个不同的国家,我想观察不同国家的汽车在各个变量和主成分上的表现差异:
从图中可以看出,分组变量被自动添加到了图形中,形成了不同的圈圈和图例
通过这些圈圈,我们可以发现美国汽车的hp、cyl、disp和wt等特征表现更为突出!美国汽车与日本汽车之间的差异非常明显。
当然,上述分析仅基于第一主成分和第二主成分的视角。我想进一步查看其他主成分,比如PC3和PC4,是否也能提供有价值的信息?
安排:
此时,我们发现3、4主成分解释的变异相对较小,因此三个国家的汽车在这个图中难以表现出明显差异。这也是为什么通常我们默认在1、2主成分的视角下展示数据的原因。
也欢迎大家提出宝贵的意见和建议。
如果你是一名大学本科生或研究生,正在为统计作业、数据分析、论文、报告或考试而烦恼,如果你在使用SPSS、R、Python或Mplus等软件时遇到任何问题,都可以联系我。因为我可以为您提供最优质、最详细和最耐心的数据分析服务。
如果你是一名学生,正在担心你的统计作业、数据分析、论文、报告、考试等任务,如果你在使用SPSS、R编程、Excel或Mplus时遇到任何问题,请联系我。因为我可以为您提供最优质的数据分析服务。
你是否对统计技术如z检验、t检验、ANOVA、MANOVA、回归、逻辑回归、卡方检验、相关、关联、SEM、多水平模型、中介和调节等数据分析技术感到困惑?
那么请联系我。我将解决你的问题…
加油吧,打工人!