在Python中,计算相关系数矩阵可以通过多种方法实现,以下是使用Pandas和NumPy库的两种常见方法:
方法一:使用NumPy
import numpy as np
创建数据集
data = np.array([
[1, 2, 3, 4, 5],
[2, 3, 4, 5, 6],
[5, 4, 3, 2, 1]
])
计算皮尔逊相关系数矩阵
correlation_matrix = np.corrcoef(data)
print("皮尔逊相关系数矩阵:")
print(correlation_matrix)
方法二:使用Pandas
import pandas as pd
创建示例DataFrame
data = {
'A': [1, 2, 3, 4, 5],
'B': [5, 4, 3, 2, 1],
'C': [2, 3, 1, 5, 4]
}
df = pd.DataFrame(data)
计算相关系数矩阵
correlation_matrix = df.corr()
print("相关系数矩阵:")
print(correlation_matrix)
可视化相关系数矩阵
你还可以使用Seaborn库来可视化相关系数矩阵,例如使用热力图:
import seaborn as sns
import matplotlib.pyplot as plt
创建示例数据集
data = sns.load_dataset('mpg')
计算相关系数矩阵(仅数值列)
correlation_matrix = data.corr(numeric_only=True)
绘制热力图
plt.figure(figsize=(9, 9))
sns.heatmap(correlation_matrix, annot=True, cmap='Blues')
plt.show()