导入库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
数据收集和准备
从CSV文件中读取数据
data = pd.read_csv('data.csv')
查看数据的前几行
print(data.head())
计算数据的描述性统计量
print(data.describe())
数据可视化
绘制直方图
sns.histplot(data['column_name'])
plt.show()
绘制散点图
sns.scatterplot(x='column1', y='column2', data=data)
plt.show()
绘制箱线图
sns.boxplot(x='column_name', y='target_column', data=data)
plt.show()
相关性分析
计算相关性矩阵
correlation_matrix = data.corr()
使用热图可视化相关性矩阵
sns.heatmap(correlation_matrix, annot=True)
plt.show()
统计测试
进行独立样本t检验
t_stat, p_value = stats.ttest_ind(data['column1'], data['column2'])
print(f"t-statistic: {t_stat}, p-value: {p_value}")
线性回归 (使用NumPy):
创建数据
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
计算线性回归参数
slope, intercept, r_value, p_value, std_err = stats.linregress(data['x_column'], data['y_column'])
print(f"Slope: {slope}, Intercept: {intercept}, R-squared: {r_value2}")
其他统计方法
使用plotnine库进行统计描述、分布差异检验、相关分析和回归分析
from plotnine import *
绘制直方图
ggplot(data, aes(x='x_column')) + geom_histogram()
绘制箱线图
ggplot(data, aes(x='x_column', y='y_column')) + geom_boxplot()
进行线性回归分析
model = ols('y_column ~ x_column', data=data).fit()
print(model.summary())
以上步骤展示了如何使用Python进行基本的统计分析,包括数据准备、可视化、相关性分析、统计测试和线性回归等。你可以根据具体需求选择合适的库和方法进行更深入的数据分析。