在Python中进行线性回归通常涉及以下步骤:
数据准备
读取数据集,通常使用Pandas库。
将数据集分为自变量(X)和因变量(Y)。
数据预处理 (如果需要):
对数据进行归一化或标准化处理。
模型训练
使用scikit-learn库中的`LinearRegression`类来训练模型。
模型评估
使用测试集评估模型的表现,通常通过计算R²值、均方误差(MSE)等指标。
模型预测
使用训练好的模型对新的数据进行预测。
下面是一个简单的例子,展示如何使用scikit-learn库进行一元线性回归:
导入必要的库
import numpy as np
from sklearn.linear_model import LinearRegression
import pandas as pd
from io import StringIO
import matplotlib.pyplot as plt
准备数据集
csv_data = '''square_feet,price
150,6450
200,7450
250,8450
300,9450
350,11450
400,15450
600,18450'''
df = pd.read_csv(StringIO(csv_data))
划分数据集为X和Y
X = df['square_feet'].values.reshape(-1, 1)
Y = df['price'].values
创建线性回归模型
regr = LinearRegression()
训练模型
regr.fit(X, Y)
预测
y_pred = regr.predict(X)
可视化结果
plt.scatter(X, Y, color='blue')
plt.plot(X, y_pred, color='red')
plt.show()
输出回归系数
print('Intercept:', regr.intercept_)
print('Coefficient:', regr.coef_)
这个例子展示了如何从CSV文件中读取数据,进行简单的线性回归分析,并输出回归方程的截距和斜率。
如果您需要更复杂的线性回归模型,比如多元线性回归,可以使用`LinearRegression`类并提供多个自变量。