在Python中处理脏数据通常涉及以下几个步骤:
导入数据
使用Pandas库中的`read_csv()`或`read_excel()`方法将数据导入到Python环境中。
```python
import pandas as pd
导入CSV文件
df = pd.read_csv('data.csv')
导入Excel文件
df = pd.read_excel('data.xlsx')
处理缺失值
删除缺失值:使用`dropna()`方法删除包含缺失值的行。
```python
df_cleaned = df.dropna()
填充缺失值:使用`fillna()`方法,可以填充特定值或列的平均值、中位数等。
```python
使用平均值填充
df_filled = df.fillna(df.mean())
处理重复值
使用`duplicated()`方法查找重复记录,并使用`drop_duplicates()`方法删除它们。
```python
查看重复值
print(df.duplicated().sum())
删除重复值
df_no_duplicates = df.drop_duplicates()
处理异常值
使用IQR(四分位距)方法识别并过滤异常值。
```python
Q1 = df['Salary'].quantile(0.25)
Q3 = df['Salary'].quantile(0.75)
IQR = Q3 - Q1
定义异常值范围
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
过滤异常值
df_no_outliers = df[~((df['Salary'] < lower_bound) | (df['Salary'] > upper_bound))]
数据类型转换
确保所有数据列类型一致,例如将字符串转换为日期时间对象。
```python
df['Date'] = pd.to_datetime(df['Date'])
数据清理后的保存
清洗后的数据可以保存到新的CSV或Excel文件中。
```python
保存到新的CSV文件
df_cleaned.to_csv('cleaned_data.csv', index=False)
保存到新的Excel文件
df_cleaned.to_excel('cleaned_data.xlsx', index=False)
以上步骤可以帮助你清洗数据,提高数据质量和准确性。