使用Python整理数据库通常涉及以下步骤:
导入必要的库
import pandas as pd
import numpy as np
加载数据
从CSV文件加载数据
df = pd.read_csv('path_to_your_file.csv')
查看数据信息
浏览数据信息
print(df.head())
处理缺失值
查找缺失值
print(df.isnull().sum())
滤除缺失值
df = df.dropna() 默认丢弃任何含有缺失值的行
或者
df = df.dropna(how='all') 只丢弃全为NA的那些行
或者
df = df.dropna(axis=1, how='all') 丢弃列,只要传入axis = 1即可
或者
df = df.dropna(thresh=3) 只想留下一部分数据,即将含有NA的行删除
填充缺失数据
df = df.fillna(value) 用特定值填充缺失值
数据清洗
去重
df = df.drop_duplicates()
替换缺失值
df = df.fillna(value) 用特定值填充缺失值
数据排序
按某一列排序数据框
df_sorted = df.sort_values('column_name')
数据筛选
筛选出满足条件的行
df_filtered = df[df['column_name'] > value]
添加新列
添加新的列到数据框
df['new_column_name'] = new_values
删除列或行
删除某一列
df_drop_column = df.drop('column_name', axis=1)
删除某一行的数据
df_drop_row = df.drop(index, axis=0)
数据可视化(可选):
import matplotlib.pyplot as plt
绘制图表
df.plot()
plt.show()
以上步骤可以帮助你使用Python进行基本的数据整理工作。根据具体需求,你可能需要使用更高级的功能,如数据聚合、分组、透视表等。