Pandas 是一个强大的 Python 数据分析库,它基于 NumPy 开发,提供了数据结构(如 Series 和 DataFrame)和多种数据处理功能。以下是使用 Pandas 的一些基本步骤和示例:
1. 导入 Pandas
import pandas as pd
2. 读取数据
从 CSV 文件读取
df = pd.read_csv('name.csv', header=1) header=1 表示第二行作为列名
从 Excel 文件读取
df = pd.read_excel('name.xlsx')
从 URL 读取
df = pd.read_csv('http://example.com/data.csv', sep=';')
3. 查看数据
查看列名称
print(df.columns)
查看前 10 行数据
print(df.head())
查看后 10 行数据
print(df.tail())
4. 数据清洗
用数字填充空值
df.fillna(0, inplace=True)
使用列的均值填充空值
df['prince'].fillna(df['prince'].mean(), inplace=True)
清除字符串中的空格
df['city'] = df['city'].str.strip()
5. 数据输出
写入 Excel
df.to_excel('output.xlsx', index=False)
写入 CSV
df.to_csv('output.csv', index=False)
6. 数据处理
数据筛选
df[df['a'] > 5] 选择 'a' 列大于 5 的行
数据切片
df.loc[1:3, 'Python':'Keras'] 选择第 1 到 3 行,'Python' 到 'Keras' 列的数据
数据排序
df.sort_values(by='date', ascending=True) 根据 'date' 列升序排序
7. 数据可视化(可选)
Pandas 结合 Matplotlib 或 Seaborn 可以进行数据可视化。
8. 其他注意事项
Pandas 支持多种数据类型,包括数字、字符串等。
可以使用 `pd.Series` 和 `pd.DataFrame` 来创建一维和二维数据结构。
Pandas 提供了丰富的数据处理函数,如合并、聚合、分组等。
以上是 Pandas 的一些基本用法,根据具体需求,你可以进一步探索 Pandas 的其他功能和特性。