在Python中使用中文数据,需要注意以下几点:
文件编码
在Python脚本文件的开头添加编码声明,指定文件编码为UTF-8:
-*- coding: utf-8 -*-
字符串表示
使用Unicode字符串表示法,在字符串前添加字母`u`:
str1 = u"你好,世界!"
文件读写
读取包含中文的文本文件时,使用`open()`函数并指定编码为UTF-8:
file = open("file.txt", "r", encoding="utf-8")
写入中文文本到文件时,同样需要指定编码为UTF-8:
file = open("file.txt", "w", encoding="utf-8")
file.write(u"你好,世界!")
命令行输入输出
在命令行中,Python 3默认使用UTF-8编码,可以直接输入中文。
在Python 2.x中,可能需要先将输入的字符串从GBK解码为Unicode,再编码为UTF-8。
数据处理
对于中文数据分析,可以使用诸如`jieba`(分词)、`sklearn`(文本分类)、`gensim`(相似度计算)等库。
编码转换
如果遇到乱码问题,可以使用`decode`和`encode`函数对字符进行重新解码和编码。
读取外部数据
使用`pandas`读取CSV文件时,确保文件的编码是支持中文的,如UTF-8。
import pandas as pd
df = pd.read_csv("file.csv", encoding="utf-8")
print(df)
确保你的文本编辑器和IDE支持UTF-8编码,并在读取或写入文件时明确指定编码,以避免中文乱码问题。