GBK是中国的一种字符编码,主要用于表示简体中文和繁体中文的字符。在Python中,如果需要处理GBK编码的文本,通常需要进行编码转换,因为Python默认的字符串类型是Unicode(UTF-8编码)。
下面是一个简单的示例,展示如何在Python中将GBK编码的字符串转换为Unicode,然后再转换回GBK编码:
假设我们有一个GBK编码的字符串
gbk_str = '字'
使用decode方法将其转换为Unicode
unicode_str = gbk_str.decode('gbk')
print(unicode_str) 输出:字
使用encode方法将Unicode转换回GBK编码
gbk_str_again = unicode_str.encode('gbk')
print(gbk_str_again) 输出:b'\xe5\xad\x97'
需要注意的是,在Windows控制台中,如果控制台的默认编码不是GBK,那么在输入GBK编码的字符串时可能会出现乱码。查看或修改Windows控制台的编码,可以通过右键点击控制台窗口,选择“属性”,然后在“字体”选项卡中查看当前的编码设置。