python2 编码问题_忙忙碌碌网

2023-02-05 12:19:12

实践了这么久终于有了这篇文章，别的不多说。（下面的介绍转载自：https://www.cnblogs.com/liupp123/articles/8023861.html）

1. ASCII码

我们知道，在计算机内部，所有的信息最终都表示为一个二进制的字符串。每一个二进制位（bit）有0和1两种状态，因此八个二进制位就可以组合出256种状态，这被称为一个字节（byte）。也就是说，一个字节一共可以用来表示256种不同的状态，每一个状态对应一个符号，就是256个符号，从00000000到11111111。

上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为ASCII码，一直沿用至今。

ASCII码一共规定了128个字符的编码，比如空格"SPACE"是32（二进制00100000），大写的字母A是65（二进制01000001）。这128个符号（包括32个不能打印出来的控制符号），只占用了一个字节的后面7位，最前面的1位统一规定为0。

2、非ASCII编码

英语用128个符号编码就够了，但是用来表示其他语言，128个符号是不够的。比如，在法语中，字母上方有注音符号，它就无法用ASCII码表示。于是，一些欧洲国家就决定，利用字节中闲置的最高位编入新的符号。比如，法语中的é的编码为130（二进制10000010）。这样一来，这些欧洲国家使用的编码体系，可以表示最多256个符号。

但是，这里又出现了新的问题。不同的国家有不同的字母，因此，哪怕它们都使用256个符号的编码方式，代表的字母却不一样。比如，130在法语编码中代表了é，在希伯来语编码中却代表了字母Gimel (ג)，在俄语编码中又会代表另一个符号。但是不管怎样，所有这些编码方式中，0--127表示的符号是一样的，不一样的只是128--255的这一段。

至于亚洲国家的文字，使用的符号就更多了，汉字就多达10万左右。一个字节只能表示256种符号，肯定是不够的，就必须使用多个字节表达一个符号。比如，简体中文常见的编码方式是GB2312，使用两个字节表示一个汉字，所以理论上最多可以表示256x256=65536个符号。

中文编码的问题需要专文讨论，这篇笔记不涉及。这里只指出，虽然都是用多个字节表示一个符号，但是GB类的汉字编码与后文的Unicode和UTF-8是毫无关系的。

3.Unicode

世界上存在着多种编码方式，同一个二进制数字可以被解释成不同的符号。因此，要想打开一个文本文件，就必须知道它的编码方式，否则用错误的编码方式解读，就会出现乱码。为什么电子邮件常常出现乱码？就是因为发信人和收信人使用的编码方式不一样。

可以想象，如果有一种编码，将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码，那么乱码问题就会消失。这就是Unicode，就像它的名字都表示的，这是一种所有符号的编码。

Unicode当然是一个很大的集合，现在的规模可以容纳100多万个符号。每个符号的编码都不一样，比如，U+0639表示阿拉伯字母Ain，U+0041表示英语的大写字母A，U+4E25表示汉字"严"。具体的符号对应表，可以查询unicode.org，或者专门的汉字对应表。

4. Unicode的问题

需要注意的是，Unicode只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。

比如，汉字"严"的unicode是十六进制数4E25，转换成二进制数足足有15位（100111000100101），也就是说这个符号的表示至少需要2个字节。表示其他更大的符号，可能需要3个字节或者4个字节，甚至更多。

这里就有两个严重的问题，第一个问题是，如何才能区别Unicode和ASCII？计算机怎么知道三个字节表示一个符号，而不是分别表示三个符号呢？第二个问题是，我们已经知道，英文字母只用一个字节表示就够了，如果Unicode统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是0，这对于存储来说是极大的浪费，文本文件的大小会因此大出二三倍，这是无法接受的。

它们造成的结果是：1）出现了Unicode的多种存储方式，也就是说有许多种不同的二进制格式，可以用来表示Unicode。2）Unicode在很长一段时间内无法推广，直到互联网的出现。

5.UTF-8

互联网的普及，强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种Unicode的实现方式。其他实现方式还包括UTF-16（字符用两个字节或四个字节表示）和UTF-32（字符用四个字节表示），不过在互联网上基本不用。重复一遍，这里的关系是，UTF-8是Unicode的实现方式之一。

UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8的编码规则很简单，只有二条：

1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

通过对上面的理解我们终于知道网上常见的一个例子的解释错误的离谱，下面是错误的例子：

在使用json.dumps时要注意一个问题

 
>>> import json
>>> print json.dumps('中国')
"\u4e2d\u56fd"
 
输出的会是
'中国' ascii 字符码，而不是真正的中文。

搞笑的很多都是这么说的，误人子弟啊。 "中国的"ascii编码，中文没有ascii编码，再说一遍，中文没有ASCII编码。

1.python json.loads() json.dumps()

json.loads()返回的数据类型是dic类型，而且dic中的key,value都是unicode编码的字符串。

也就是说无论是网络流，还是文件流的json格式。当你转成python字典的时候，都会变成unicode格式，假设下面是某个网络流调用json.loads()之后的结果。

dic={u'primeID': u'aa734d0684285c07787253a0dee453c6', u'args': {u'chs_messageType_text': u'\u4e8b\u4ef6-\u8857\u9762\u79e9\u5e8f-\u673a\u52a8\u8f66\u4e71\u505c\u653e\u3001\u975e\u673a\u52a8\u8f66\u4e71\u505c\u653e', u'chs_executeUser_4_text': u'\u5730\u94c112\u53f7\u7ebf\u6768\u6811\u6d66\u8def\u7ad9'}}

 //dumps将字典序列化成str,当ensure_ascii=True的时候，默认会将字符串转成ASCII编码
 //但是当字符串是unicode类型的时候不做转换，会输出原型，这个时候打印出来的结果中unicode类型依旧是unicode类型
line = json.dumps(dic,ensure_ascii=True,separators=(",",":"))
print line 结果如下：
{"primeID":"aa734d0684285c07787253a0dee453c6","args":{"chs_messageType_text":"\u4e8b\u4ef6-\u8857\u9762\u79e9\u5e8f-\u673a\u52a8\u8f66\u4e71\u505c\u653e\u3001\u975e\u673a\u52a8\u8f66\u4e71\u505c\u653e","chs_executeUser_4_text":"\u5730\u94c112\u53f7\u7ebf\u6768\u6811\u6d66\u8def\u7ad9"}}
此时如果你将line写到文件中，那么就是上面的打印结果。

print type(line) //输出结果是：str

//那么如何打印出中文？看下面

line = json.dumps(dic,ensure_ascii=False,separators=(",",":"))
print line 结果如下：
{"primeID":"aa734d0684285c07787253a0dee453c6","args":{"chs_messageType_text":"事件-街面秩序-机动车乱停放、非机动车乱停放","chs_executeUser_4_text":"地铁12号线"}}
print type(line) //输出结果是：unicode


注意上面的：print type(line) 可以发现，当type是unicode的时候会打印出中文，也就是说对于中文格式，当这个中文是unicode类型的时候输出到控制台的就是中文。但是unicode类型是无法写入到文件的，如果我们想把中文json写出到文件该怎么办呢？  很简单，只需要把unicode转成utf-8即可。
with open("c:\\a.json", "a") as f:
    line = json.dumps(dic,ensure_ascii=True,separators=(",",":"))
    f.write(line.encode("utf-8"))

看下面：

print json.dumps('中国')   输出："\u4e2d\u56fd" 此时ensure_ascii=True也是默认情况，默认会采用AACII编码格式，但是中文是没有ASCII格式的，所以会把中文转成unicode字符串。这就是很多人难以理解的地方。那么如何才能将这个输出变成中文呢？ 有两种方式：

1：将"\u4e2d\u56fd"转成unicode格式即可，python输出unicode可以直接变成中文，但是这种方式不能作为流写出到文件，只能在控制台看，因为流的传输不用unicode。

line=json.dumps('中国').decode(encoding="unicode-escape")//这就是把unicode字符串转成unicode编码。

2：因为json.dumps的时候默认ASCII编码，遇到中文会转成unicode字符串，当不用ASCII编码的时候，默认采用字典原来的编码，而python字典的编码默认是unicode,python输出unicode格式就会输出中文样式。

line=json.dumps('中国‘，ensure_ascii=False).

上面两种方式其实都是保留了字典的原格式也就是unicode格式，故而可以直接输出，输出的时候中文可以直接输出为肉眼识别的样式。但是这两种类样式都不可以直接写出到文件，写出到文件必须是str流的样式，为了保证中文写入到文件，必须再次指定传输编码。下面的代码就可以。

  with open("c:\\a.txt") as f:

      line.encode("utf-8")

2：工作中如何做？

正常情况下python接收网络流的时候调用json.loads()的时候生成python的字典，字典中的key，value都是unicode格式，此时我们可以递归把字典中的key，value 中的unicode格式变成utf-8格式，后面使用起来就很方便基本不会有任何编码的问题，递归转化方法如下：

def toutf8Str(v):
    if v is None:
        return v
    if isinstance(v, unicode):
        return v.encode("utf8")
    if isinstance(v, str):
        return v
    if isinstance(v, dict):
        d = {}
        for key, value in v.items():
            d[toutf8Str(key)] = toutf8Str(value)
        return d
    if isinstance(v, list):
        l = [toutf8Str(i) for i in v]
        return l
    return str(v)

3：注意

python中的编码转化，任何编码都可以解码成unicode编码，A编码如果想变成B编码，则A编码需要先decode成Unicode 然后在encode成B

a="中国"
b=a.decode(encoding="utf-8") //encoding的意思是a原来的编码是什么，你只有知道a是什么编码才能转成unicode
print type(b) //这是unicode
c=b.encode(encoding="gbk")//unicode编码的c转成gbk编码

4:python中unicode方法

python中有一个unicode方法，来看看源码：

def __init__(self, string=u'', encoding=None, errors='strict'): # known special case of unicode.__init__
        """
        unicode(object='') -> unicode object
        unicode(string[, encoding[, errors]]) -> unicode object
        
        Create a new Unicode object from the given encoded string.
        encoding defaults to the current default string encoding.
        errors can be 'strict', 'replace' or 'ignore' and defaults to 'strict'.
        # (copied from class doc)
        """
        pass

//意思是将给定的字符串的编码解码转成unicode编码，如果不指定当前字符串的编码encoding，则当前字符串的编码为ASCII编码。

a=unicode(string="中国",encoding="utf-8")
print type(a)

a=unicode(string="中国")会出错，因为默认会认为string="中国" 是ASCII编码，在尝试用ASCII解码成unicode的时候会出错，中文没有ASCII编码。