python版本坑:md5例子(python2与python3中md5区别)
起步
对于一些字符,python2和python3的md5加密出来是不一样的.
#python2.7 pwd="xxx"+chr(163)+"fj" checkcode=hashlib.md5(pwd).hexdigest() printcheckcode#ea25a328180680aab82b2ef8c456b4ce #python3.6 pwd="xxx"+chr(163)+"fj" checkcode=hashlib.md5(pwd.encode("utf-8")).hexdigest() print(checkcode)#b517e074034d1913b706829a1b9d1b67
按代码差异来将,就是在python3中需要对字符串进行encode操作,如果没有则会报错:
checkcode=hashlib.md5(pwd).hexdigest() TypeError:Unicode-objectsmustbeencodedbeforehashing
这是因为加密时需要将字符串转化为bytes类型,3默认编码是utf-8.所以我用utf-8进行解码.
分析
如果字符串中没有 chr(163) ,那么两个版本结果是一致的,也就是说问题出在这个chr(163)中:
#python2.7 >>>chr(163) '\xa3' #python3.6 >>>chr(163) '\xa3'
在这里说明通过chr得到的结果是一致的,将它转为bytes类型看看:
#python2.7 >>>bytes(chr(163)) '\xa3' #python3.6 >>>chr(163).encode() b'\xc2\xa3'
python3中,在num<128的时候,使用chr(num).encode('utf-8')得到的是一个字符的ascii十六进制,而num>128的时候,使用chr(num).encode('utf-8')得到的是两个字节的ascii十六进制.
解决
改用latin1编码进行解码:
#python3.6 pwd="xxx"+chr(163)+"fj" checkcode=hashlib.md5(pwd.encode("latin1")).hexdigest() print(checkcode)#ea25a328180680aab82b2ef8c456b4ce
额外
为什么是latin1编码呢.答案还是挺有意思的.
先说chr函数,通过help(chr)可以查看:
chr(...) chr(i)->Unicodecharacter ReturnaUnicodestringofonecharacterwithordinali;0<=i<=0x10ffff.
意思是它返回Unicode编码中指定位置的一个字符.python3内部也是用Unicode表示左右字符,即str类型.而通过encode后会编码成bytes类型.
ascii编码中每个字符编码是一个byte,但只有1-127.超过的部分128-255则属于ExtendedASCII,python3中默认的ascii中不包含这部分,所以如果执行chr(163).encode("ascii")就会报错'ascii'codeccan'tencodecharacter'\xa3'inposition3:ordinalnotinrange(128)
因此需要一个含有128-255中的部分字符的编码,且采用1个Byte固定大小编码,比如ISO8859-1,也就是latin1.当然还有其他编码如cp1252也包含这些字符的.