PHP 与 UTF-8 的最佳实践详细介绍
《PHP中的字符串、编码、UTF-8》一文中描述了一些列的基础知识,比较枯燥,现在来说点有用的——PHP字符串处理的最佳实践,本文是“PHP、字符串、编码、UTF-8”相关知识的第二部分。先说结论——在PHP中的各个方面使用UTF-8编码。
PHP语言层面是不支持Unicode字符集的,但是可以通过UTF-8编码能处理大部分问题。
最佳实践就是明确知道输入编码(不知道就检测),内部统一转换为UTF-8编码,输出编码也统一是UTF-8编码。
PHP层面如何处理UTF-8
当操作Unicode字符集的时候,请务必安装mbstring扩展,并使用相应的函数代替原生的字符串函数。举个例子,一个文件编码为UTF-8的PHP代码,假如使用strlen()函数是错误的,请使用mb_strlen()函数代替。
mbstring扩展大部分的函数都需要基于一个编码(内部编码)来处理,请务必统一使用UTF-8编码,这个大部分可以在PHP.INI中配置。
从PHP5.6开始,default_charset配置可以替换mbstring.http_input,mbstring.http_output。
另外一个重要的配置就是mbstring.language,这个默认值是Neutral(UTF-8)。
注意文件编码和mbstring扩展的内部编码不是同一个概念。
概括的说来:
- PHP.INI中涉及到mbstring扩展的部分尽量使用UTF-8。
- 请用mbstring扩展函数代替原生字符串操作函数。
- 在使用相关函数的时候,请务必了解你操作的字符的编码是什么,在使用对应函数的时候,显示的写上UTF-8编码参数,比如htmlentities()函数的第三个参数显示写上UTF-8。
文件IO操作如何处理UTF-8
这里举个例子,假如你要打开一个文件,但是不知道文件内容是什么编码的,那么如何处理呢?
最佳实践就是,在打开的时候统一转换成UTF-8,修改内容后就再转回原来的编码并保存到文件。看代码把:
if(mb_internal_encoding()!="UTF-8"){ mb_internal_encoding("UTF-8"); } $file="file.txt";//一个编码为gbk的中文文件 $str=file_get_contents($file); //不管来源是什么编码,统一显示的时候转换为UTF-8 if(mb_check_encoding($str,"GBK")) $str=mb_convert_encoding($str,"UTF-8",“GBK”); $str="修改内容"; $str=mb_convert_encoding($str,$srcbm,"UTF-8");//原样转回去 file_put_contents($file,$str);
Mysql和UTF-8的最佳实践
这个相对简单,首先保证你的Mysql都是UTF-8。然后Mysql客户端连接的时候也保持UTF-8,具体到PHP中,就是imysql或者PDO扩展连接Mysql的时候都设置UTF-8作为连接编码,二边保持一致,一般就不会遇到问题。
浏览器和UTF-8的最佳实践
这个也比较简单,就是你的输出内容假如是网页,那么你的字符串处理输出最总请保持为UTF-8;同时PHP.INI中也明确设定default_charset为UTF-8;HTML的MetaTag也明确标识为UTF-8。
现在万事大吉了吗,并没有,虽然服务器和浏览器让用户使用UTF-8编码,但是用户的行为并没有约束性,他可能输入的是其他编码的字符,或者上传的文件名是其他编码的字符,那么怎么办呢?可以通过mb_http_input()和mb_check_encoding()函数来检测用户的编码,然后内部转换为UTF-8。确保在任何一个层面,最终处理的是UTF-8编码。换句话说,需要手段能够知晓你的输入是什么编码的,处理完成后控制输出的编码是UTF-8。
不建议使用mbstring.encoding_translation指令和mb_detect_encoding()函数。折磨我半天。
操作系统和UTF-8的最佳实践
由于操作系统的原因,PHP处理Unicode文件名的时候会有不同的处理机制。
在Linux中,文件名始终是UTF-8编码的,而在中文Windows环境下,文件名始终是GBK编码的,记住这一点就可以了。
通过例子说明下:
//命令行程序函数,运行在中文版Windows10操作系统,文件编码为UTF-8 functionfilenameexample(){ $filename="测试.txt"; $gbk_filename=iconv("UTF-8","GBK",$filename); file_put_contents($gbk_filename,"测试"); echofile_get_contents($gbk_filename); } functionscandirexample(){ $arr=scandir("./tmp"); foreach($arras$v){ if($v=="."||$v=="..") continue; $filename=iconv("GBK","UTF-8",$v); $content=file_get_contents("./tmp/".$v); } }
假如不想写写兼容Windows和linux的程序,可以对文件名进行urlencode编码,比如:
functionurlencodeexample(){ $filename="测试2.txt"; $urlencodefilename=urlencode($filename); file_put_contents($urlencodefilename,"测试"); echofile_get_contents($urlencodefilename); }
在用PHP通过header()函数下载文件的时候,也要考虑浏览器和操作系统(大部分人使用的是Windows),对于Chrome来说,输出的文件名编码可以是UTF-8,Chrome会自动将文件名转换为GBK编码。
而对于低版本的IE来说,它继承了操作系统的环境,所以下载文件名假如是中文必须转码为UTF-8编码,否则下载的时候用户看到的是乱码文件名。通过代码来说明:
$agent=$_SERVER["HTTP_USER_AGENT"]; if(strpos($agent,'MSIE')!==false{ $filename=iconv("UTF-8","GBK","附件.txt"); header("Content-Disposition:attachment;filename=\"$filename\""); }
感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!