文章导航PC6首页软件下载单机游戏安卓资源苹果资源

pc软件新闻网络操作系统办公工具编程服务器软件评测

安卓新闻资讯应用教程刷机教程安卓游戏攻略tv资讯深度阅读综合安卓评测

苹果ios资讯苹果手机越狱备份教程美化教程ios软件教程mac教程

单机游戏角色扮演即时战略动作射击棋牌游戏体育竞技模拟经营其它游戏游戏工具

网游cf活动dnf活动lol周免英雄lol礼包

手游最新动态手游评测手游活动新游预告手游问答

您的位置:首页网页设计PHP技巧 → GD输出汉字的函数的分析

GD输出汉字的函数的分析

时间:2004/11/7 3:19:00来源:本站整理作者:蓝点我要评论(0)

    很早以前找到一个把GB码转化为UTF-8的函数,配合一个GB到UNICODE的对照表(gb2312.txt),用于在GD中输出汉字。后来发现在欲输出的内容中含有西文字符时,会出现混乱。后来找到了修改后的代码,解决了问题。现将两个函数做一对比分析如下。



首先,这是一个UNICODE到UTF-8编码转换的函数,这一部分修改前后没有变化:

function u2utf8($c)

{

for($i=0;$i
$str="";

if ($c < 0x80) {

$str.=$c;

}

else if ($c < 0x800) {

$str.=(0xC0 | $c>>6);

$str.=(0x80 | $c & 0x3F);

}

else if ($c < 0x10000) {

$str.=(0xE0 | $c>>12);

$str.=(0x80 | $c>>6 & 0x3F);

$str.=(0x80 | $c & 0x3F);

}

else if ($c < 0x200000) {

$str.=(0xF0 | $c>>18);

$str.=(0x80 | $c>>12 & 0x3F);

$str.=(0x80 | $c>>6 & 0x3F);

$str.=(0x80 | $c & 0x3F);

}

return $str;

}



这里完全是按照UTF-8编码的规则,通过判断字符属于不同的UNICODE编码段范围,进行不同的移位和位与操作,以转化为UTF-8编码。关于该规则可参考http://www.utf8.org/上的说明。



这是修改前的GB转化为UTF-8编码的函数,其中调用了上面的u2utf8函数。

function gb2utf8($gb)     /* Program writen by sadly www.phpx.com  */

{

if(!trim($gb))

return $gb;

$filename="gb2312.txt";

$tmp=file($filename);

$codetable=array();

while(list($key,$value)=each($tmp))

$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);

$utf8="";

while($gb)

{

if (ord(substr($gb,0,1))>127)

{

$this=substr($gb,0,2);

$gb=substr($gb,2,strlen($gb));

$utf8.=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));

}

else

{

$gb=substr($gb,1,strlen($gb));

$utf8.=u2utf8(substr($gb,0,1));

}

}



$ret="";

for($i=0;$i
$ret.=chr(substr($utf8,$i,3));



return $ret;

}

函数中while循环部分,把汉字逐个按照“对照表”转化为UNICODE,再通过u2utf8函数转化为UTF-8。但从中可以看出,while循环结束后,又用一个for循环,把每三个字节合成了一个UTF-8字符(见http://www.utf8.org/上的规则说明,每个汉字的UTF-8编码为三字节),没有考虑到其中的西文字符(西文字符的UTF-8编码为一字节)。所以,如果欲输出的内容中不论是开始时出现西文字符,或是汉字当中穿插西文字符,转化为UTF-8后,都会被按照“每三个字节截取”的方式截开,导致乱码。





以下是修改后的函数:

function gb2utf8($gb)    /* Program writen by sadly   modified by agun */

{

if(!trim($gb))

return $gb;

$filename="gb2312.txt";

$tmp=file($filename);

$codetable=array();

while(list($key,$value)=each($tmp))

$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);



$ret="";

$utf8="";

while($gb)

{

if (ord(substr($gb,0,1))>127)

{

$this=substr($gb,0,2);

$gb=substr($gb,2,strlen($gb));

$utf8=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));

for($i=0;$i
$ret.=chr(substr($utf8,$i,3));

}

else

{

$ret.=substr($gb,0,1);

$gb=substr($gb,1,strlen($gb));

}

}

return $ret;

}



修改后的函数将 GB转化为UNICODE、UNICODE转化为UTF-8、几个字节合成一个UTF-8字符,这三个步骤在一个循环里完成,尤其是几个字节合成一个UTF-8字符这一步骤,放在判断了字符属于西文还是属于汉字的条件分支里,据此决定截取一个字节还是三个字节。于是结果正确了!


相关阅读 Windows错误代码大全 Windows错误代码查询激活windows有什么用Mac QQ和Windows QQ聊天记录怎么合并 Mac QQ和Windows QQ聊天记录Windows 10自动更新怎么关闭 如何关闭Windows 10自动更新windows 10 rs4快速预览版17017下载错误问题Win10秋季创意者更新16291更新了什么 win10 16291更新内容windows10秋季创意者更新时间 windows10秋季创意者更新内容kb3150513补丁更新了什么 Windows 10补丁kb3150513是什么

文章评论
发表评论

热门文章 没有查询到任何记录。

最新文章 如何恢复Discuz!7.0被 CSS实现Tab技巧Linux配置DHCP服务器实例:linux配置教程如何在IIS7下设置支持PHP程序PHP技巧--通过COM使用ADODB

人气排行 dedecms数据库表和字段说明最小化数据传输——在客户端存储数据php如何自动跳转中英文页面如何在IIS7下设置支持PHP程序php批量获取首字母(汉字、数字、英文)经典php实现大文件上传源代码Windows环境PHP的session不能正常使用解决办PHP聊天室技术