找回密码
 立即注册→加入我们

QQ登录

只需一步,快速开始

搜索
热搜: 下载 VB C 实现 编写
查看: 8139|回复: 1

【文字编码】乱码“锟斤拷”产生的原因

[复制链接]
发表于 2014-2-3 20:33:05 | 显示全部楼层 |阅读模式

欢迎访问技术宅的结界,请注册或者登录吧。

您需要 登录 才可以下载或查看,没有账号?立即注册→加入我们

×
我刚才用谷歌浏览器搜索“辛苦了用日语怎么说”,然后,嗯,一开始很正常,我学到的短语是“お疲れ様”、“おつかれさま”。
但是我接着浏览的时候不知道怎么回事(没回过神来),看到的结果是“日语说锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷
于是我就百度了一下(不谷歌是为了免得谷歌又给我“锟斤拷锟斤拷锟斤拷”),大致了解了这种乱码出现的原因。
请看相关资料:
http://baike.baidu.com/link?url=_wQsT1iAdLqHDW6etZLdFNcjdBd-eufqgCzOK2gO06uvH4AbRzfhvWlJtIeJi0s_rh4iCovDO9SfkOXVtaPHA_
懒得看资料的可以看我这里写的。
首先讲到以前用到的文字编码是UNICODE、ANSI等。UNICODE是用WORD数组来保存字符串,相比较而言ANSI用BYTE数组保存字符串能表示的文字就少很多。但是即使这样,UNICODE也不能表示所有的文字。UNICODE的官方做法是用一些占位符来表示这些文字,像这样:U+FFFD。那么U+FFFD的字符用UTF-8编码出来的结果是'\xef\xbf\xbd'。而如果有一定数量的这种字符(U+FFFD)组成字符串,那么UTF-8编码出来的结果就是差不多这样的:'\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd……',再把这样的UTF-8字符放到GBK、CP936、GB2312、GB18030编码的环境里显示的就是“锟斤拷锟斤拷锟斤拷锟斤拷”。
‘锟’= 0xEFBF
‘斤’= 0xBDEF
‘拷’= 0xBFBD

下面这张图。这个新闻看个蛋!我觉得“锟斤拷”这三个字可以用来当马赛克使。{:soso_e120:}
锟斤拷.jpg

锟斤拷_.jpg

回复

使用道具 举报

 楼主| 发表于 2014-12-30 17:22:40 | 显示全部楼层
不过“锟斤拷”听着很有节奏感……
回复 赞! 靠!

使用道具 举报

本版积分规则

QQ|Archiver|小黑屋|技术宅的结界 ( 滇ICP备16008837号 )|网站地图

GMT+8, 2024-11-23 17:36 , Processed in 0.041656 second(s), 28 queries , Gzip On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表