|
发表于 2004-3-16 22:09:46
|
显示全部楼层
没这么简单。UTF-8/UCS-4 还是非常不错的。这点空间浪费对现在的存储器来说根本不算什么。
最初由 waq 发表
UTF-8考虑太多关于解码的正确性了,浪费了不少编码空间,导致常用的字都要3个字节来表示,太浪费了!其实本身有错误的文件,解码再正确也是不完全的,为了一点不完全的完美这么浪费不值得。何况现在已经是光纤时代了,哪那么容易出错啊。
应该使用UTF-8-1编码(瞎编的名字),高位为1的字节就是多字节编码字符的一部分,高位为0的字节就是字符编码的结束。这样自动兼容ASCII码,而且出错的地方会错一个字符。如果是二进制文档,不管怎么错都是全盘皆错,如果是文本文档,错一个字也没什么了不起的,UTF-8字符的第一个字节的高位1变成0的话也会出错,也一样检测不出来。
看来UNICODE也不要了,就用这种编码吧,就叫U8码好了。编码解码更简单,又不浪费空间,2个字节就表示3万多个字了,3个字节就能表示800万字(未来所有的字?)了,应该更容易推广! |
|