ASCII、Unicode和UTF-8编码的分歧

ASCII、Unicode和UTF-8编码的区分

摘要总括:

ASCII的编码是128个字符
GB2312编码用来把中文编进去的,日本把日文编进Shift_JIS里...
Unicode是为了解决各国乱码的,但浪费存储空间
UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6字节,英文字符是1个字节,汉字通常是3个字节,生僻字符是4-6个字节

常用编码介绍一览表:

编码 作用 所占字节数
ASCII 表示英语及西欧语言 1bytes
GB2312 国家简体中文字符集,兼容ASCII 2bytes
Unicode 国家标准组织统一标准字符集 2bytes
GBK GB2312的扩展字符集,支持繁体字,兼容GB2312 2bytes
UTF-8 不定长编码 1-3bytes

切实表达1二十二个假名被编码到计算机中,也正是深浅写罗马尼亚语字母、数字和一些标识,这么些编码表被产生ASCII编码,比方大小字母A代表65,小写字母a代表97。

而是要拍卖粤语显明三个字节是非常不够的,至少需求五个字节,况且还不可能和ASCII编码争辩,所以,中国拟订了GB2312编码,用来把汉语编进去。

您可以想到的是,举世有为数非常多种语言,东瀛把东瀛编到Shift_JIS里,韩国把日语编到Euc-kr里,各国有各国的规范,就不可防止的面世了争辩,结果正是:在多语混合的文书中,呈现出来会乱码。

就此,Unicode应时而生,Unicode把具备语言都合併到一套编码里,那样就不相会世难题了。

Unicode标准也在不停进化,但最常用的是用四个字节表示八个字符(假诺要用到丰盛偏僻的字符,就需求4个字节)。今世操作系统和大多数编制程序语言都直接协理Unicode。

新的主题素材又出新了:假诺统一换来Unicode编码,乱码的标题就无影无踪了,不过,假如写的稿子里都以韩语的话,Unicode编码比ASCII编码须求多一倍的累积空间,在蕴藏和传导上就不划算了。

所以,本着节约的动感,又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。

UTF-8编码把四个Unicode字符依据区别的数字大作者码成1-6个字节,常用的英文占用1个字节,汉字平时是3个字节,独有很素不相识的字符才会被编码成4-6个字节。要是您要传输的文本富含多量匈牙利(Magyarország)语字符,用UTF-8编码就能够省去空间。

UTF-8编码有一个额外的好处,正是ASCII编码实际上能够被当做是UTF-8编码的一片段,所以大气只支持ASCII编码的历史遗留软件能够在UTF-8编码下一连做事。

相关文章