unicode码表转换 16进制unicode码表

unicode码表转换 16进制unicode码表“代码都是写给人看的,计算机只识别0、1二进制数据。”正如昨天从字符编码的背景说起,说到了字符集。今天我们就接着说说字符编码,以及以“国”字为例,来说说字符编码,解码的过程。01—字符编码字

代码都是写给人看的,计算机只识别0、1二进制数据。

正如昨天从字符编码的背景说起,说到了字符集。今天我们就接着说说字符编码,以及以“国”字为例,来说说字符编码,解码的过程。

01

字符编码

字符编码是一套法则,使用该法则能够对自然语言的字符的一个集合(如字母表或音节表),与其他东西的一个集合(如号码或电脉冲)进行配对。即在符号集合与数字系统之间建立对应关系,它是信息处理的一项基本技术。换句话说:字符编码就是将符号转换为计算机可以接受的数字系统的数,称为数字代码。

字符集

字符编码

ASCII

ASCII

ISO-8859-1

ISO-8859-1

GB2312

GB2312

GBK

GBK

Unicode

UTF-8,UTF-16,UTF-32

从第一篇中的截图也能看出,一个字符集,其实就是数字地址和其对应文字、符号之间对应关系。字符集本身就有字符编码的功能。下来重点要说下UTF-8。

由于Unicode对某些字符来说,占用字节太多,太浪费空间。所以,人们设计可变长的UTF-8编码规则来节省存储空间。UTF-8一种针对Unicode的可变长度字符编码(定长码),也是一种前缀码。它可以用来表示Unicode标准中的任何字符,且其编码中的第一个字节仍与ASCII兼容。

UTF-8的编码规则很简单,只有二条:

第一,对于单字节的符号,字节的第一位设为0,后面7位为这个符号的Unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。

第二,对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的Unicode码。

02

一个示例

下来,我们做一个示例。用来形象的展现下,文本编码之间的转换关系。还是用我们中国的“国”字来举例:由于是中文,那么这个“国”字,肯定在ASCII码里面不存在的;在ISO-8859-1里面也不存在的。

我们来看看“国”字在GBK里面的地址:从上面的截图能看到16进制地址是:B9FA。转换成2进制,就是10111001 11111010。而B9FA在Unicode字符集里面是一个朝鲜文。

字符集,字符编码

而这一串二进制10111001 11111010 不符合UTF-8编码规则,所以在UTF-8里面找不到对应字符。

而“国”字在Unicode里面的字符16进制地址是:56FD。转成二进制:00000000,00000000,01010110,11111101

那么这个二进制,如果用UTF-8实现的话,逻辑应该是怎么样的呢?这个二进制串,有15位。那么在UTF-8里面用几个字节来存放呢?

第一步:将上面二进制数据从低往高按照UTF-8规则来一位一位存放。

字符集,字符编码

第二步:继续从低往高存放位数据:

字符集,字符编码

第三步结束后发现,在UTF-8里面,3个字节就可以存储下对应的Unicode中的“国”字。

字符集,字符编码

如上图,灰色,表示UTF-8规则,第一个字节,3个1,表示有3个字节。第3+1位为0。淡红色的0表示高位补0。绿色表示Unicode编码用UTF-8编码实现的数据位。

也就是这个二进制,111001011001101110111101。转换为16进制后为:E59BBD

校验:我们通过网络工具,来查看下,“国”字UTF-8编码的二进制,如下图:

字符集,字符编码

UTF-8编码转16进制,如下图:

字符集,字符编码

可见,二进制,16进制,和我们自己推算出来的结果完全一致。

而如果用E59BBD地址,反过来在GBK字符集里面查找的话,确是什么都查找不到的。

字符集,字符编码

由于GBK字符集总共有23940个码位。其中收录汉字和图形符号21886个。而E59BBD 10进制数字为:15047613。远远超过23940这个数字。故此,用E59BBD在GBK里面查找对应内容,肯定什么都查不到。

回到文首说的“新闻”=>“鏂伴椈”这个问题,就很容易解释了。“新闻” 两个字UTF-8编码16进制数据为:“E696B0 E997BB”。在UTF-8转换成GBK编码过程中,由于GBK是双字节编码,所以,上述16进制数据变成3个字符“E696”、“B0E9”、“97BB”。而这三个字符,在GBK字符集中对应的字符就是“鏂”、“伴”、“椈”。所以就会表现出切换编码格式后,“新闻” 变成 “鏂伴椈” 这种表象。

经过这一番分析,举例。我们对什么是ASCII,什么是GBK,什么是Unicode,什么是UTF-8可能了解的更清晰,更透彻一些了。

【版权声明】零度号提醒您:请在浏览本网站关于《unicode码表转换 16进制unicode码表》信息时,请您务必阅读并理解本声明。本站部分内容以及图片来源于商家投稿和网络转载,如网站发布的有关的信息侵犯到您的权益,请及时与我们取得联系,邮箱:31055 30035@qq.com,我们会尊重您的决定并当天作出删除处理。

(0)
上一篇 2022年 9月 11日 13:42:36
下一篇 2022年 9月 11日 13:52:29

相关推荐

  • 京东打折力度最大节日 京东啥时候打折力度最狠

    京东打折力度最大节日 京东啥时候打折力度最狠我们时常会谈论淘宝天猫的各种活动,但不要忘了京东这一大电商平台,不止有618,他也有丰富的活动供商家参与,供消费者买买买。小觅整理了一份关于2022年京东全年活动时间表,一整年的活动时间都给大家整

    2022年 9月 23日
    20
  • 苹果8强制关机怎么操作 iphone屏幕失灵无法强制关机

    苹果8强制关机怎么操作 iphone屏幕失灵无法强制关机果粉们应该经常遇到 APP 卡死的情况,但大部分时候都可以通过缩小至主屏幕,打开后台任务中心后,关闭应用并重新开打就可以解决。如果再次打开同一个应用仍然会出现卡死等问题,在确认设备内存

    2022年 10月 18日
    3
  • 鱼尾辫怎么编 两侧鱼骨辫怎么编视频

    鱼尾辫怎么编 两侧鱼骨辫怎么编视频教你三种应急美发术!1、后脑勺位置先取一撮,发根逆梳打毛;然后向下再多抓取些头发,向上推推使其隆起,逆向旋钮,并用若干发夹固定。最后左右各取少量头发旋扭交叉固定,在固定一下。2、用手指随意扎起头发,尽量蓬松

    2022年 11月 1日
    3
  • 23个声母儿歌顺口溜和口诀 拼音w的儿歌顺口溜

    23个声母儿歌顺口溜和口诀 拼音w的儿歌顺口溜同学们,前面的知识都掌握了吗?能试着借助声母和韵母来完整地拼读音节了吗?今天我们来继续学习拼音知识,认识声母宝宝要y、w。我们根据拼音的读音或外形特点编了如下的小口诀帮助大家记忆,一起来看看吧!

    2022年 9月 18日
    12
  • 你值得拥有是什么广告 广告大全

    你值得拥有是什么广告 广告大全你值得拥有是什么广告 广告大全很多人问我,他们的公司是什么?我说我是一家专门做海外品牌的公司。首先说下我公司的企业名称:我值得拥有海外品牌(注册地:澳大利亚,美国,新西兰)。公司的运营模式是先在海外注册公司——

    2022年 12月 14日
    19
  • qq情侣空间怎么解除 qq情侣空间隐藏不了

    qq情侣空间怎么解除 qq情侣空间隐藏不了如何在QQ空间低调公开对象,分享一下几种方式,让你低调地炫耀自己的对象。1、可以把对象的照片公布在情侣空间里,QQ空间有个情侣空间,那里很适合你公开跟对象相处历程。你把对象的照片发到情侣空间里,因为

    2023年 1月 15日
    24
  • 拳皇97技能讲解 拳皇技能出招表

    拳皇97技能讲解 拳皇技能出招表主人公队:草雉京 外式·轰斧阳→+B 外式·奈落落(跳跃中)↓+C 八拾八式↘+D 百式·鬼燃烧→↓↘·A或C R.E.D.Kick(七百七式·独乐屠)←↓↙·B或D 贰百拾贰式·琴月阳→↘↓↙←·B或D 七

    2022年 9月 23日
    7
  • 瓦利游戏下载 瓦力社区app

    瓦利游戏下载 瓦力社区app区块链+人工智能的故事相信不少人都听过。人工智能有三个核心部分:数据、算法以及算力。一个 AI 算法模型,需要充足的算力支撑大量数据训练,方能升级为实用的优秀模型。区块链作为价值互联网,可为人工智能所需的资源,包

    2022年 12月 17日
    4
  • xp安装密钥破解 装系统的产品密钥是什么

    xp安装密钥破解 装系统的产品密钥是什么CMD命令:开始->运行->键入cmd或command(在命令行里可以看到系统版本、文件系统版本)1. appwiz.cpl:程序和功能2. calc:启动计算器3. certmgr.msc:证书管理

    2022年 12月 23日
    4
  • 2020踏板摩托车推荐 进口125踏板摩托车推荐

    2020踏板摩托车推荐 进口125踏板摩托车推荐五款有实力的125踏板车盘点,你会选谁?随着小排量踏板摩托车的需求量变大,目前主流厂家都推出了相关车型,这就让市面上的125踏板车越来越多了,也进一步增加了车友们的选择难度,毕竟在选择的过程中

    2022年 10月 12日
    6
分享本页
返回顶部