中文编码集的发展史(ASCII码GBKUTF8)中文编程界的汉字编码问题,每一个小白的血泪史,每一个小白在处理中文

每个程序员都知道,不论是你在手机上看到漂亮小姐姐,还是这篇博文中的文字,在计算机底层存储中都是又一串01编码组成的二进制文件。

虽然对于计算机来说高低电平来控制程序的执行逻辑是很方便的事情,但是人可读不懂复杂冗长的二进制文件,因此就需要制定一种编码规则实现二进制文件与人类文字的相互转换,ACSII码应运而生。

计算机最早是由美国人在使用,于是由他们制定了二进制编码中8bit为一个字节(0~255),划定了0-32的控制码、26个大小写英文字母以及若干个英文符号的二进制编码,将一个字节使用到了127号,因此在ASCII码中一个字节就是一个英文字母,很好计算。美国人将这种编码方式命名为ANSI(AmericanNationalStandardsInstitute,美国国家标准学会)的ASCII码,全称AmericanStartandCodeforInformationInterchange,美国信息互换标准码。

随后很多欧洲国家也开始使用计算机,进而占用了一个字节的剩余128~255的位置,称为ISO8859-1,InternationalOrganizationforStandardization(国际标准组织)。

随后计算机逐渐在中国日本等国家流行开来,和之前面临同样的问题,中国也迫切需要一种编码方式将二进制按照某种规则翻译为汉字显示出来。但是和只有26个的英文字母不同的是,中文的每一个字都是一种新的写法,因此只能对每个汉字映射到一个二进制编码。而常用汉字就有6000多个,之前美国人定义的8bit=1字节完全不够用。于是人们想到了对于ASCII码进行扩展,用两个字节表示。并且将这种编码方式命令为GB2312(GB,Guóbiāo,中华人民共和国国家标准,简称国标,即国标2312)。

计算机在使用这种编码时,判断当前字节是否在0~127(ASCII码范围),如果在,则表示当前为单字节的英文字母;否则,会联合后面的一个字节共同判断当前的汉字表示(注意,在GB2312中两个字节都要大于127)。

整个过程用伪代码表示如下:

细心的读者可以发现,在GB2312标准中,只有两个相邻的字节都是128~255的编码值,才会将其解析为汉字,这其实完全没有必要,会浪费很多数字。因为其实只要读到一个字节是ASCII字符集以外的二进制,也就表明了这是一个汉字,其后的下一个字节完全可以取0~255中的任何一个数字,因此国标2312后又对其进行了字符集的扩展kuòzhǎn,也就诞生了我们耳熟能详的国标扩,GBK,这种双字节表示一个汉字的方式称为DBCS(DoubleByteCharecterSet双字节字符集)。这时候的解析伪代码如下:

台湾海峡隔海相望的另一边,同样使用着汉字的台湾人民也有着一套自己定制的汉字编码规范,称为大五码-BIG5,是繁体中文社区中最常用的编码方式,广泛使用于港澳台地区。

“大五码”(Big5)是由台湾财团法人信息产业策进会为五大中文套装软件所设计的中文共通内码,在1983年12月完成公告,隔年3月,信息产业策进会与台湾13家厂商签定“16位个人电脑套装软件合作开发(BIG-5)项目(五大中文套装软件)”,因为此中文内码是为台湾自行制作开发之“五大中文套装软件”所设计的,所以就称为Big5中文内码。五大中文套装软件虽然并没有如预期的取代国外的套装软件,但随着采用Big5码的国乔中文系统及倚天中文系统先后在台湾市场获得成功,使得Big5码深远地影响繁体中文电脑内码,直至今日。“五大码”的英文名称“Big5”后来被人按英文字序译回中文,以致现在有“五大码”和“大五码”两个中文名称。

说起BIG5编码,笔者就想起小时候刚有家庭PC机的时候,那个时候台湾的单机游戏可以说是百花齐放,当时国内盗版光盘泛滥,笔者当时最爱玩的一款游戏叫做《大富翁》,相信很多玩游戏的读者听到这个名字并不陌生,当时有很多台湾游戏厂商生产的单机游戏是我的童年挚爱。但是唯一的问题就是这该死的编码问题,当时笔者为了玩好某款游戏就不得不装一些字符集插件。否则的话游戏界面就会变成这样。

除了以上两种中文编码方式外,日语中也同样有着汉字,日语的标准编码称为JIS,如JISX0201

日本产业标准(日语:日本産業規格/にほんさんぎょうきかくNihonSangyōKikaku,英语:JapaneseIndustrialStandards,缩写JIS),日语又把JIS音译为ジス,是由日本产业标准调查会(JISC)组织制定和审议。JIS是日本国家级标准中最重要、最权威的标准。

从上面对中文编码的归纳中我们可以看出,随着互联网的逐渐发展,不同地区与文化之间的交流只会越来越紧密,不同编码之间的冲突成为了人与人之间自由交流沟通的阻碍。

为了解决不同地区编码的统一问题(尤其是中文编码问题),美国加州成立了一个Unicode组织,对现存的所有字符都进行了编码设置。

通用字符集(英语:UniversalCharacterSet,UCS)

因为Unicode编码字符集实在太多了,于是人们将Unicode编码进行了分组,分成了若干个平面(plane),我们日常能接触到的中文、英文、日文、韩文等都在0号平面。可以看到,Unicode当前的所有范围为0-0x10FFFF。

Unicode的实现方式称为Unicode转换格式(UnicodeTransformationFormat,简称为UTF)。

试想,如果所有的符号都采用16号平面的三字节存储,那欧美国家的人肯定不答应,因为他们基本不常用非英文字母,一个字节完全可以存储一个字母,现在改用三字节完全是对存储空间和网络传输的浪费。为了解决这个问题,有了如下几种UTF的转换格式:

UTF-32,使用32位即4个字节表示每种字符,例如英文位数不够的就补充0,正如前文所述,这是一种对空间的浪费,一般不会使用。

UTF-16,用2字节表示基本平面(即包含了英文、中文、日文等的0号平面),用4字节表示扩展平面(一般都是甲骨文等奇葩字符),通过特殊的编码位(称为代理)标识当前这2个字节是一个基本平面的字符还是半个扩展平面的字符,对于中文、英文字符都需要用两个字节来存储,只用英文的情况下存在对空间的浪费。

PS:UCS-2编码一般指的是没有执行扩展平面编码的UTF-16,如果你不是要显示甲骨文什么的,UCS-2=UTF-8

在文本文件的开头若干个字节用来标识下当前文件是以上哪种编码类型,该用哪种方式解码。

大端存储:两个字节1234,低位的34放在高位地址中,令人头大小端存储:两个字节1234,低位的34放在低位地址中

urlcode的存在主要是为了应对url中的非法字符,例如url中有特殊含义的保留字符=、/、空格等,还有一些ascii码不支持的字符(如中文)。

因此对于中文来说,所谓的url编码一般情况下其实就是UTF-8编码,如“中文”这两个汉字,UTF-8编码为0xE40xB80xAD0xE60x960x87,经过Url编码之后得到"%E4%B8%AD%E6%96%87",将它放到baidu.com的传参中

THE END
1.日语口语必备110个经典短句日语口语资讯[学习辅导]日语能力考课程水平测试 新东方在线日语网为大家带来日语口语必备110个经典短句一文,希望对大家的日语有所帮助。 1-10 そうそう。 对对。 (赞同对方的意思) すごい。 厉害。 (说时语气放慢) やっぱり。 果然。 (恍然大悟的样子) どうして。 https://m.koolearn.com/language/20191120/856039.html
2.干货日语口语必备110个经典短句在与日本人的对话中,对对方所说的话进行附和,是让对话更加流畅的一个小技巧。今天给大家分享日语口语必备110个经典短句,掌握了这些,基本就不用担心回话会尴尬了。 1-10 そうそう。 对对。(赞同对方的意思) すごい。 厉害。(说时语气放慢) やっぱり。 https://www.jianshu.com/p/97788d5e9ea6
3.840个日语惯用句型学习笔记~110110、~おそれがある【~恐れがある】 接在名詞+の/簡体文的后面,表示“有……可能性”,“恐怕……” 例:①来週は台風14 号の影響で、天気が大きく崩れる恐れがあるわけですね。 下周由于台风14号的影响,恐怕天气会大幅度变坏吧。 ②こう続けると、失敗する恐れがあります。 https://blog.csdn.net/harunogyou/article/details/7301101
4.学会这100句日语,看懂90的日漫,不信你试试日语日语学习学日语顶部 首页首页 学会这100句日语,看懂90的日漫,不信你试试 日语 日语学习 学日语 2025-02-02 00:00 · 0次播放 发布于:江西省 拳击那点事 +订阅 +1 评论 全部 还没有人评论过,快来抢首评 写评论相关推荐 查看更多精彩内容 https://m.sohu.com/a/855134209_100114195
5.quinovare.com/xxxr84821217<!DOCTYPE/438273.html我中出了一个金发女孩 110期 13.98MB 44好评 性巴克草莓视频 国语黄色一级毛片视频免费观看 中国淫妇肉肉啪啪啪网 49.57MB 1504好评 啪啪啪插嗯啊日韩 男女一进一出咻咻咻 被窝里的公息 406.56MB 35好评 中文字幕一区二区三区四区五区六区 美女脱了精光让男生玩奶头网站 男人吸女人大奶奶视http://quinovare.com/xxxr84821217%3C!DOCTYPE/438273.html
6.《名侦探柯南[日语版]》第第110话窃盗集团别墅事件上集集在线首页 动漫 名侦探柯南[日语版] 第第110话 窃盗集团别墅事件 上集集在线观看 关灯第第205话 生死一瞬间 第三个选择集 第第204话 生死一瞬间 名侦探负伤记集 第第203话 生死一瞬间http://www.daoyunai.com/v_87429-1-110.html
7.梅尔诺尔的大冒险男生的坤坤放进另一个的坤坤 28.90MB 347好评 欧美性色气抽插嫩穴 成宫彩叶在线观看一区二区 国产Av一级黄片 450.38MB 131好评 玉足大胸喷水 欧美一卡区二卡区 十大软件禁用 296.12MB 349好评 苏娅女优面试员 午亱影视二区三区 美女性感骚逼 311.37MB http://www.ylyc.cn/adaplp28263.htm
8.女大学生应聘日语家教遭雇主捆绑凌辱(图)资讯中心小美显得很恐慌,黄姨问什么她都不说,就是一个劲地大喊“救命”。于是,黄姨先从店里面拿出一架木梯,想搭救小美,但不够高。后来是附近施工队的师傅帮忙,才把小美救下来。昨日,在士多店墙角处,记者仍看见一大块发黑的血迹。 黄姨说,报了“110”后,她就开始为小美止血,并拿出一件衣服给小美遮体。“血流得太http://news.110.com/viewnews-33038.html
9.请问在日语里面,112,110,111,1除号日语考试请问在日语里面,112,110,111,1除号11,分别应该怎么读?谢谢 报了12月的这星期就快考试了想知道是比较难还是相对简单些心理好有个底 beishizhu1回答· 8496人浏览 我来答 最佳答案 帮考网答疑老师 资深老师 10-23 TA获得超过1701个赞 112读作'百十二',110读作'百十',111读作'百十一',1除号11读作'https://www.bkw.cn/tfks/ask/4896666.html
10.DNF110版本日语补丁日服职业语音精修版,沃特碧们的Colg,DNF最近发现男法的语音简直是重灾区,看了下发现国服偷懒少了很多文件,顺便排查了下做了个全职业语音完美https://bbs.colg.cn/thread-9212149-1-2605.html
11.日语口语110个经典短句10基础日语口语日语口语日语日语口语110个经典短句 10 核心提示: おねがい。 求求你。(整个句子用0声读) がんばる。 我会努力的。 もうだいじょうです。 已经不要紧了。 (单词翻译:双击或拖选) おねがい。 求求你。(整个句子用0声读) がんばる。 我会努力的。 もうだいじょうです。http://jp.tingroom.com/kouyu/jcryky/62777.html
12.河南大学和开封大学是一个学校么「环俄留学」新闻采编与制作 专科 3年 110 3300 文秘 专科 3年 110 3300 含"河南对口"55人 汉语(声讯与客服语言方向) 专科 3年 55 3300 商务英语 专科 3年 150 3300 应用英语 专科 3年 100 3300 应用日语 专科 3年 100 3300 服装设计 专科 3年 133 5600 含"河南对口"50人 https://www.huane.net/zhidao/82390
13.鲁山县2022年招聘中小学教师工作公告报名办法:报名人员只能选择一个岗位。报名与参加考试时使用的身份证必须一致。所有报考信息必须准确一致,如信息不一致或故意填报虚假信息造成的后果由考生本人承担。 1.网上报名 2022年7月29日8:00至2022年7月31日17:00,报考人员登录鲁山县人民政府网站(http://www.hnls.gov.cn/),进入报名系统进行网上报名,按要https://www.hnls.gov.cn/contents/33921/330716.html
14.日语翻译日语“110番の日”怎么说?在沪江关注日语的沪友siyue556遇到了一个关于的疑惑,已有3人提出了自己的看法。知识点疑惑描述日语“ 110番の日 ”怎么说?知识点相关讲解 110番の日 (1月10日):紧急求救日 110番:求救电话 警察庁が1985年(昭和60年)12月に制定し、翌1986年(昭和61年)から実施。全国の警察で、ダイヤル110番の有効?適切https://www.hjenglish.com/q/p55926
15.《早安日语》教程第20课课文「110讲到111讲」3、从下个月起调回东京的总公司。 【《早安日语》教程第20课课文「110讲到111讲」】相关文章: 大家的日语1第15课课文10-05 大家的日语1第12课课文内容10-09 大家的日语第一册第20课课文08-05 新视野大学英语读写教程第3册第六单元课文翻译10-29 https://m.oh100.com/peixun/J_Basic/226231.html
16.热门表情包原图精选(110个表情)牙白(熊猫头日语表情包) 吃柠檬哭了 我噬元兽不发飙,你当我是橘猫? 吃吃吃,整天就知道吃!(吃货熊猫头) 逗崽今晚食咸鱼榨菜 只要我一直dd我就会有甜甜的cp(杰尼龟表情包) 带薪聊天好爽 你说话像放屁(印尼小胖 TATAN) 这位同学(香蕉君) 人生重来枪 登登 萝莉托腮盯着你看 GIF 不管什么时候遇到我,都是你的https://weibo.com/ttarticle/p/show?id=2310474406767067988450
17.32家企业提供110个岗位!嘉定区最新用工需求发布(第63期)共有32家企业提供110个岗位, 期待你的加入~ “海聚英才”2020“春归浦江”云选会 ——嘉定分会场 2020年5月22日至5月27日 参会单位及岗位名录 1.上海国靖机械设备有限公司 设备操作员、装配工 2. 上海昊明机械有限公司 普车工、模具工程师、外贸业务员、机械工程师、机械工程师助理、销售助理/外贸助理 https://www.thepaper.cn/newsDetail_forward_7524514
18.日语歌曲110首精勋选集乐库频道分享 名称:日语歌曲 110首精选 千早愛音 简介:精选110首日语歌曲 净化心灵感受美好<日语歌曲 110首精选> - 歌曲列表 播放 全选 01 ロクデナシ - まちぼうけ (空等) 02 Uru - フリージア (小苍兰) 03 いきものがかり - ブルーバード (青鸟) 04 鹿乃- 春に落ちて (融于暖春) 05 https://www.kugou.com/songlist/gcid_3zywrnbfz1ez02d/