1、信息技术生僻字处理指南(第一版)全国信标委字符集与编码分委会二二三年八月信息技术生僻字处理指南(第一版)编写编写单位单位(排名不分先后)(排名不分先后)中国电子技术标准化研究院中国科学院软件研究所中信银行股份有限公司招商银行股份有限公司文化艺术出版社有限公司中国出版集团中华字库工程办公室北京冠群信息技术股份有限公司思旦达(北京)技术有限公司万达信息股份有限公司永中软件股份有限公司蚂蚁科技集团股份有限公司深圳市腾讯计算机系统有限公司北京搜狗科技发展有限公司北京北大方正电子有限公司北京汉仪创新科技股份有限公司北京金融科技产业联盟北京国家金融科技认证中心北京银行股份有限公司广发银行股份有限公司重庆国
2、家金融科技认证中心电子科技大学DICOM标准国家地方联合工程实验室潍坊北大青鸟华光照排有限公司中科方德软件有限公司福昕鲲鹏(北京)信息科技有限公司北京金山办公软件股份有限公司江苏中威科技软件系统有限公司北京数科网维技术有限责任公司麒麟软件有限公司赞同科技有限公司北京点聚信息技术有限公司友虹(北京)科技有限公司北京百度网讯科技有限公司佳能医疗系统(中国)有限公司拉萨净土信息安全服务中心有限公司北京卓玛之裕科技有限公司信息技术生僻字处理指南(第一版)编写编写组成员组成员(排名不分先后)(排名不分先后)范科峰董建杨磊黄姗姗王欣陈壮陈亚军陈晓研崔晓琳何正安吴健刘汇丹江激扬徐晓剑刘文涛孙炎森刘伟马良有
6、打印.296.2.4信息交换.306.2.5内部处理.326.2.6存储.33第七章组织和个人生僻字处理指南.357.1组织.357.1.1技术管理机制.357.1.2服务管理机制.357.2个人用户.36第八章测试评估.378.1信息处理产品的标准符合性测试.378.1.1编码字符集测试.378.1.2字型测试.398.1.3输入法测试.408.2信息处理系统生僻字处理能力评估.408.2.1定义.408.2.2标准符合性.408.2.3易扩展性.418.2.4经济适用性.418.2.5兼容性.418.2.6易用性.418.2.7统一性.428.3
8、提交补充编码汉字的技术要求.68一、待编码汉字的范围.68二、提交申请的单位.68三、接受待编码汉字申请的单位.68四、申请资料的技术要求.68信息技术生僻字处理指南(第一版)1前言国务院办公厅关于全面加强新时代语言文字工作的意见提出,到2025年,语言文字规范化、标准化、信息化水平要进一步提高。国家通用语言文字作为信息交互的载体,在数字经济发展建设中发挥着越来越重要的作用。特别是在政务服务和公共服务行业,随着“互联网+”业务模式日趋成熟,人民群众随时可以通过网络实名认证等方式在线办理各类业务,极大地提升了办事效率和服务体验。然而,在语言文字信息技术高速演进的同时,信息系统生僻字问题的严峻
11、汉字研究者与文字工作者,对汉字的认知也存在盲区。随着计算机技术的发展,汉字插上了信息技术的翅膀,从最初能录入计算机,到现在信息系统的广泛使用。汉字信息处理除了给人们生活带来了便利,也引发了新的问题。在信息时代,汉字需要在信息系统上输入、存储、处理、显示、打印,在不同系统之间流转共享,这一系列过程要由信息技术来保障汉字被正确处理,其中最主要的环节就是汉字编解码,也就是需要保证文字处理周期各个环节遵循同样的汉字编码标准。在日常生活中,人们一般把不常见的或自己不熟悉的汉字称为生僻字。对信息系统来说,“生僻字”是指需要通过一系列特殊处理才能被信息系统正确地输入、输出、处理、传输的汉字。一个字如果在输入
17、跨系统的应用越来越多,这样的处理方式治标不治本,问题依然没有解决。信息技术生僻字处理指南(第一版)7第二章问题形成的原因2.1历史原因历史原因全世界的文字,根据其记录语言的方式和性质,可划分为两类:一类是以英文、法文等为代表的表音文字,用字母来表示语音;另一类就是以汉字为代表的表意文字,用一定体系的象征性符号来表示语义。信息系统生僻字问题,是表意文字所特有的问题。要理解这一问题产生的原因,要从汉字的信息处理技术的原理及其标准化进程说起。2.1.1中文信息处理技术的发展中文信息处理技术的发展计算机要处理中文信息,其基本原理可以概况为:一字、一形、一码。字,是指能被单独认知并反映独立意义的一
18、个汉字;形,是指字形,是文字的精确显示,让机器能正确输出文字信息;码,是指编码,让机器认识文字,是文字信息处理的基础。三者之间一一对应,才能被计算机识别和处理。汉字作为表意文字,每个字都有相对独特的字形和含义,需要有单独的编码,并单独设计字形。对汉字进行编码的工作包括搜集、查证、去重、认同、赋码等一系列过程。汉字编码工作起步于上个世纪,我国第一个汉字编码字符集标准GB2312-80(现为GB/T2312-1980)信息交换用汉字编码字符集基本集收录了6763个汉字。往后数年,经过各个国家和地区专家的经验积累,被编码的汉字数量急速增长,在2005年达到了7万多字,覆盖了绝大多数
19、社会在用字。接下来的工作进度则逐渐趋于缓慢,因为尚未被编码的汉字大多是非常罕见的生僻字,搜集难、查证难,有时需要各个国家和地区专家开展大量考证工作,反复讨论审议,才能形成一致结论,为一个汉字分配合理的编码。汉字字形的校正工作也需要大量专业知识的积累和运用,要对数万个字信息技术生僻字处理指南(第一版)8形进行考证、校对,确保字形的正确性、规范性,形成符合我国语言文字规范的汉字字形集,避免汉字在文化传播中发生变异。汉字的数量又非常庞大2022年发布的国家标准GB18030-2022信息技术中文编码字符集收录88115个汉字(含部首),中宣部“中华字库”工程搜集整理出了30万个汉字字形
22、集88115从表中可以看出编码汉字在数量上的两次跃升:一是1995年发布的信息技术生僻字处理指南(第一版)9GBK文件,在GB/T2312标准6千多个汉字的基础上扩充到了2万多个;二是2005年的GB18030-2005标准,从其2000版的2万7千多个汉字扩充到了7万多个。在汉字字形的标准化方面,我国相继制订发布了数十项汉字点阵字型国家标准和电子行业标准,规定了汉字在点阵栅格中的字形,适用于汉字在点阵屏幕上的显示输出。其中现行有效的国家标准和行业标准有40余项,如GB/T5007.1-2010信息技术汉字编码字符集(基本集)24点阵字型、
23、GB/T22320-2019信息技术中文编码字符集汉字1516点阵字型等。随着信息技术水平的提升,使用点阵屏幕的设备逐渐减少。目前,我们日常使用的计算机和移动终端等设备上搭载的汉字字库都是曲线字型产品。国家标准GB/T11460-2009信息技术汉字字型要求和检测方法对曲线字型产品提出了笔形规范性、字形正确性,以及符合编码字符集标准等要求。2.1.3汉字编码的工作机制汉字编码的工作机制从汉字编码的工作机制上来说,自1990年代至今,我国的汉字编码工作采用的是“国际标准引领,国家标准跟进”的模式。为了确保我国国家标准与国际标准的兼容性,计划新增的汉字首先提交国际标准ISO/IE
24、C10646信息技术通用编码字符集(UCS),待国际标准批准收录后转化为我国国家标准GB/T13000。同时,这些新增汉字也将收录进我国自主研发的强制性国家标准GB18030信息技术中文编码字符集。ISO/IEC10646信息技术通用编码字符集(UCS)是对全球所有文种进行统一编码的国际标准,由ISO/IECJTC1/SC2(国际标准化组织和国际电工委员会第一联合技术委员会下属编码字符集分技术委员会)负责修订维护。其中,特别为汉字编码设立了IRG(表意文字小组),负责审批来自中国、日本、韩国、越南等国家和地区的新增汉字编码申请。我国提交的新增汉字主要来自教育及出版印刷等行业
27、更至新码位;3)某些机构早期通过占用PUA对一批急用图形字符分配了自定义编码,导致这些字符与现行标准编码不一致。2.2现状成因现状成因2.2.1产品不支持生僻字的情况产品不支持生僻字的情况软硬件产品在进行中文信息处理和交换时不支持生僻字的情况,可能涉及输入法或字库不支持、软件底层编码不支持、软件前端/后端对代码的过滤,以及网页渲染等原因。下面对这些情况逐一进行分析。输入法输入法对于一般用户,输入法是最直接接触的环节,一个对用户友好的输入法包括输入码对应字符或字符序列的范围广度、候选框上屏显示效果、易混淆字形提示和词库联想提示等。GB18030和GB/T13000本身并不直接提
28、供所有字符的读音信息,若想使用汉语拼音做输入码基础来输入所有的字符并不现实。字形特征输入码(形码)也需要开发者做大量的研究工作,且目前任何一种形码都缺乏可以协调规则的技术委员会,如果各个输入法开发方都独力开发,最终输入码的结果可能不一致。有的字符本身不一样,但在小字号时,容易渲染得让用户信息技术生僻字处理指南(第一版)11分不清。比如“”的GB/T13000码位为U+2BB42,GB18030码位为0x99308834,与“田”字(GB/T13000码位U+7530,GB18030码位为0xCCEF)的字形很像,但两者编码不同,是两个不同的字。在小字号渲染时,如果
29、输入法没有提示,用户可能会输入错误。字库字库/字体库字体库/字体文件字体文件基于OFF(开放式字体格式,参见ISO/IEC14496-22)封装的曲线字库封装时都会按照一定的历史字符集、字符子集或字形集(glyphcollection)来安排字形(glyph),目前市场上大部分字库产品包含的汉字数量在几千到三万之间不等,不足以满足绝大部分生僻字处理需求。此外由于字库文件有容纳字数的限制,GB18030-2022收录的所有字符无法容纳在单个字库文件里,一旦系统或平台的渲染规则没处理好,超出当前选用字库包含字形的字符会回退(fallback)到系统默认字库。如果系统默认字库的字体风格(
30、style)与当前选用字库不同,在排版上会显得突兀;如果系统默认字库不包含该字符的字形,会调用字库中的.notdef(一个替代缺字用的字形)来显示。另外,点阵字库在当代仍有广泛的使用环境。医院药房、地铁、公交等的点阵显示屏仍需要相应的点阵字体去支持显示。编码编码无论是从GB/T2312-1980的通行编码实现到GBK再到GB18030,还是对GB/T13000(UCS)的编码实现,在发展过程中都发生过编码结构上的变化。目前国内仍有大量以前开发的软件或依据旧框架开发的新软件无法处理这些编码结构上的变化,这导致从根本上限制了软件能处理的字符数。比如,“”的UCS码位为U+
31、2CC56,GB18030码位为0x9933C336,如果一个只支持GBK的环境接收到一个GB18030编码的文档或信息系统报文,这个字会被处理成“36”;如果一个只支持UCS-2(只包含UCS基本多文种平面的一种编码)的环境,接收到一个UTF-16(覆盖UCS中所有平面的一种编码)的文档,这个字会被忽略掉,这些情况都属于没能正确处理编码。前端与后端前端与后端信息技术生僻字处理指南(第一版)12如果在操作系统与平台已经支持编码的前提下,应用系统选用了范围更窄或范围不对的编码(习惯称为charsetlabel),也会导致和前述相似的结果。比如,在Oracle
33、视觉断行规则是任意两个汉字之间都可以断开,而拉丁字母等不能在任意两个字母之间断开,除非添加连字符(hyphen)。由于使用非UCS正式码的生僻字(即定义在PUA和两个SPUA区)未定义断行属性,多数平台会直接使用等价于拉丁字母的断行行为。这样的渲染效果可能导致页面显示和打印时发生信息丢失。图2-1是一个网页对非标准码汉字进行了错误断行处理的效果:它把第一行空格后面的5个汉字认定为一个“单词”,在字符总长超过行长时,将这个“单词”整体放到了下一行。图2-1错误的断行效果正确的断行处理应当如图2-2所示。图2-2正确的断行效果信息技术生僻字处理指南(第一版)132.2.2
35、号、占用汉字码位修改字形等都有可能。存储存储在很多信息系统的编码与转码规则中,当前界面的编码不能支持的字符可能会被一个或多个“”或半角问号“”等字符替代。生僻字在被不可逆替代后存储会丢失有效信息。另一方面,输入层面信息的不准确也会给存储带来不便。拆字、结构描述、拼音等方式都可能使字节数超出字段规定的长度,替代字、替代符号、占用汉字码位修改字形等可能会造成信息被误解。输出输出当包含生僻字的信息在输出时,会受到软件层面编码、字库、渲染、发音软件等输出能力不足的限制,导致即使在机器意义上信息准确,但显示或打印输出为空白、问号等现象,与一般用户与从业人员的认知严重脱节,影响群众办事进度。当点阵屏和热
37、K、GB18030-2000、GB18030-2005、GB18030-2022、ISO/IEC10646和Unicode)之间的差异和要求,误以为GBK仍是当下适用的汉字编码标准,在编写行业规范等文档时,规定使用GBK编码,使得大多数生僻字都无法被正确处理。错误使用错误使用PUA区区PUA(用户自定义区)缺乏有效的管理手段,导致各行业采用各自内部自定义PUA编码作为标准,导致无法跨行业互联交换。例如某信息处理产品使用PUA区对生僻字进行编码,用户使用该产品可以处理特定生僻字,但由于其编码不是标准码,在和其他系统进行信息交换时,则会引起错误。系统建设未遵循合理标准
38、系统建设未遵循合理标准各类服务机构在系统建设方面,无论是自建还是外购承建,都存在前述的类似问题。而一些行业的复杂系统通常具有数据分布式管理、分系统承建单位不同等特点,在系统内数据交换的各个环节,任一环节不能支持生僻字处理,均会导致问题产生。2.2.4人员层面的原因人员层面的原因直接面对生僻字受困群众的服务机构客服人员,普遍存在不了解问题、不会操作输入生僻字以及有概念误区等情况。生僻字受困群众自己,大多对问题的成因一知半解,也没有有效的方法来维护自己的合法权益。一线柜台或后台客服人员一线柜台或后台客服人员各个机构缺乏专业知识人员,通常难以建立完整的知识体系并进行有效信息技术生僻字处理指南(第一
39、版)15的培训。在这方面做的比较好的案例是广东社保规程,规程对生僻字的范围进行了界定,对服务人员处理生僻字提出了明确的操作指导。生僻字生僻字受困受困群众群众生僻字受困群众往往也没有充足的认知,缺乏有效的方法和手段来维护自身权益。其中有些人会由于长期遭遇各种不便而被迫改姓(如“”“惠”、“”“蔄”)、改名(“”“龑”或“衍”、“”“頔”或“迪”、“”“平”)。2.3原因总结原因总结由上述分析可知,信息系统生僻字问题长期存在而难以彻底解决,存在三方面原因:一是汉字的信息化难度高一是汉字的信息化难度高。汉字数量庞大,对每个汉字进行编码和字形规范化,工作量大、专业度高、标准化工作周期长。一个
42、正常办理户口登记和居民身份证的问题,但其他部门的信息系统无法正常处理且在跨系统时无法联动。社保、医保、社保卡社保、医保、社保卡社保、医保、社保卡方面的三个管理部门以及医院本世纪初统一使用一个造字软件支持生僻字的录入和显示,确保社保信息流闭环内生僻字处理规则的一致性,但这个软件已不再更新。2020年起,人社部要求人力资源社会保障信息系统全部支持国家标准GB18030。在采集个人基础信息时,如果其姓名中包含生僻字,则信息系统中应采用该字的半角大写拼音字母加上半角中括号代替;在备注字段中对拼音标注、字形、读音等进行描述。例如“王”,在信息系统的姓名字段中采用“王JIUDI”,在备注字段中说明
43、“生僻字JIU字形上九下乙,音同九;生僻字DI字形左由右页,音同迪”。要求信息技术生僻字处理指南(第一版)17下属机构对生僻字的甄别严谨细致,不得将非生僻字的汉字擅自按照生僻字的方案处理。电信电信在电信领域实名登记方面,工业和信息化部为解决身份信息核验中生僻字的问题,一方面指导电信企业加快信息系统升级改造,另一方面采取相似字替换、添加备注等方式为用户提供便利。铁路客运铁路客运在铁路售票系统中,铁路部门积极研究解决方案,在确认旅客身份证号码无误的前提下,对生僻字进行模糊化对比处理,并进一步完善售票渠道功能,使姓名中包含生僻字的旅客通过互联网购票后,在人工窗口、自动售票机上均可办理取票业务。金融金
48、求通用要求信息技术产品国家语言文字使用管理规定教育部第54号令信息技术软件产品中文信息处理要求及测试方法拟立项推荐性国家标准软件产品信息技术数字键盘汉字输入通用要求GB/T18031推荐性国家标准信息技术通用键盘汉字输入通用要求GB/T19246推荐性国家标准联机手写汉字识别系统技术要求与测试规程GB/T18790推荐性国家标准中文语音识别系统通用技术规范GB/T21023推荐性国家标准印刷体汉字识别系统要求与测试方法GB/T17961推荐性国家标准信息技术汉字字型要求和检测方法GB/T11460推荐性国家标准信息技术生僻字处理要求第1部分:软件产品拟立项推荐性国家标准信息
49、技术生僻字处理指南(第一版)20信息系统信息技术生僻字处理要求第2部分:业务系统拟立项推荐性国家标准C应用要求通用关于在政府管理和社会公共服务信息系统中统一姓名采集应用规范的通知民委发201633号金融行业金融服务生僻字处理指南JR/T0253-2022人力资源和社会保障人力资源社会保障信息系统姓名生僻字处理方案(暂行)人社网信函201917号D测试评估测试要求信息技术软件产品中文信息处理要求及测试方法拟立项推荐性国家标准信息技术汉字字型要求和检测方法GB/T11460推荐性国家标准评估指南信息技术生僻字处理要求第3部分:服务机构拟立项推荐性国家标准信息技术生僻字处理指南(第
51、计111万多个码位,归类为大字符集编码,可以处理生僻字。GB18030信息技术中文编码字符集是强制性国家标准,是我国自主研制的编码字符集标准,其编码空间中共有161万多个码位。在GB/T13000的码位空间内,GB18030的码位与GB/T13000的码位一一映射,可以认为二者的表达能力是等价的。因此,GB18030编码也归类为大字符集编码,能够处理生僻字。GB/T2312信息交换用汉字编码字符集基本集仅收录了6763个汉字,无法处理生僻字,归类为小字符集编码。汉字扩展内码规范(GBK)不是标准,而是一个技术规范指导性文件。该文件已于2000年废止。GBK
52、编码收录21003个汉字,无法处理生僻字,应立即停止使用,并尽快升级为GB18030编码或UTF-8、UTF-16、UTF-32等编码。4.2码位的使用码位的使用对于GB18030中已经收录的汉字,应当使用GB18030中的码位(或GB/T13000中的对应码位),对于GB18030中未收录,但GB/T13000(或ISO/IEC10646)中已收录的字,应当使用GB/T13000(或ISO/IEC10646)信息技术生僻字处理指南(第一版)22中规定的码位。ISO/IEC10646中预留的码位(GB18030中已经占用的部分除外)是为未来增
53、补字符使用,一般机构和个人不应占用。ISO/IEC10646和GB18030中均定义了用户自定义区(私用区,PUA),按照标准规定,用户自定义区可以由最终用户使用。由于PUA使用的自由性导致互不兼容,PUA码位的使用应严格遵循最小范围原则。任何需要与外部做信息交换的场景都不应使用PUA码位。对于GB18030或ISO/IEC10646中已经收录的PUA字,应尽快升级使用其对应的正式码位。对于暂时未被收录的PUA字,应根据本文档附件的要求向全国信息技术标准化技术委员会反馈,以期尽快收录至国家标准,详见附件:提交补充编码汉字的技术要求。当前BMP还有兼容区,除已被收
54、录到GB18030中的12个兼容区汉字以外,其他的兼容区汉字均不应使用。康熙部首区(U+2F00U+2FFF)和扩展部首区(U+2E80U+2EFF)的汉字或部件与一般汉字同形时,原则上应当使用一般汉字。信息技术生僻字处理指南(第一版)23第五章信息处理产品支持生僻字指南5.1通用要求通用要求5.1.1编码字符集要求编码字符集要求由于GB18030是强制性国家标准,也是我国现行有效的国家标准中收录中文字符最多的编码字符集标准。它与ISO/IEC10646协同更新,其最新版本(包含修改单)收录了ISO/IEC10646最新版本中的全部汉字,以及公安人口信息字库的
55、汉字。因此,面向生僻字处理的软件产品应支持GB18030的实现级别3。5.1.2汉字字型要求汉字字型要求字汇范围字汇范围汉字的字汇范围应达到GB18030实现级别3的要求。字形规范字形规范汉字字形应符合国家语言文字政策法规,并符合GB/T11460信息技术汉字字型要求和检测方法的要求。5.1.3汉字输入要求汉字输入要求处理生僻字的汉字输入法产品,应能输入GB18030实现级别3规定的所有字符,并符合相应的国家标准:a)数字键盘输入应符合GB/T18031的规定;b)通用键盘输入应符合GB/T19246的规定;c)手写输入应符合GB/T18790
58、8030实现级别3内的所有字符的输入法,产品应能在所有交互界面正确完成所有字符的输入。c)驱动程序:)驱动程序:面向具有图形字符打印、显示、存储等输出功能的设备的驱动程序,如打印机驱动程序、显示器驱动程序等,不应影响GB18030实现级别3中规定的编码字符的正确输出;面向具有编码字符传输、交换等功能的设备的驱动程序,如调制解调器、证件阅读器等,不应影响GB18030实现级别3中规定的编码字符的正确传输、交换。信息技术生僻字处理指南(第一版)255.3支撑软件支撑软件除通用要求外,建议支撑软件类产品分别满足如下要求。a)开发支撑软件:)开发支撑软件:带有编译功能的开发支
62、建设改造指南6.1通用原则通用原则涉及居民个人信息处理的服务机构在信息系统建设或存量系统改造过程中,为支持生僻字的处理,宜遵守以下原则。遵循标准遵循标准支持国家标准GB18030,并鼓励兼容GB/T13000的相应编码,字符集以二者的最新版本为准,使信息链路的各环节都能支持大字符集处理,避免出现小字符集的瓶颈。易于扩展易于扩展使用可扩展和安全可控的技术框架和方案,便于提升系统服务效率和用户体验。经济适用经济适用以满足用户实际需要为基础,配置实用的字库、输入法、接口设备、输出设备等。兼容处理兼容处理尽可能兼容处理涉及民生的各类信息系统中的生僻字问题,提升用户体验。包容普惠包容普惠充分
63、考虑农村与偏远地区居民、老年人、残疾人、少数民族等群体的需求,如手机APP等针对老年人群体提供大字号的版本等。接口统一接口统一非大字符集系统对超出支持范围的字符转义表示宜采用统一方案。6.2各环节改造要求各环节改造要求6.2.1输入输入6.2.1.1应配备的输入法应配备的输入法/输入设备输入设备信息技术生僻字处理指南(第一版)28业务系统应配备符合第四章要求的输入法/输入设备。其中:a)PC端应用应不限定输入法,允许使用拼音、笔画、字形等多种输入方法,宜优先配备支持生僻字的常规输入法。在市场上常规输入法产品无法满足应用需求时,应配置第三方软件形式的输入法、云输入法或APP内嵌输
65、等多种便民方式;c)通过OCR、语音识别、手写识别等方式输入的,应提供人工核对、修正功能;d)对于手机APP输入身份证信息的场景,建议增加利用客户手机端NFC功能读取身份证芯片信息到机构后端解密后自动导入的功能;e)对于支持输入法输入信息的字段,应支持复制粘贴的录入方式;f)部分少数民族同胞姓名中的间隔符应按照关于在政府管理和社会公共服务信息系统中统一姓名采集应用规范的通知(民委发201633号)要求的格式输入,统一用“”(GB18030编码A1A4,对应UCS编码U+00B7)。考虑到常用字符集中实心“点”字符有多个(如“”U+02D9、“”U+0387、“”U+1427、
66、“”U+16EB、“”U+2022、“”U+2027、“”U+2219、“”U+22C5、“”U+2E31、“”U+30FB、“”U+A78F、“”U+FF0E、“”U+FF65),宜在用户输入的前端检测少数民族姓名间隔符为非U+00B7的“点”时,自动转换成U+00B7。信息技术生僻字处理指南(第一版)296.2.2显示显示6.2.2.1一般要求一般要求业务系统在汉字信息的显示方面的一般要求包括:a)能显示GB18030-2022规定的全部汉字;b)鼓励参考ISO/IEC10646最新版本覆盖新增汉字(目前是CJK扩充G、H及其他CJK统一汉字区块尾部新增汉字
67、等)。6.2.2.2特殊情况的处理特殊情况的处理生僻字信息在显示时可能遇到的一些特殊情况及其处理方式列举如下:a)由于单个字型文件字形数量的限制,宜通过操作系统的字体回退机制或者应用软件自行实现字体回退机制实现生僻字的显示;b)由于一字多码和相似字形的客观存在,建议在姓名、地址等可能涉及生僻字的栏位旁边回显字符编码,以便在遇到疑难情形时可迅速判断问题成因;c)在必须显示PUA编码汉字的情况下:宜对PUA编码汉字字形与正式编码字形作出明显区分;对于身份证姓名的PUA编码生僻字,由于用户可能使用包含不兼容人口信息字库PUA编码生僻字的输入法输入,宜采用和公安人口信息字库兼容的字库
68、予以显示,供用户确认,避免输入不兼容的PUA编码生僻字引发后续投诉。d)针对老年人等群体建议提供大字号的显示界面版本。6.2.3打印打印6.2.3.1不同类型的打印机生僻字处理方法不同类型的打印机生僻字处理方法通用打印机包括针式打印机、激光打印机和喷墨打印机等,不同类型打印机在处理生僻字时,可使用以下三种方法,见表6-1。信息技术生僻字处理指南(第一版)30表6-1打印机生僻字处理方法实现方案实现方案实现方式实现方式适用范围适用范围优点优点缺点缺点文本图形混合方案a)在硬字库支持范围内,用文本打印模式。b)在硬字库支持范围外,由应用端程序转换成图片后再打印。带有硬字库的针式打印机
69、,如存折打印机、宽行打印机等。a)免硬件升级。b)打印速度快。信息系统改造复杂。纯图形方案依赖操作系统的图形输出,打印机按照图形输出进行打印。日常办公类的非针式打印机,如激光打印机、喷墨打印机等。a)字库依赖操作系统,与打印机硬字库无关。b)信息系统改造方案简单,依赖打印机驱动即可对于传统串口、并口打印机速度较慢。纯文本方案升级存折打印机字库,字库支持GB18030实现级别3的汉字。带硬字库的针式打印机,如存折打印机、宽行打印机等。打印速度快。需升级硬字库,后续升级困难。6.2.3.2关于打印机字库的建议关于打印机字库的建议打印机是否能正确打印生僻字信息,与打印机内置字库和/或系统
70、字库有关,建议服务机构:a)请生产厂商及时跟踪国家标准最新版本升级点阵打印机内置字库,实现对生僻字的支持;b)部分生僻字笔划较多,应避免采用过小的点阵字体导致因减笔划而造成有法律效应的打印件产生纠纷;c)在点阵字库不支持的情况下,也可通过图形打印的方式确保生僻字被正确打印;d)在需要使用程序来生成OFD、PDF等文件时,宜使用支持生僻字的字库,避免生僻字打印结果与客户信息不一致。6.2.4信息交换信息交换6.2.4.1一般要求一般要求业务系统在汉字信息交换方面的一般要求包括:a)原则上应支持GB18030的汉字无损透传处理,同时兼容ISO/IEC10646(一般用UTF-8
71、编码);b)原使用GBK编码的报文及文件交换宜升级为GB18030编码,同时信息技术生僻字处理指南(第一版)31兼容ISO/IEC10646(一般用UTF-8编码);c)转接系统在转接时,因输入、输出双方编码不同,需要做编码转换时,不应发生:丢弃某些字符或转成替代符“”、“”等的有损转换;报文丢弃或报错的情况。6.2.4.2特殊情况的处理特殊情况的处理生僻字信息在交换时可能遇到的一些特殊情况及其处理方式列举如下:a)如果原内部系统间接口为GBK或EBCDICCCSID1388等小字符集的编码,且改造成本过大,可以保留,此时可借助中间件或改用转义格式对生僻字进行
72、表示和交换;b)如需要交换的信息包含PUA编码汉字,请求方宜采用生僻字的标准编码对PUA编码字符进行归一化处理;c)当柜面系统无法正常显示或打印生僻字时,宜在打印凭证的对应位置手写相应汉字,在备注字段可使用拆字等方式描述生僻字。d)对于“一字多码”的生僻字进行联网核查公民身份姓名信息时,宜:使业务系统支持一字多码互相认同的智能比较;对于当前系统未改造尚不支持处理生僻字的情况下,宜转人工处理,需要时可联系客户核实处理。6.2.4.3应注意的要点应注意的要点针对生僻字的信息交换,还需注意如下技术要点:a)避免使用字段定长无分隔符格式报文或文件进行交换,因生僻字GB18030的4字
73、节编码或转义格式可能引发字符数统计问题影响对齐截取。另外生僻字转义格式可能导致超长;b)若采用变长字段有分隔符格式报文或文件进行交换,应考虑分隔符的选取与业务报文内容的字节冲突问题:如“弢”字的GBK/GB18030编码第2字节是16进制的0x7C,与常用竖线分隔符“|”的编码一样。建议采用不可见字符如0x03字符作为分隔符以避免冲突;c)对于XML报文或文件进行交换,需注意头部的encoding编码设置须与内容采用的编码一致,以免XML解析器解码错误(反例:头部的encoding编码为GBK,内容采用的编码为GB18030。);信息技术生僻字处理指南
74、(第一版)32d)对于JSON报文或文件进行交换,需注意其默认使用UTF-8编码,而非GB18030编码,且辅助平面字符可能采用UTF-16“代理对”转义字符串表示,如生僻字U+20164“”(亩心)在JSON中被表示为可读字符串uD840uDD64,应检测所用报文解析器是否能正确解析处理;e)注意对于UTF-8、UTF-16、UTF-32编码以及GB18030编码的文件,宜检测文件开头是否存在BOM标记。若存在,通过BOM标记可识别文件的编码方式。某些操作系统自带文本编辑器保存时,会在文件开头自动加上BOM标记,应用程序若不支持带BOM的文件,文
75、件使用时往往会报错;f)以FTP方式交换文件不需要转码时,应设定为二进制(BIN)流方式;如需转码时,宜设定相应的编码集,以保证无损透传;g)使用邮件系统交换信息时,Base64变换前的编码不宜使用GBK或GB2312(如“=GBKB”或“=GB2312B”),宜使用UTF-8(即“=utf-8B”开头)。6.2.5内部处理内部处理关于生僻字信息的内部处理,部分要点可参见5.2.4节。需要另外注意的是:a)消除常见误区,汉字不全是2字节,非生僻字的GBK编码、UCS2编码才是2字节,非生僻字和CJK扩充A区的生僻字这两部分的UTF-8
76、编码是3字节,其它大部分生僻字是4字节(GB18030、UTF-8、UTF-16编码)。因此,所用编程语言(包括SQL)的字符串长度函数/方法得到的结果与字符数、字节数都可能存在差异,原生字符串截取的函数/方法有可能导致半个汉字的异常问题。因此,往往需要另行开发支持生僻字的函数/方法;b)为支持生僻字,所用编程语言的编译宜采用Unicode等模式,避免采用原先的MBCS等模式;c)考虑到姓名生僻字“一字多码”问题的长期存在,对于如开户客户或账户户名与收款人姓名等“姓名”字段字符串的实名制比对,不应采用所用编程语言的字符串比较函数/方法(如C语言的strcmp()函数
77、、Java语言String类的equals()方法),宜另行开发支持“一字多码”姓名认同的函数/方法。信息技术生僻字处理指南(第一版)336.2.6存储存储6.2.6.1一般要求一般要求业务系统在汉字信息存储方面的一般要求包括:a)数据库存储和查询应支持GB18030,同时兼容UTF-8编码;b)文件存储宜采用GB18030,同时兼容UTF-8编码;c)在不能改变存量数据库字符集设置的情况下(如成本过高),如果存量数据库采用了GBK编码,那么对超出GBK范围的生僻字,宜在应用系统层面用转义格式编码后,再写入数据库。此时:从数据库读出数据时,宜将转义格式还原成汉
78、字;转义格式宜基于易于还原、占用空间小的UCS编码;转义格式仅限在数据库内部使用,外部访问宜还原为接口标准编码,以保证透传、通用。6.2.6.2其他注意要点其他注意要点在存储方面还应注意的要点有:a)字段设计应遵循关于在政府管理和社会公共服务信息系统中统一姓名采集应用规范的通知(民委发201633号)要求,在信息系统设置中规定姓名数据项最大长度不少于50个字符(25个汉字)1;b)考虑到转义格式可能会扩展原数据所需宽度,应特别注意字段长度设计;c)部分少数民族同胞姓名的间隔符宜按5.2.1.2的规范形式存储,不规范的旧数据宜定期迁移。6.2.6.3常见数据库产品的处理要求常
79、见数据库产品的处理要求对常见的几种数据库产品类型,分别列举其针对生僻字信息存储的要求(下文所列MySQL、DB2、Oracle均指数据库产品名称):MySQL数据库数据库使用MySQL数据库时宜采用5.5.3以上版本,并将UTF-8的编码类型设置为utf8mb4。注:utf8mb4编码是utf8mb3编码的超集,兼容utf8mb3并且能够存储四字节1关于在政府管理和社会公共服务信息系统中统一姓名采集应用规范的通知(民委发201633号)中提到的“字符”实应为“字节”,信息系统设置中规定姓名数据项最大长度应不少于50个字节。信息技术生僻字处理指南(第一版)34
80、UTF-8的字符。DB2数据库数据库在大型主机系统中,CJK扩充B区及以上扩充区、其他CJK统一汉字区块尾部新增汉字宜用转义格式处理;开放平台DB2数据库宜升级支持GB18030或UTF-8编码。注:目前大型主机系统使用EBCDICCCSID1388编码,汉字使用双字节表示,支持至CJK扩充A区。Oracle数据库数据库Oracle数据库宜将字符集值设置成AL32UTF8。注:目前Oracle数据库字符集默认值为ZHS16GBK,仅支持GBK字符集。其他数据库其他数据库其他数据库宜使用GB18030、UTF-8等支持全字符集的编
82、人员使用。7.1.2服务管理机制服务管理机制面向生僻字处理的服务管理机制包括但不限于如下三类。7.1.2.1设置服务点生僻字处理专员设置服务点生僻字处理专员建议有条件的服务机构在线下各省/市的一级服务网点/站点设置生僻字处理专员,该专员应熟悉生僻字有关知识,熟练使用生僻字处理手册,并积极配合生僻字客户办理业务。7.1.2.2开展生僻字处理培训开展生僻字处理培训建议服务机构开展生僻字处理培训。培训内容包括但不限于编码字符集、中文字符处理、生僻字处理、业务操作中生僻字处理等。培训可由单位生僻字专业技术团队计划和开展,按需求定期向员工开展培训。7.1.2.3建立生僻字专业知识库建立生僻字专业
85、击“登记生僻字”按钮登记生僻字,也可根据本文档附件提交补充编码汉字的技术要求的要求提交至全国信标委,以期尽快在国家标准和国际标准中收录。信息技术生僻字处理指南(第一版)37第八章测试评估8.1信息处理产品的标准符合性测试信息处理产品的标准符合性测试8.1.1编码字符集测试编码字符集测试8.1.1.1测试方法测试方法1)基于标准中相应实现级别的规定制备测试样本数据;2)将样本数据输入至被测产品中;3)验证输入是否成功;4)执行产品后续功能,验证执行结果是否正常;5)验证执行结果的输出是否正常(如:屏幕显示、打印结果、存储结果等)。8.1.1.2判定准则判定准则1)当产品具备由用户自行录
87、导入或读取以标准中定义的编码格式进行编码的所有图形字符数据,否则为不合格产品;6)当用户完成信息录入后,产品对数据执行内部处理(无须外部系统协作)时,应能正确返回预期结果,否则为不合格产品。信息技术生僻字处理指南(第一版)388.1.1.3空码位的测试空码位的测试空码位是指编码字符集标准中,给出了编码但并未给出对应的图形字符的编码位置。空码位分为如下2种:1)用户自定义区(私用区,)用户自定义区(私用区,PUA)该类区域的编码空间在编码字符集标准中有明确的规定,这些编码空间是留给单机最终用户私有使用的,任何通用产品的开发、管理、运维方均不得占用,不得用于跨系统或跨机构信息交换领域。GB
88、18030-2022规定的用户自定义区包括:双字节用户区:0xAAA1至0xAFFE、0xF8A1至0xFEFE、0xA140至0xA77E和0xA180至0xA7A0共1894个码位;四字节用户区:0xFD308130至0xFE39FE39共25200个码位ISO/IEC10646规定的用户自定义区包括:BMP平面的用户自定义区:U+E000至U+F8FF共6400个码位;辅助用户自定义区:U+F0000至U+10FFFF共131072个码位。2)保留区)保留区该类区域的编码空间在编码字符集标准中有明确的规定,
89、这些编码空间是留给标准化组织在未来的标准制修订过程中使用的,其他任何组织和个人均不得占用。如GB18030-2022中明确规定:其他未占用的四字节码位为保留区,留待未来文件扩展使用。判定准则判定准则空码位对应的显示/打印结果,可以是下列三种形式之一,同时鼓励采用第三种形式:1)空白(占据一个字符位置)或ISO/IEC14496-22中建议的形式;2)方框或带的方框(占据一个字符位置);3)显示在方框内的当前字符对应的编码(占据一个字符位置)。8.1.1.4一字多码问题的测试一字多码问题的测试一字多码问题,是指在标准化过程中造成的下列情况:1)同一标准中同一图形字符出现在不同编码位
90、置;2)存在编码映射关系的标准之间,因标准修订不同步,导致原映射关信息技术生僻字处理指南(第一版)39系变更至新码位;3)某些机构早期通过占用PUA对一批急用图形字符分配了自定义编码,导致这些字符与现行标准编码不一致。判定准则判定准则1)对于同一标准中出现在不同编码位置的同一字形,产品应在每个码位均实现该字形;2)对于原映射关系变更至新码位的字符,应采用现行有效标准的最新版中的定义,同时鼓励兼容原映射关系;3)对于占用PUA编码的字形,应尽快转换为对应的现行标准编码。暂时无法完成转换的,应提供辅助功能以保障信息交换、处理等功能正常实现。涉及与外部系统信息交换的,应提供与现行标准编码兼容的处
94、性;2)易扩展性;3)经济适用性;4)兼容性;5)易用性;6)统一性。8.2.2标准符合性标准符合性1)国家标准符合性;2)国际标准符合性。信息技术生僻字处理指南(第一版)418.2.3易扩展性易扩展性1)技术方案是否可扩展;2)技术方案是否安全可控。8.2.4经济适用性经济适用性1)完成升级改造所需的成本;2)推广使用所需的成本。8.2.5兼容性兼容性1)是否能在多种操作系统环境下运行;2)是否能兼容常用的输入/输出设备;3)是否能与多种外部系统正确交换信息(如:电子邮件、各种格式的文档、即时通讯、数据库文件等);4)是否具备识别非标编码数据的功能;5)是否能兼容处理非标编码数据;6
99、字形范本,也为软硬件产品和字型产品的标准符合性检测提供字形依据。产品包括曲线字型和点阵字型产品两类:1)曲线字型曲线字型“国标宋体-超大字符集”曲线字库,当前版本包含87887个汉字,字体风格为宋体,支持GB18030-2022的实现级别3(全集),解决信息系统不能显示生僻字字形的问题。除宋体字型外,国标系列曲线字库还包含“国标黑体”“国标仿宋”“国标楷体”“国标小标宋”等字体风格,可支持GB18030-2022的实现级别1和2,适用于党政公文/日常办公等应用场景。2)点阵字型点阵字型支持GB18030-2022实现级别3的超大字符集国标点阵字型共有三款:151
100、6点阵、2424点阵宋体和4848点阵宋体;同时还有从1112点阵到6464点阵不等的多种规格点阵字型产品可支持GB18030-2022实现级别1和2。信息技术生僻字处理指南(第一版)45方正超大字库方正超大字库方正超大字库是方正的一款经典产品。其第一版方正宋一体超大字库包含7万多汉字,是北大方正于2002年开发完成,并首家通过了由国家新闻出版总署、国家语言文字工作委员会全国印刷字体工作委员会联合主持的鉴定。方正超大字库最新版本包含CJK和康熙部首、包含国家标准GB18030-2022信息技术中文编码字符集收录全部汉字87887个(CJK统一汉字、C
101、JK统一汉字扩充A、扩充B、扩充C、扩充D、扩充E、扩充F),支持通用规范汉字表全部汉字。该产品开发之初北大方正邀请了多位文字学专家进行指导,对字库中的汉字进行了新笔形化,同时邀请多位字体设计专家对设计质量进行把关,保证字形、笔形规范、统一,符合国家语言文字工作委员会的标准。方正宋体超大字库同时也是GB18030-2022标准文本的专用字库。该产品可以完美解决人名、地名缺字问题,解决专业辞书和古籍排印用字问题,已经在银行、邮电、保险、报业、信息传媒等行业得到广泛应用。汉仪中黑汉仪中黑TS(汉仪)(汉仪)汉仪中黑TS,是一款传统经典风格黑体,最新版本参考国家标准GB18
102、030-2022信息技术中文编码字符集,收录全部汉字87887个。该字库分为P1、P2两个字体文件:P1部分覆盖GB18030-2022实现级别2,其中包括CJK基本区、CJK扩充A共27570汉字和196个通用汉字规范表汉字,并包含非汉字部分康熙部首214个和CJK补充部首14个。P2部分包括除级别二之外全部汉字共60121汉字,其中包括CJK扩充B区42675个、扩充C区4105个、扩充D区214个、扩充E区5654个、扩充F区7473个。两个文件之和符合GB18030-2022实现级别
103、3。该字体字形以国家标准GB/T22321字形为参考,笔画风格规范统一,视觉效果优质均衡。知春宋体与知春等线体系列知春宋体与知春等线体系列北京卓玛之裕科技有限公司的知春宋体字库,在Unicode15.0发布的当天即实现对CJK统一汉字近10万字的全覆盖,全面支持强制性国家标准信息技术生僻字处理指南(第一版)46GB18030-2022信息技术中文编码字符集实现级别3要求的87887个汉字,全面支持金融行业标准JR/T0253-2022金融服务生僻字处理指南中完整级汉字。知春宋体的精简版本曾提供给人民银行各地分支机构使用开展针对姓名生僻字的调研工作。知春等线体
104、系列同样全部覆盖CJK统一汉字近10万字,目前提供超细、特细、细、微细、标准、微粗、中等粗、粗等共计8个不同字重的版本。遍黑体遍黑体这是一款在开源的思源黑体的基础上,进一步补充字数的字库,其设计风格沿用黑体,字形依据通用规范汉字表所规定的字形,更方便满足手机系统字库在我国使用上字数不足的问题,并在使用和再开发上维持开源和免费商用的特质。该字库分为两个字体文件,P1包括扩充A区49个、扩充B区6743个、扩充C区4153个、扩充D区222个(完整)、扩充E区5762个(完整)、扩充F区4868个,P2包括扩充G区4939个(完整
105、)、扩充H区4192个(完整)。该字库仍在发展中,日后还将紧贴GB/T13000和GB18030的后续版本,继续增加新编码的字符。注:该字库在PUA(用户自定义区)放置了大量汉字,机构用户使用之前应先将其中PUA区的字形删除,以符合GB18030关于自定义区的要求。BabelStoneHan这是一款由国际标准化组织和Unicode的参与专家开发的宋体风格的字库,其在文鼎科技的开源字体ARPLSungtiLGB的基础上发展而来,字形依据通用规范汉字表所规定的字形。该字库仅包含一个字体文件,是一款可免费商用的字库。其基本目标为覆盖GB/T13000(
106、即国际标准ISO/IEC10646)上明确为在中国使用的字符。汉字基本区包括20992个(完整)、扩充A区包括4593个、扩充B包括14025个、扩充C包括2197个、扩充D区222个(完整)、扩充E区包括3346个、扩充F区包括2975个、扩充G区包括3019个、扩充H区包括2266个。该字库更新频繁,日后还将紧贴GB/T13000和GB18030的后续版本,继续增加新编码的字符。注:该字库在PUA(用户自定义区)放置了大量汉字,机构用户使用之前应先将信息技术生僻字处理指南(第一版)47其中PUA区的字形删除,
107、以符合GB18030关于自定义区的要求。9.2.2输入法输入法搜狗输入法搜狗输入法腾讯搜狗输入法支持Windows、Linux、Android、iOS、鸿蒙、RTOS、嵌入式SDK、云输入等全部系统的输入方案,客户端活跃用户量6亿+。2022年11月腾讯搜狗输入法发布“汉字守护计划”,率先发布支持GB18030-2022全量汉字的安卓、iOS手机输入法。腾讯搜狗输入法在支持拼音、笔画、五笔、拆字、手写等输入方式基础上,为大字符集设计了专用的“生僻字键盘”。针对用户只识字形、不知读音的情况,腾讯搜狗输入法最新开发了“生僻字键盘”,通过“拆字”,实现笔画输入、拆分部首的拼
108、音输入,以及部首拼音+笔画的混合输入3种便捷输入。卓码输入法系列卓码输入法系列卓码生僻字处理系列软件由中国科学院软件研究所和北京卓玛之裕科技有限公司合作研发,目前已实现对Unicode15.0收录的全部近10万汉字(含扩充G、扩充H)的全覆盖,全面支持强制性国家标准GB18030-2022信息技术中文编码字符集实现级别三要求的87887汉字,全面支持金融行业标准JR/T0253-2022金融服务生僻字处理指南中完整级汉字。1)卓码输入法)卓码输入法卓码输入法支持WindowsXP/7/8/10/11、麒麟Linux、统信UOS、红旗Linux、方德桌面操作
109、系统、macOS、Android、iOS、鸿蒙等操作系统平台,并针对使用Windows触摸屏的自助设备提供带软键盘的版本。卓码输入法支持拼音、拆字、笔画、五笔、Unicode直录、人名地名生僻字专用码等多种录入方法。卓码输入法以拼音和拆字拼音为主的录入方式,最符合普通用户当前使用输入法的习惯,配合精心设计的录入提示,真正做到了录入生僻字零门槛。卓码输入法以创新的方式附带汉字属性小字典,将汉字的拼音、编码、IDS、通用规范汉字表中的分级和编号等一系列丰富的属性信息呈现给用户,给用户更多的用字指引。卓码输入法在解决生僻字录入问题的同时,兼顾日常使用的需要,收录信息技术生僻字处理指南(第一版)
110、48了大量生僻字人名、地名词语、金融词汇。2)卓码生僻字显形工具软件)卓码生僻字显形工具软件在Windows平台上,与卓码输入法配套的卓码生僻字显形工具软件从操作系统底层解决生僻字的显示问题,能够让大量应用软件不需修改源代码绑定特定生僻字字库,在使用系统缺省字库的情况下即可显示生僻字,真正做到“无感显字”。同时,针对PUA区的监测可有效避用户有意或无意使用其他应用软件录入与二代身份证不兼容的PUA字。3)卓码查字)卓码查字在Windows操作系统上,还提供卓码查字软件,支持拼音、拼音+总笔画数、部首、部首+总笔画数、拆字、拆字拼音、五笔、Unicode直录、笔画(拼音笔画)、
111、笔画(数字笔画)等共计10种查字方法,可快速找到需要的生僻字。4)卓码云输入法)卓码云输入法面向Web/H5、Android、iOS、小程序端,卓码还提供云输入法和云字库,支持拼音、拆字、拆字拼音、五笔、笔画等多种查字方法。并提供基于服务器端的重量级部署和纯移动端的轻量级部署两种方案。5)其他)其他除此之外,卓码还针对生僻字开发了卓码五笔输入法、适用于排队叫号机的生僻字补音组件(语音合成)、输入法生僻字支持能力自动检测软件等一系列产品。方正超大字库输入法方正超大字库输入法方正超大字库输入法最早是解决字典辞书类书籍出版时超大字库的输入问题,随着国家标准GB18030不断扩充,方正紧跟
112、国家标准持续迭代,目前方正超大字库输入法最新版本已支持8万多汉字的显示、录入,全面支持国家标准GB18030-2022全部汉字87887个(CJK统一汉字、CJK统一汉字扩充A、扩充B、扩充C、扩充D、扩充E、扩充F)。该产品根据用户使用场景,提供了Windows平台、信创平台(统信、麒麟以及红旗)、云平台和移动平台(Android和iOS)等多平台输入解决方案,可以完美解决人名、地名生僻字输入问题。信息技术生僻字处理指南(第一版)491)Windows平台输入解决方案平台输入解决方案Windows平台提供独立的客户端程序,采用方正新典码输入技术,能直
113、观地输入汉字,不需要记忆任何字根或编码,便于普通用户的学习和掌握。提供部首、笔顺和拼音三种相结合的检索方式,用户可以根据自己熟悉方式自由选择。该方案有效解决Windows平台超大字库字符的显示和录入问题。2)信创平台输入解决方案信创平台输入解决方案信创平台输入解决方案采用通用输入法架构,提供笔顺和全拼和拆分部件拼音三种检索方式。适配统信、麒麟和红旗操作系统。该方案有效解决信创平台超大字库字符的显示和输入问题。3)云平台云平台&移动平台输入解决方案移动平台输入解决方案云平台和移动平台采用WebFont技术,通过构造一个输入键盘,用户在键盘上点击笔顺信息(横竖撇点折),动态显示候选结果,
114、筛选出目标生僻字,完成目标字符输入。该方案有效解决云平台和移动平台超大字库字符的显示和输入问题。该产品主要用于出版、政务以及公共服务等领域。百度输入法百度输入法百度输入法是百度推出的一款人工智能输入工具,支持拼音、五笔、手写、语音、笔画等多种输入方式,具备智能调频、智能联想、智能纠错、智能预测、智能混输等算法,依托百度十多年搜索经验积淀,实现词库丰富、出词精准、联想智能,给用户带来极致的输入效率和体验。百度输入法已实现全平台覆盖,支持Windows、Linux、麒麟、UOS、中科方德、macOS、Android、iOS等操作系统以及云输入法。在生僻字系统升级方面,百度输入法提供拼音、手写、
119、作用于汉字姓名生僻字方法初探J.金融电子化,2021(10):54-56.2纪熙东、李言平:姓名生僻字的银行标准化实践和建议A.中国标准化协会、郑州市人民政府.第十六届中国标准化论坛论文集C.中国标准化协会、郑州市人民政府:中国标准化协会,2019:6.3艾卓码:姓名生僻字应用的困境与对策J.信息技术与标准化,2021(10):77-82.4杨健:一种基于编码转换的超GBK字符集解决方案J.长江信息通信,2022,35(06):209-211.5马征:银行信息系统生僻字问题探究J.金融发展研究,2021(02):88-89.6刘建军、杜晓、杨眉等:基础地理信息生僻字系统的设计与实现J.地理
120、信息世界,2016,23(1):133-135.7李运富:论汉字数量的统计原则,郑州大学汉字文明研究中心(原载辞书研究2001年第1期)8尉迟治平:再论中文汉字字符集J.语言研究,2020,40(01):78-89.信息技术生僻字处理指南(第一版)529保研险泡汤,不能让生僻字背锅J.发明与创新(大科技),2019(12):43.10范亚茹:文化传承视角下“生僻字”流行的再认识J.汉字文化,2019(18):38-39.11吴汉江:同音字替代:消除地名生僻字的有效途径J.中国地名,2017(09):21-22.12雷天戈:生僻字勾起多少文化记忆J.共产党员(河北),2016(08):47
121、-48.13徐剑锋:生僻字考验职能部门服务意识N.西江日报,2015-08-06(F02).14王旭东、金敖生:一个生僻字险让企业停产N.浙江日报,2009-12-20(002).15丁芸:我国公民姓名用字中的生僻字分析J.现代商贸工业,2009,21(18):240-241.16许寿椿:汉字的技术性机械化时代和信息化时代的比较J.汉字文化,2009(02):80-84.17邱莉芹:关于人名用字中生僻字使用情况的调查与分析J.术语标准化与信息技术,2008(02):22-24.18郑燕萍:名字使用生僻字的文化动因J.汉字文化,2007(05):63-65.19尉迟治平、汤勤:论中文字符集、字库
122、及输入法的研制J.语言研究,2006(03):63-66.20戎明昌、程佳凌、郑蕾:粤19生僻字地名要改名引发争论N.南方日报,2006-08-03(A06).21许寿椿:新世纪,呼唤汉字的完整解决方案J.汉字文化,2003(03):21-22.信息技术生僻字处理指南(第一版)53第十章实施案例在信息系统生僻字处理和解决的问题上,地方政府、各级行业主管部门、行业应用单位以及软硬件研发生产厂商纷纷进行了积极的探索。本章征集了各类机构和单位在支持生僻字的升级改造方面所取得的经验,为未来计划开展信息系统生僻字治理的机构提供参考。根据不同的改造范围,将实施案例划分为四个类别,分别是:公共服务机构
123、的系统内改造大规模跨系统的公共服务升级改造用字单位解决内部用字需求通用的软硬件产品/服务的升级改造下面按类别列举有关案例。10.1公共服务机构的系统内改造案例公共服务机构的系统内改造案例案例一:中信银行系统改造案例一:中信银行系统改造(一一)问题描述问题描述1)生僻字在业务处理层后端存储、链路传输的问题:2020年之前,中信银行核心系统的主机使用EBCDIC编码,该编码字符集所收字汇相当于GB18030-2000,不支持CJK扩充B及之后的汉字。若将数据库字段改为UTF-8编码以支持全字集汉字,则上层应用程序几乎都要修改,改造难度高,工作量巨大。此外,不少外围系统内部、
124、系统间接口、数据库等仍在使用GBK编码,不支持生僻字,部分系统升级为GB18030或UTF-8编码的成本也很高。2)生僻字在渠道层前端的显示、输入、打印的问题:当时柜面系统使用字库和输入法是操作系统自带的字库和输入法,人口信息字库PUA编码生僻字和CJK扩充C及之后的汉字不能显示也难以输入;柜面存折打印机也只支持GB18030-2000的27533个汉字。网上银行、手机银行的字库依赖客户端。于是大量生僻字在各渠道无法显示,也难以输入。信息技术生僻字处理指南(第一版)54(二二)技术方案技术方案1)采用通用的自定义编码扩展转义格式在小字符集编码(如GBK、EBC
125、DIC)中表示生僻字,开发通用SDK(C语言组件提供通用的静态库、普通动态库和JNI动态库及Java语言组件等)实现大字符集编码(如GB18030、UTF-8、UTF-16等)转小字符集编码时生僻字变为转义格式,字符集编码小转大时生僻字转义格式进行还原。升级方案不改变整体数据架构、技术架构,避免底层产品字符集升级而导致成本过高问题,外购系统或难以升级字符集的系统可保留小字符集编码不变,以保护系统资产投资。2)兼容处理人口信息字库PUA与UCS正式码“一字多码”导致的身份证联网核查失败或转账校验账户户名与报文收款人姓名不符的问题,提升客户体验。3)通过ESB、通用文件传输平
127、将旧系统的数据、功能迁移到新系统上。3)存量策略结合特点分类处理,对于采用GBK编码的系统,涉及数据量大、程序改动量小的系统尽可能升级为GB18030编码;数据量小、程序改动量小、影响范围小的系统尽可能升级为UTF-8编码;数据量大、程序改动量大、升级成本过高的系统保持GBK编码不变,采用转义方式来表示生僻字。信息技术生僻字处理指南(第一版)554)保障策略设置生僻字开关,避免上线回退风险,保持业务连续性。(四四)改造效果改造效果中信银行在人民银行科技司的指导下,于2020年4月完成了全行系统生僻字改造。目前,生僻字在核心系统、柜面及手机银行等全渠道畅行无碍,为各行各
128、业解决生僻字问题提供了切实可行的“中信方案”。2021年9月,中信银行又与北京金融科技产业联盟合作将全套生僻字解决方案、工具和软件进行开源,与全行业共享成果,推动生僻字社会难题的解决。(五五)生僻字改造后的现状以及未来生僻字改造后的现状以及未来GB18030-2022的挑战的挑战渠道层前端系统中,人工柜面安装了与户籍机关同版本的人口信息字库与输入法,实现了8万多字的显示与输入,网银、手机银行等电子渠道通过云字库/云输入法调用后台大字库系统,也是与户籍机关同版本的人口信息字库。柜面新采购的存折打印机已能支持GB18030-2005的7万多字的打印。与GB18030-2022发
129、布后要求的87887个汉字还有一些差距。交易链路中的架构各层各类系统间接口,已分别通过升级UTF-8或GB18030编码,或在GBK编码中使用转义方式表示生僻字等三种方法支持生僻字的传输。转义与链路传输支持的编码都已涵盖GB18030-2022的编码范围。在业务处理层后端系统中,数据库存储或文件存储也已分别通过升级UTF-8或GB18030编码,或在GBK编码中使用转义方式表示生僻字等三种方法支持生僻字,在后端系统的转码和内部处理中,涉及姓名比对、联网核查的两个功能,通过对照表实现了人口信息字库PUA与UCS正式码“一字多码”的兼容处理。GB18030-2022
131、务处理层系统的转码组件文件。案例二:招商银行案例二:招商银行系统改造系统改造(一一)问题描述问题描述由于招商银行使用的主机系统使用基于EBCDIC编码DBCS字符集,实际可以使用的编码仅能符合GB18030-2000。旧有的编码仅有GB18030双字节部分的汉字,可以与主机映射。对于GBK和扩充A区共有的52个GB/T13000双码字,如【】:U+E863、U+4DAE与GB18030中的0xFE9F,客户、财务、他行来的业务信息,可能是其中一个码,经常无法入账,受到的投诉很多。(二二)技术方案与实施策略技术方案与实施策略1)由于在主机迁移上云过
137、民身份证上的信息,但是由于公安人口信息专用字库并不是公开的技术标准,造成公安部以外的部门的信息系统无法处理公安人口信息专用字库专有的生僻字,一些居民的身份证上明明打印上了生僻字,但是在持身份证办理其他部门公共服务事项时还是困难重重,引起较大的不解和不满。此外,由于不同的条线部门在生僻字处理上方法不一,也造成“一网通办”建设过程中数据治理难题,对于部分含有生僻字的姓名数据,在信息比对和交互时会出现非业务因素的问题,造成这些居民的部分业务无法顺利办成,给这些居民带来不便。为填平这一历史和技术原因造成的“数字鸿沟”,解决人民群众“急难愁盼”问信息技术生僻字处理指南(第一版)59题,真正落实“人民群众
138、人民建,人民城市为人民”的为民发展理念,2021年9月,上海市经济和信息化委员会、上海市大数据中心联合发出关于开展信息系统生僻字问题改造的通知,拟针对居民日常生活常见服务场景中涉及的信息系统进行统一技术路线的生僻字支持改造,争取达到让姓名中含有生僻字的居民也能在“一网通办”时代顺畅享受各种公共服务。(二二)总体思路总体思路由于身份证是居民的法定身份证明证件,因此本次生僻字改造的技术路线原则上向身份证靠拢,确保含有生僻字的姓名从源头上统一处理规则。落到改造的技术思路上,就是利用公安人口信息专用字库针对各个信息系统的改造工作,具体又分为需求侧和供给侧两部分,其中供给侧由市大数据中心牵头,通过购
139、买服务方式在市电子政务云上提供基于公安人口信息专用字库的PaaS服务(以下简称生僻字PaaS服务),通过API和SDK方式对外提供生僻字的“显示、输入”功能;需求侧是全市各个系统调用生僻字PaaS服务,在本系统内实现生僻字的显示、输入、打印等功能,并确保外部数据交互过程中生僻字处理的规则统一性,对于部分因网络原因无法调用生僻字PaaS服务的系统,可酌情采购公安人口信息专用字库的本地版字库或者私有PaaS服务。本次改造的需求端涉及政府部门、医院、药店等医疗机构、部分银行、保险等金融机构、医院、药店等医疗机构等,初步统计涉及系统50余个。(三三)典型经验典型经验1)P
140、aaS服务使用服务使用生僻字PaaS服务采用API和SDK方式提供功能,对于基于浏览器的系统或者移动端APP,都可以通过内嵌生僻字PaaS服务的SDK实现对生僻字的支持。以基于浏览器B/S/S架构的系统为例,系统在整合生僻字PaaS服务的SDK后,可以加载生僻字PaaS服务的JavaScript文件,在页面上调用其包含的特定组件,可以实现生僻字的显示和输入,其中输入的时候是借助一个生僻字专用输入法的iframe层实现,效果如图10-1所示:信息技术生僻字处理指南(第一版)60图10-1用专用输入法来输入生僻字组件在显示生僻字或者打印生僻字时会根据内容的
142、-8或者UTF-16的编码字符集,对于采用GBK甚至更小范围字符集的数据库,需要采用一些特殊的方法:利用数据库特性,例如Oracle的国家字符集。一般我们说Oracle数据库采用GBK字符集,是指Oracle的NLS_CHARACTERSET参数值为ZHS16GBK,也就是说设置为char或者varchar的字段只能记录长度为2字节范围在GBK内的汉字,如果是超过两字节的汉字(大部分生僻字)会被截断从而变成乱码。但是利用Oracle的国家字符集特性,即将NLS_NCHAR_CHARACTERSET参数设置为AL16UTF16,那么设置为nch
143、ar或者nvarchar的字段就可以存储两字节以上的汉字。采用国家字符集特性后应用代码所需调整较小。将生僻字转义为编码字符串进行存储,这个方案具有普适性,但在存储信息技术生僻字处理指南(第一版)61和读取时有一个转码的环节,对应用代码以及性能影响较大。系统中存量的生僻字也是改造的一个难点,这里一般分为两种处理方式:对于无法识别出生僻字的存量数据(以前采用同音常见字或者拼音标识的,基本无法还原出原有的生僻字),一般只能通过日常业务或者与权威数据比对逐步更新。对于这类存量数据,在对外提供数据交互时,应尽量避免使用姓名作为查询条件,以免出现本系统内存量生僻字不符合统一的生僻字处理规则而造成数据
147、一系统中回退到.notdef的生僻字或不符合通用规范汉字表与印刷通用汉字字形表所规定写法规则的字形时,通过SVGfont嵌入页面。3)搜集未编码生僻字形成数据表,通过适当渠道提交至以后的IRGWS中。对IRGUCV中要求需要进行认同的生僻字,考虑提交至IVD。当编码确认且稳定后,一并更新数据表、字库、数据库和网页等。(三三)实施步骤实施步骤1)优先把握当前正在做的数字资源,并尽量做到纸书排版工程文件与数字信息技术生僻字处理指南(第一版)63资源文本内容共享。2)逐步回溯检查已经发布的数字资源,作出必要的更新。3)探讨进一步完善电子书数字资源对生僻字的支持。(四四)改造案例
148、改造案例一本关于非遗传承的图书中,提及家人的音乐与舞蹈,复合媒体二维码使用的数字资源需要展示题目、介绍、音频名称等。“”字的UCS码位为U+313BC,GB18030码位为0x9A388534,另经查发现山人(Sunman)、人口信息和某权威出版社的PUA都包含这个字,但在制作网页时,已获得正式码,则决定只使用正式码,而不是其他。将U+313BC所对应的字形加入到专用的woff字库中,通过css指定在网页上显示。信息技术生僻字处理指南(第一版)6410.4软件产品支持生僻字的软件产品支持生僻字的解决方案解决方案案例一:腾讯搜狗输入法案例一:腾讯搜狗输入法(
149、一一)问题描述问题描述由于互联网手机应用依赖系统字库,如果系统不支持大字符集,应用内无法直接调用显示,在系统不支持大字符集的情况下支持应用内大字符集显示需要新的技术方案。(二二)技术方案与实施策略技术方案与实施策略解决方案是通过合作大字符集字体,通过内置,完成应用内大字符集显示,有如下两个方案:方案一:客户端直接内置大字符集字体包(30MB),或可采用引导用户后下载的方式。方案二:云字体方式,按照调用在客户端显示,节省本地存储空间。云字体方式技术方案:应用检测用户上屏的内容是否包含生僻字,如果包含生僻字,请求云字体服务生成包含生僻字的云字体库并加载云字体库,刷新生僻字候选,生僻字可正常展示,点
150、击候选内容完成输入上屏。由于云字体受网络依赖较大,针对快速输入场景有一定体验损失,腾讯搜狗输入法采用方案一客户端直接内置大字符集字体包(30MB)。(三三)安卓安卓/iOS手机版搜狗输入法实施步骤手机版搜狗输入法实施步骤1)根据设备端汉字的支持情况,筛选出端上不支持汉字的UCS编码,使用汉仪或其他字体全量汉字集生成字体包。2)引导用户下载字体包。3)在需要文本展示的地方判断要展示的问题端上是否支持,若不支持则加载使用下载的字体包渲染。案例案例二二:永中永中Office(一一)解决政务解决政务/日常办公的生僻字处理需求日常办公的生僻字处理需求作为国产Office办公软件的引领者,永中
151、Office与国内字体库厂商进行战略合作,解决了Office办公软件用户对常用字、生僻字输入、编辑、打印体验方面的问题。信息技术生僻字处理指南(第一版)65陇南市政府协同办公系统项目中采用了永中Office产品。安装永中Office办公软件时,将字体库同步进行安装。永中Office设置项中,设置“将字体嵌入文件”,在进行文件保存时,可以将内容中所涉及的字体库与文件共同保存,即能解决生僻字无法录入、无法显示的问题。图10-2软件字体库下拉菜单(二二)利用版式文件解决生僻字显示问题利用版式文件解决生僻字显示问题永中软件作为国产办公软件产品开发和服务提供商,拥有Office办
154、况,提供生僻字多种编码形式的映射,包括UCS正式码、各类替代字(如拼音、拆字、繁简异体字UCS正式码、ncr编码等)等。为各业务接入生僻字提供基础,降低升级成本。2)内部编码升级。支付宝在编码、传输、调用、数据库连接方面统一成标准格式。3)Oceanbase数据库全面支持GB18030-2005,目前按照GB18030-2022要求正在升级,后续全面支持GB18030-2022。(三三)实施策略实施策略该方案在实施中整体采用分批推进的策略。1)从常见生僻字开始分批推进。从存量客户中梳理出常见生僻字,按照使用频率分批进入“生僻字多编码字库”。2)前端优先解决常见生僻字输
155、入和显示问题。从“身份认证”环节开始,支付宝首先上线了独立组件“生僻字键盘”,输入拼音只显示可能对应的生僻字,解决普通输入法经常打不出生僻字的问题,方便用户快速找到并打出正确名字,从而通过身份认证、正常使用支付宝的线上服务。在显示环节,支付宝联合阿里巴巴普惠体“生僻字计划”共同设计开发“生僻字”专用字体,配合“生僻字键盘”解决生僻字的输入和显示问题。信息技术生僻字处理指南(第一版)673)分场景分环节逐步接入。根据总结的一字多码情况,技术实现跨机构联网核查。生僻字用户通过支付宝身份认证后,就可以正常绑卡、刷脸支付,并分场景分环节逐步接入,逐步实现查看公积金、医保卡、交管等系列政务服务。4)客服
159、汉字属性信息(5)足以说明使用情况的,不必提交单独的文字说明。4、使用情况的图片证据、使用情况的图片证据(必选必选)文字说明之外,应附必要的图片作为证据。例如:身份证、户口簿或其它合法、有效的文件或证件,或使用场景的现场照片。涉及国家、单位、个人秘密或隐私的内容可以隐去。图片应清晰,其中的文字应易于辨认。图片宜采用jpeg格式。5、汉字属性信息、汉字属性信息(必选必选)汉字属性应包括下列信息,并以.xlsx的文档格式提交:1)康熙部首。待编码汉字均以康熙字典规定的214个部首归类。康熙部首在GB/T13000中的代码、序号、字形见附表1,24个康熙部首的简化字形及其序号见附
160、表2。附表1康熙部首的序号和编码位置代码序号字形代码序号字形代码序号字形2F001.02F4873.02F90145.02F012.02F4974.02F91146.02F023.02F4A75.02F92147.02F034.02F4B76.02F93148.02F045.02F4C77.02F94149.02F056.02F4D78.02F95150.02F067.02F4E79.02F96151.02F078.02F4F80.02F97152.02F089.02F5081.02F98153.02F0910.02F5182.02F99154.0信息技术生僻字处理指南(第一版)70代码
161、序号字形代码序号字形代码序号字形2F0A11.02F5283.02F9A155.02F0B12.02F5384.02F9B156.02F0C13.02F5485.02F9C157.02F0D14.02F5586.02F9D158.02F0E15.02F5687.02F9E159.02F0F16.02F5788.02F9F160.02F1017.02F5889.02FA0161.02F1118.02F5990.02FA1162.02F1219.02F5A91.02FA2163.02F1320.02F5B92.02FA3164.02F1421.02F5C93.02FA4165.02F1522.02
162、F5D94.02FA5166.02F1623.02F5E95.02FA6167.02F1724.02F5F96.02FA7168.02F1825.02F6097.02FA8169.02F1926.02F6198.02FA9170.02F1A27.02F6299.02FAA171.02F1B28.02F63100.02FAB172.02F1C29.02F64101.02FAC173.02F1D30.02F65102.02FAD174.02F1E31.02F66103.02FAE175.02F1F32.02F67104.02FAF176.02F2033.02F68105.02FB0177.02F2
163、134.02F69106.02FB1178.02F2235.02F6A107.02FB2179.02F2336.02F6B108.02FB3180.02F2437.02F6C109.02FB4181.02F2538.02F6D110.02FB5182.02F2639.02F6E111.02FB6183.02F2740.02F6F112.02FB7184.02F2841.02F70113.02FB8185.02F2942.02F71114.02FB9186.02F2A43.02F72115.02FBA187.02F2B44.02F73116.02FBB188.02F2C45.02F74117.0
164、2FBC189.02F2D46.02F75118.02FBD190.02F2E47.02F76119.02FBE191.02F2F48.02F77120.02FBF192.02F3049.02F78121.02FC0193.02F3150.02F79122.02FC1194.02F3251.02F7A123.02FC2195.02F3352.02F7B124.02FC3196.02F3453.02F7C125.02FC4197.02F3554.02F7D126.02FC5198.02F3655.02F7E127.02FC6199.02F3756.02F7F128.02FC7200.0信息技术生
165、僻字处理指南(第一版)71代码序号字形代码序号字形代码序号字形2F3857.02F80129.02FC8201.02F3958.02F81130.02FC9202.02F3A59.02F82131.02FCA203.02F3B60.02F83132.02FCB204.02F3C61.02F84133.02FCC205.02F3D62.02F85134.02FCD206.02F3E63.02F86135.02FCE207.02F3F64.02F87136.02FCF208.02F4065.02F88137.02FD0209.02F4166.02F89138.02FD1210.02F4267.02
166、F8A139.02FD2211.02F4368.02F8B140.02FD3212.02F4469.02F8C141.02FD4213.02F4570.02F8D142.02FD5214.02F4671.02F8E143.02F4772.02F8F144.0附表2简化字形的康熙部首序号和字形非简化字形的序号非简化字形简化字形的序号简化字形90.0090.1丬120.0120.1纟147.0147.1见149.0149.1讠154.0154.1贝159.0159.1车167.0167.1钅168.0168.1长169.0169.1门178.0178.1韦181.0181.1页182.0182
167、.1风183.0183.1飞184.0184.1饣187.0187.1马195.0195.1鱼196.0196.1鸟197.0197.1卤199.0199.1麦205.0205.1黾210.0210.1齐211.0211.1齿212.0212.1龙213.0213.1龟2)部首外笔画数。信息技术生僻字处理指南(第一版)723)部首外起笔标记。按照笔形,顺序为横(一)、直(丨)、撇(丿)、点(丶)折(乙,包括乛乚等笔形),对应数字分别为1、2、3、4、5。例如:“部”的部首外起笔为“丶”,标记为“4”;“侯”的部首外起笔为“乛”,标记为“5”。特殊地,当整个字即为部首本身或其变体,标记为“0”
168、。4)总笔画数。5)表意文字描述序列(IDS)。通过组合使用表意文字描述符和已经编码的汉字,对待编码汉字的字形进行准确或近似的描述。这种组合,称为表意文字表述序列(IDS)。需要使用的表意文字描述符及其在GB/T13000中的代码见附表3。附表3表意文字描述符序号表意文字描述符代码功能描述1303E相似而不等,用于借某字表达外字。22FF0左右结构32FF1上下结构42FF2左中右结构52FF3上中下结构62FF4全包围结构72FF5向下包围结构82FF6向上包围结构92FF7向右包围结构102FF8向右下包围结构112FF9向左下包围结构122FFA向右上包围结构132FFB嵌套