在v2ex也有发,在这里再整理一下:
先说一下:无偿,请不要喷我。也不要在此讨论五笔各版本及其与拼音、手写等其他输入法的优劣、存亡等。
我在做新世纪版五笔字型 Unicode CJK 超大字符集编码数据库,9 月底应该能完成 Unicode 11.0.0 全部 CJK 字符的初校。7.17 项目开始,已持续 2 个月了,过程相当枯燥、苦逼...
最近在想,如果把前辈们已经搞完的 86 版、98 版编码放在一起,互相借鉴、印证,该是多好的的一件事。但我不会编程,才来求助各位。
软件初衷的使用对象是五笔编码编、校人员,所以功能上“编辑”为主,“查询”为次。
五笔是形码输入法,字形决定编码,编码校对时应包括“字形校对”和“编码校对”,其中“字形校对”尤为重要。由于Unicode采用的“认同”体系,**大陆、**港/澳/台、日本、韩/朝、越南等东亚地区的汉字字形各不相同。同时,国标“正形”后的标准字形与Unicode标准字形也有差异,需要仔细校对。目前的校对基本使用记事本等文本编辑器,只能设定单一字体,字形差异不容易被发现,因此五笔编码编、校软件应支持同时展示多种字体字形来解决这个重要问题。
除去字形,笔顺也是极为重要的一环。键外字拆分规则:书写顺序、取大优先、兼顾直观、能连不交、能散不连。第一条就与笔顺相关,可惜王码五笔并不是完全按照**大陆笔顺规范编码,部分汉字是按照****笔顺编码的。作为用户主要在**大陆的五笔输入法,个人认为应统一按照**大陆笔顺规范来编码。
现在不比 10 来年前 86、98 版超大字符集编码时有很多人参与,后来增加的 CJK 字符编码基本都靠个人之力完成,三个版本也就主要是三个人而已。
当然,查询功能适用所有五笔用户,目前也有同类软件、APP、网页等,还能显示拆分结构等更多信息,但字符集基本都是 GBK 或 GB18030-2000 ( CJK+CJK-A )
软件的需求大致如下:
GUI 草图
![](https://camo.githubusercontent.com/0b706d53f242de27def92f8f4c9224280fe7a1f7d143807dec38de71bdb010d0/68747470733a2f2f692e696d6775722e636f6d2f424d70466263422e706e67)
数据源
https://github.com/CNMan/UnicodeCJK-WuBi
txt 编码:UTF-8
txt 格式:
第一列:Unicode 编码
第二列:Unicode 字符
第三列:86 版五笔字型编码
第四列:98 版五笔字型编码
第五列:06 版五笔字型编码
第六列:**大陆笔顺
第七列:****笔顺
txt 列分隔符:,
软件数据库应直接采用本项目的CJK*.txt
文本
字形展示
为避免系统Fallback导致字形错乱,软件采用 BabelMap 导出的字体图片展示字形
字形图片展示区应可以同步展示多种字形,包括:**大陆字形、**台港澳字形、日本字形
字体图形框:90*90 px,居中显示,不缩放,无背景色
字形图片文件名格式统一为 U_XXXXXX.png(或gif)( XXXXXX 为大写的 6 位 Unicode 编码,不足 6 位则前面补 0 )
字形图片文件按平面分文件夹存放,软件应根据Unicode编码所在平面查找对应的图片进行展示
字形文件夹对应表格如下:
U_编码 |
平面 |
00XXXX |
Plane00 |
01XXXX |
Plane01 |
02XXXX |
Plane02 |
03XXXX |
Plane03 |
0EXXXX |
Plane14 |
0FXXXX |
Plane15 |
10XXXX |
Plane16 |
以下9种字体的48 pt PNG格式图片已全部添加到UnicodeCJK-FontGlyphs:
中易宋体:部分支持到 CJK-E ( 74712 字/图),**大陆字形
中华书局宋体:支持到 CJK-F ( 87870 字/图),**大陆字形
汉仪字典宋:支持到 CJK-B ( 70195 字/图),**大陆字形
汉仪仿宋:支持到 CJK-D ( 74574 字/图),**大陆字形
方正楷体S-超大字符集:支持到 CJK-B ( 70217 字/图),**大陆字形
细明体:支持到 CJK-D ( 74594 字/图),****字形
细明体_HKSCS:支持到 CJK-D ( 74594 字/图),**香港字形
方正楷体T-超大字符集:支持到 CJK-B ( 70217 字/图),**台港澳字形
花园明朝:支持到 CJK-F ( 87870 字/图),日本字形
查询框
支持小写自动转大写
支持四位、五位、六位 Unicode 编码
上一个、下一个
顺序为Unicode编码顺序
修改、编辑、保存按钮
按下“修改按钮”后,编码区变为可编辑状态,“修改按钮”变为“保存按钮”,也可以分开
数据保存格式
将结果直接保存到相应的源 txt
中
多谢!