前言
中国古代,把造字方法归纳为六种总称“六书”,即所谓“象形、指事、会意、形声、转注、假借”,其中“象形”是用线条来描画实物的形状,让人一看就能把字形与实物联系起来,因此是最基本、最直接的造字方法,在甲骨文中象形字占绝大多数。
到了近代,汉字与外来文字融合过程中,也往往采用“象形”造字法把字母融入汉字体系,例如字母词中的 “T恤衫”、“S形转弯”、“U形钢”等,通过“象形”把不相似或不相同的事物统一起来,这就是异化。进入信息时代,用异化创建汉字信息属性,丰富和完善汉字属性库,对中文信息处理技术持续发展,具有重要意义。
【关键词】异化 字母异化 数字异化 汉字信息属性 中文信息处理
一 用字母异化创建汉字信息属性
1、字母异化与《汉语拼音方案》
汉字和字母都有音,汉字音和字母音之间是没有渊源关系的,但拉丁字母脱离原本构词(表音)功能,用字母组合成《汉语拼音方案》为汉字注音,这就是字母异化。汉字采用拉丁字母注音是一种近似关系,最初用注音字母标注,到1982年用国际音标标注。在汉字信息属性库中,汉语拼音成为字音的标准拼写形式,和音序的标准表达形式,在中文信息处理中,有95%以上的人把汉语拼音作为首选方法,汉语拼音成为中国文化走向世界的桥梁,周有光先生在纪念《汉语拼音方案》公布45周年发表文章感慨地说:“中国的汉字和罗马的字母,东西十万里,上下两千年,风马牛不相及也。想不到汉字跟字母终于缔结姻缘,两相偎依。”
2、字母异化与《汉字拼形方案》
汉字和字母都有形,汉字形和字母形之间也是没有渊源关系的,那么拉丁字母能否脱离原本构词(表形)功能,用字母组合为汉字标形呢?根据汉字能拆能合特点,通过字母异化作用,拉丁字母也是可以为汉字标形的。
汉字输入法编码包括两个步骤,一是要把汉字库的字用某种汉字构件(单笔画或多笔画结构)组合表示,二是用字母(或其它符号)标注这些汉字构件形成代码,这样才能通过计算机键入这些代码达到输入汉字目的。字母有两个特性,一是整体具有固定的排列顺序,二是个体具有固定的形体特征,在这两个特性中,前者是隐性的,后者是显性的,如果把英文字母的两个特性都用于输入法编码的两个步骤,那么英文字母第一个特性对应输入法编码的第一个步骤,即用于制定编码规则并确定汉字构件,英文字母第二个特性对应输入法编码的第二个步骤,即用于标注汉字构件形成代码,以上这两个步骤是相辅相成的。
最早采用上述方法编码的是上世纪八十年代《表形码》汉字输入技术,因只用了字母的第二个特性,在某些方面难以有突破。《汉字拼形方案》是在表形码基础上发展起来的,采用字母的两个特性编码:利用字母整体具有的序列特性来协调编码中产生的歧义性并确定了汉字构件,和利用字母个体具有的形体特征来标注汉字构件并形成了代码,输入法编码将被推向一个新高度。
1)汉字形符总共设249个(GB2312-80),其拼写形式(代码)见表1:
汉字形符拼写形式对照表(GB 2312-80) 表1
2)汉字形符与汉字部件对比见表2:
汉字形符与汉字部件对照表(GB2312-80) 表2
3)《汉字拼形方案》与《汉语拼音方案》对比见表3:
汉字拼形方案与汉语拼音方案对照表(GB2312-80) 表3
4)汉字拼形编码流程如下:
汉语、汉字形符、汉字拼形演化对照表 表4
5)汉字形符意义如下:
汉字通过汉字形符直接转化成拉丁字母表达形式,因此具有汉字按字形排序功能,在中文信息处理中具有递推联想和句处理功能,可与汉语拼音资源共享,直接使用现代大型中文语料库资源等。
二 用数字异化创建汉字信息属性
汉字音字母异化制定了《汉语拼音方案》,汉字形字母异化制定了《汉字拼形方案》,这两种方案都是用拉丁字母标注汉字,根据同样原理,汉语拼音和汉字拼形也可通过数字异化达到用数字标注字母目的,这里把与字母形体相似的数字称作数字母,数字母键盘见图1:
数字母键盘
图1
图1中数字键的数字就是数字母,例如数字母1表示字母i、j、l,数字母2表示字母n、z,数字母3表示字母e、m、w等,通过数字异化设定的数字母键盘,汉语拼音可演化成数字拼音,汉字拼形可演化成数字拼形,这两种演化结果都是用数字标注字母,从而达到用数字标注汉字目的。
为了把数字母键盘推向世界,因此这种键盘应首先满足英文的输入,其次是汉语拼音和汉字拼形的输入,当然如把笔画或汉字部件标注在数字键位上开发传统输入法也不受影响,下面介绍数字母键盘应用:
1、数字英文输入法
先定义复式字母,按字母排列顺序,字母和排序在后面与其相邻的那个字母所构成的字母组合称作该字母的复式字母,表现形式为字母a的复式字母是ab,字母b 的复式字母是bc,……,字母z的复式字母是za。采用图1数字母键盘,每个字母的复式字母均可转换成两位数字母,例如a的复式字母是ab,数字母是 48;b的复式字母是bc,数字母是86;z的复式字母是za,数字母是24等。采用数字母键盘输入26个字母,转换成的两位数字母都不重复。
下面介绍数字英文输入法:
首先建立数字英文词库,字母的数字英文用复式字母转换成的两位数字母表示,例如a的复式字母是ab,数字母是48,数字英文也是48,根据同样道理,b的数字英文是86,z的数字英文是24等。词组的数字英文用图1数字母键盘直接转换成的数字母组合表示,例如英文China的数字英文是68124等。采用图1数字母键盘,输入的是数字英文而输出的是英文,如果词库中没有该词组则按单个字母输入。
2、数字拼音输入法
先定义复式汉语拼音与数字拼音,对于汉语拼音408个不标调音节(GB2312-80),把每个音节首位字母均转换成复式字母,这样构成的字母组合称作复式汉语拼音,采用图1数字母键盘,把复式汉语拼音转换成的数字母组合称作数字汉语拼音,简称数字拼音,例如汉语拼音da的复式汉语拼音是dea,数字拼音是034。采用数字母键盘输入汉语拼音408个不标调音节,转换成的数字拼音都不重复,这是数字键盘能够直接输入汉语词组的基础。
下面介绍数字拼音输入法:
首先建立数字拼音词库,最简单方法是把全拼输入法转换成数字拼音输入法,转换方法是,把全拼输入法中无论是单字还是词组的汉语拼音,先转换成复式汉语拼音,然后再按图1数字母键盘转换成数字拼音,例如“中”和“中国”汉语拼音分别是Zhong和Zhong guo,复式汉语拼音是ZAhong和ZAhong guo,数字拼音是248026和248026670。采用图1数字母键盘,输入的是数字拼音而输出的是汉语。
3、数字拼形输入法
首先建立数字拼形词库,最简单方法是把汉字拼形输入法转换成数字拼形输入法,转换方法是,把汉字拼形输入法中无论是单字还是词组,均按图1数字母键盘进行转换,这样构成的数字组合称作数字汉字拼形,简称数字拼形,例如“中”和“中国”汉字拼形分别是oi和oi qel,按图1数字母键盘可直接转换成数字拼形01和01931。采用图1数字母键盘,输入的是数字拼形,而输出的是汉语,汉字拼形适用于所有汉字(方块字),这也是数字拼形适用范围。
4、数字母键盘意义
为英文字母提供了数字表达形式,为汉字提供了按字音和字形的数字表达形式,可用于手机输入英文和汉语、英文和汉语的数字排序、用文字(英文、汉语的汉语拼音或汉字拼形)转换成的数字设置银行密码等。
注:该文为2011年10月19日 《中文信息学会汉字编码专业委员会第九届年会暨学术研讨会》论文修改稿,原稿见“语言文字网/会员园地”(www.yywzw.com)。
公告
《中文拼形输入法》是一款全新的汉字编码方案,可把汉字形码由词处理功能提升到句处理功能,在苏州汉字编码第九届年会上推出了交流版(1.0版),现探路版(2.0版)业已完成更新换代,为免费使用软件,近期发布(拟在“华军软件园”发布)。
特此公告
2012年4月17日
上海翰字信息技术开发有限公司 高国鹫
邮箱 hzpx8298@yahoo.cn
|