计算机中文信息处理技术需要解决的首要问题就是汉字的输入技术,主要方法有键盘输入、联机手写输入、语音输入、光电扫描输入几大类。
键盘输入方法是通过键入汉字的输入码方式输入汉字,通常要敲击1~4个键输入一个汉字,它的输入码主要有拼音码、区位码、纯形码、音形码、形音码等,用户需要会拼音或记忆输入码才能使用,一般对于非专业打字的使用者来说,速度较慢,但正确率高;其中好的形音码或音形码则可以做到速度即快,正确率又高。
联机手写输入是近年来发明的一种新技术,手写输入系统一般由硬件和软件两部分构成,硬件部分主要包括电子手写笔和写字板,软件部分是汉字识别系统。使用者只需用与主机相连的书写笔把汉字写在书写板上,写字板中内置的高精密的电子信号采集系统,就会将汉字笔迹的信息转换为数字信息,然后传送给识别系统进行汉字识别。利用软件读取书写板上的信息,分析笔划特征,在识别字库中找到这个字,再把识别的汉字显示在编辑区中,通过“发送”功能将编辑区的文字传到其他文档编辑软件中。汉字识别系统的作用是将硬件部分传送来的信息与事先存储好的大量汉字特征信息相比较,从而判断写的是什么汉字,并通过汉字系统在计算机的屏幕上显示出来。这种输入法的好处是只要会写汉字就能输入,不需要记忆汉字的输入码,与日常写字一样,但受识别技术的限制,速度一般。手写输入系统的难点在于汉字笔迹的识别,因为每一个人的书写汉字笔迹都不一样,因此手写笔迹比较系统就必须能允许一定的模糊偏差,才能有较高的识别率。目前已经开发了许多种手写输入系统,简称为“手写笔”系统。有些手写笔可以代替鼠标进行操作。
语音输入也是近年来一种新技术,它的主要功能是用与主机相连的话筒读出汉字的语音,利用语音识别系统分析辨识汉字或词组,把识别后的汉字显示在编辑区中,再通过“发送”功能将编辑区的文字传到其他文档的编辑软件中。语音识别技术的原理是将人的话音转换成声音信号,经过特殊处理,与计算机中已存储的已有声音信号进行比较,然后反馈出识别的结果。这项技术的关键在于将人的话音转换成声音信号的准确性,以及与原有声音信息比较时的智能化程度。语音识别技术是人工智能的有机组成部分。这种输入的好处是不再用手去输入,只要会读出汉字的读音即可,但是受每个人汉字发音的限制,不可能都满足语音识别软件的要求,因此在实际应用中错误率较键盘输入高。特别是一些专业技术方面的语言,识别系统几乎不能确认,错误率较高。
光电扫描输入是利用计算机的外部设备——光电扫描仪,首先将印刷体的文本扫描成图像,再通过专用的光学字符识别(OCR-Optical Character
Recognition)系统进行文字的识别,将汉字的图像转成文本形式,最后用“文件发送”或“导出”输出到其他文档编辑软件中。这种输入方法的特点是只能用于印刷体文字的输入,要求印刷体文字清晰,才能识别率高,好处是快速、易操作,但受识别系统识别能力的限制,后期要做一些编辑修改工作。
2.键盘输入法分类
键盘输入分为:音码输入、形码输入、音形码输入、形音码输入、序号码输入。
音码输入是按照教字的读音进行汉字编码及输入的方法,用的是汉语拼音的全拼或简拼的方式。
形码输入是按照汉字的字形进行汉字编码及输入的方法。利用汉字书写的基本顺序将汉字拆分成若干块,对每一块用一个字母进行取码,整个汉字所得的码序列就是这个汉字的形码。
音形码输入是利用音码和形码各自的优点,兼顾了汉字的音和形,以音为主,以形为辅,目的是减少编码中死记的部分,提高输入效率,易学易记。
形音码输入是利用形码和音码各自的优点,兼顾了汉字的形和音,以形为主,以音为辅,目的是利用“形托(象形)”和“音托(反切)”来减少编码中死记的部分,提高输入效率,易学易记,输入快。
序号码输入是利用汉字的国标码作为输入码,用四个数字输入一个汉字或符号。
3.键盘输入方法简介
①全拼输入法
全拼输入法属于音码输入,是初学者常用的一种方法。这种方法是输入汉语拼音的全部字母,就可以得到相应的同音汉字。它适用于学过汉语拼音的人,一般不需要经过专门的训练就可掌握,它的缺点是要求必须会汉字的读音,并且要准确,当一组同音字较多时,需要选字,这正是这种方法输入速度不快的主要原因。
②双拼输入法
双拼输入法是将多于一个字符的声母和韵母用一个字母编码,从而比全拼输入的编码大大缩减,提高了键盘输入的速度,适用于经常需要用拼音输入汉字的人,比全拼的速度快。但要记忆十几个声母和韵母的编码。双拼输入法也称简拼输入法。
③智能ABC输入法
智能ABC输入法也是一种常用的输入法,有全拼,双拼和笔形三种输入模式,以拼音为基础输入单字或词组,特别是词组输入方面具有较高的效率,适用于一些经常输入某一方面专业词汇的人,如果进行智能化设置,可以大大提高输入效率。
④区位码
区位码输入是利用国标码作为汉字编码,每个国标码对应一个汉字或一个符号,没有重码,因此输入速度快,但国标码不易记忆,一般使用区位码是输入国标码中的符号。
⑤自然码输入法
自然码汉字输入法以字输入为基础,以词或短语输入为主导,并辅以语句输入功能。它的汉字编码简单易学,以双拼为主,允许全拼混合输入,并且为生字的输入提供了简明的形码辅助功能。自然码输入法属于音形码输入,适用于拼音不太熟练的人。
⑥母字全能输入法
母字全能汉字输入法是以汉字(母字)编“汉字”的全能编码。它以25个自然汉字作为拼形、拼音的编码“母字”,每个母字均包孕所有汉字的“声母、韵母、全形、象形”四大编码要素,使编码记忆量减少到最小程度。简单易学,录入快速且不易遗忘,主要码型属于形音码和音形码范畴,对于专业和非专业人员非常适合使用。
⑦五笔字型输入法
五笔字型输入法是形码输入,它将汉字拆分成若干块,无论多么复杂的汉字,最多只需击四键即可输入计算机,重码率低。由于它的拆分规则比较特殊,需要专门的训练才能掌握,因此适用于专业打字员。这种输入方法重码率低,便于盲打,输入速度较音码要快得多。