梦见死人笑是什么意思:中文的尴尬

来源:百度文库 编辑:中财网 时间:2024/04/28 23:07:51
中文的尴尬
                            ·王不留行·

中文,又称汉语、华语,是世界上使用人数最多的语言,除了作为中国大陆、台湾、香港、新加坡等地的官方语言之外,其中的文字也是日语的重要组成部分,在朝韩和越南的历史上,也发挥过重要作用。中文、汉语或华语,在英文中均称为Chinese,而实际上,这些概念无论是在字面上还是在意义上都有不少差别。

中文,顾名思义,就是中国人所使用的语言,但中国是一个多民族、多语言的国家,有56个民族,80种以上语言,约30种文字。从语言的系属来看,中国的56 个民族使用的语言分别属于五大语系:汉藏语系、阿尔泰语系、南岛语系、南亚语系和印欧语系。从这个意义上讲,中文并不是所有中国人的语言,一般所讲的中文是指占中国人口92%的汉族所使用的汉语。在语言分类上, 汉语属于汉藏语系,是一种声调语言;而华语则是指居住在东南亚一带的华人所使用的汉语。

汉语名称的由来和演变

有文献记载的汉语的历史已有三千多年之久。但汉语名称则是到了汉朝才出现。公元前206年,刘邦得天下,国号称“汉”。当时,中国的北方仍旧被许多少数民族占据,与汉朝对峙。这些外族人称汉朝的中原人为汉人,汉人则把这些北方少数民族称为“胡”人,汉人说的当然是“汉语”,胡人说的就是“胡言”;所以,“汉语”名称的由来也可以说是由“胡言”而来。到了南北朝时期,北方多个少数民族大规模南下,发生了中国历史上著名的五胡乱华(五胡是指匈奴、鲜卑、羯、羌、氐五个少数民族),一方面造成了中国社会的大动荡,另一方面也促成了汉胡民族大融合,胡人到了汉地得学说汉语,说得不好,于是有“胡言乱语”的说法。

汉语的发展大致可分成古代汉语、近代汉语和现代汉语三个时期。古代汉语又可以分为两个阶段,一是先秦时代,这个阶段是主要是汉语的规范阶段,古典诗经书面语言的传诵,就是一个很好的例子。二是两汉到隋唐时代,由于社会交流的频繁,文字的应用变得十分广泛,尤其是文学作品的大量出现,使得汉语的发展十分迅速, 可以看作汉语的发展阶段。近代汉语为宋代至晚清,在口语方面,一种以北方话为基础的共同语的开始形成,后来称之为“官话”,在书面语方面,则以与口语结合十分紧密的白话文为代表,特别是明清时期,白话文小说已经发展得十分普及,中国所有著名的古典小说都出现在这个时期。现代汉语一般以1919年的五四运动作为起点。首先是汉语的文体发生了根本的转变,白话文完全取代了文言文,接着是汉语的语法和词汇也发生了巨大的变化,由于受到大量的西方翻译著作的影响,汉语的语法向西方语言靠近,词汇方面则是大量的复音词出现。

庞大的方言

汉语到底有多少方言? 可能没有人能说得清,用“成千上万”来形容一点也不过分。在中国的南方, “十里不同音, 五里不同调”并不是什么稀罕事。对于汉语方言的划分,是一件令语言学家十分头痛的事,存在许多的划分法,比较常见的是把汉语方言划成为七大方言:

北方方言--北方方言只是一个方言的名称,并不局限于中国北方,除了指华北、东北及西北地区,也包括中国西南地区、江淮地区、的方言也属于北方方言。湖北大部、四川、重庆、云南、贵州、湖南北部、江西沿江地区。使用这一方言的人占中国人口的三分之二以上。其特点是差别不是很大,大部分地区都能够彼此通话。北方方言也是现代标准汉语的基础,

粤语--又称广东话或白话,以广州话为代表,主要用于广东省中西部、广西南部、香港、澳门等地以及东南亚、北美的华人社区。广东话是汉语方言里最为西方人所知道的,因为早期的在欧美的海外华人大都来自广东地区,在世界各地的中国城通行的就是广东话,那些对汉语不甚了解的老外一般以为中文就是两种:“Cantonese”(广东话)和“Mandarin ”。有关“Mandarin”,我下面再谈。

闽语--又称福建话。这是一个非常笼统的划分,因为福建方言可分为闽北方言(以建瓯话为代表)、闽东方言(以福州话为代表)、莆仙方言(分布在莆田和仙游一带)、闽中方言(以永安话为代表)、和闽南方言(以厦门话为代表),这些方言差别非常大,如果以语言标准,有些很难归入同一系统。

客家话--也称客家语,是中国南方客家人中广泛使用的方言,客家人居住的地区主要包括广东东北部、福建西部、江西南部及西北部、广西东南部、台湾、四川等地。客家人是中国唐宋时期由于战乱而从北方南下的移民,客家话保留了较多中古中原语言的特点。

吴语--有时也称江浙话,上海话。主要分布在江苏南部、浙江绝大部分、上海全市、安徽南部部分地区。之所以称吴语,因为吴语的分布地理范围与中国古代“吴地 ”大致一致。吴语是中国方言中最动听的语言,其中又以苏州话最典型,故有人说“宁愿听苏州人吵架,不愿听无锡人(宁波人/江北人)说话”。其实,无锡话和宁波话也是吴语。

湘语--也称湖南话,主要在湖南使用,广西、四川境内也有少量分布。湘语同闽语一样,方言名称的定义十分不准确,因为湖南的北部是属于北方方言,而中部长沙、株洲和湘潭一带(也是湖南的中心)的口音也接近北方方言,只是有些用词很“土”,至于湖南其它地方,几乎是一县一音,差别很大。

赣语--赣语是指以南昌话为代表的方言,主要用于江西中北部、安徽西部及南部、湖北东南部、湖南东部靠近江西的地带。江西省境内除赣语外,还有客家话、吴语和北方方言。赣语的定义与湘语类似,可是有些语言学家认为赣语并不是江西话。如果说湘语等同于湖南话,赣语却不是江西话,的确是一件令人奇怪的事。

谈到汉语方言,不得不提到一个有争议的现象,西方语言学家一般认为,若两种话语不能直接通话,则两者为两种不同的语言;根据这一分类标准,粤语、闽语、客语、吴语、湘语、赣语等汉语方言都是不同的语言,而不是方言。对于这样一种分法,中国的语言学家当然是同意,否则,中文就七分八裂,成为一种徒有虚名的语言了。所幸的是,这只是语言学家的争论,否则,这世界上又多了一份不安定的因素。

标准语的差异

汉语的标准语在大陆称为普通话,在台湾称国语,许多人认为,普通话就是国语,国语就是普通话,只是称呼不同而已。其实,普通话和国语并不完全是一回事,其中的差异除了发音不同外,用词和语法也有差别,虽然差异不象发音那样很明显。在发音方面,一个最明显的例子就是“和”读法,在普通话里念“hé”,在台湾国语里为“hàn”。还有就是家人“爸爸、妈妈、哥哥和姐姐” 的称呼,在大陆,爸爸头一个字读四声,后一个爸念轻声;妈妈和哥哥的头一个字是一声,姐姐第一个字是三声,第二个字都是轻声。台湾则一律发三声,听起来就是:“靶靶、马马、葛葛、解解”。双方听对方的发音都会有点怪怪的的感觉,这当然是心理因素在作怪。

普通话和国语的差异还有历史的原因。中国社会早期的标准语以中原雅音为正音,又称为雅言、雅音或通语,五胡乱华以后,中原雅音南移,分为南北两支,到了明清时期,雅音被称为官话,北方官话以北京话为标准,融入了不少北方少数民族的语言,南方官话则以南京话为标准,融入了一些吴语方言。当然,那时的北京话和南京话与现在相比已有很大的变化。在历史上,尽管官话已成为中国官僚、知识分子阶层的通用语,但它并没有法定的地位,也没有被统治阶级向民众推广,让大多数人通晓。这也是至今中国仍旧有如此多方言的原因之一。1909年,清政府设立了“国语编审委员会”,将当时通用的官话正式命名为国语。这是汉语标准语首次得到官方命名。1913年民国政府召开的“读音统一大会”决定“以京音为主,兼顾南北”。1949年之后,中国大陆和台湾的汉语标准语就按不同的方向发展,在台湾仍旧称国语,在原来老式国语的基础上,融入了台湾大多数人的国语发音,变成了现在台湾的国语。在大陆,1955年相继召开的“全国文字改革会议”和“现代汉语规范问题学术会议”决定将规范的现代汉语定名为“普通话”,并确定了普通话的定义和标准,是以北京语音为标准。其中“普通”二字的涵义是“普遍”和“共通”,表示对少数民族的语言文字的尊重,避免“国语”这个名称可能引起的误解。1982年,第五届全国人民代表大会第五次会议正式把“国家推广全国通用的普通话”的条文写进了《中华人民共和国宪法》。虽然普通话方案是大陆政府创立,但 “普通话”这个名称,在清末至二三十年代,就已被不少学者使用。

至于东南亚华人,他们所讲的汉语用“普通话”称呼当然是不对的,因为汉语在当地并不普通,只在华人的圈子里使用;用“国语”称呼则更加不妥,因为他们所居住国家的官方语言并不是汉语,所以只能用“华语”称呼。华语是一个含糊的定义,其中既包含了汉语的标准语,也包括了在华人中所使用的各种汉语方言。华语的标准语大致继承了老派国语,但在发音、词汇甚至语法往往受母语方言和非汉语的影响,与普通话、国语都有一定的差别。举一个例子,我曾在旧金山的观光区渔人码头工作,有一次看到一位亚洲女子在买小纪念品,她看到那些五光十色的小钥匙圈不由高兴地说,“真美丽呀!”她说的汉语发音可以,句子也地道,但我听了却很纳闷,搞不清她是不是美籍华人,我不由问她从哪里来,她告诉我她从马来西亚来,我才恍然大悟。因为从大陆来的中国人,不会对一件没有生命的小东西说“很美丽”,一般只会说“好看”,就是对一件很漂亮的衣服也不会说“你的衣服很美丽”。虽然“美丽、漂亮、好看”是同义词,在很多场合下可以互换,但有时却不能(许多同义词都是如此),要问在什么情况下可以互换,什么情况下不可以,却很难解释。语言是一种习惯,不同的地方习惯也不一样。所以,当听人说话时,有时尽管发音很准,语法也没有问题,但一听用词,就知道对方的背景,就象老中讲英文或老外讲中文,不管说得再好,有时一个用词不当就露了馅,让人知道是不同文化背景的人。这就是语言的微妙,它会揭示人的身份。

普通话或国语,在英语里都被称为“Mandarin”,这个单词是从葡萄牙语而来。由葡文mandar(命令)、mando(权力、命令、军权、裁决)等派生出来的。早在明朝时,最早和中国官方打交道的欧洲人—葡萄牙人就用此词来称呼中国官员,后来这个称呼又转变成中国官员讲的官话,在西方开始流行。

拼读系统的混乱

西方的语言音形义都是三套独立的系统,例如英语,发音有音标系统,字形有26个字母,然后由字母组成单词来表达意思。这类似西方政治上的三权分立。给人的提示是西方文化的本身就有民主的因素,在语言上就表现了出来。而汉字是置音形义于一体的文字, 这意味在学每个汉字时,不仅要记住怎样写和其含有的意思时,也要记住它的发音(这是不是意味中国文化的本质上就倾向于集权?笔者不敢妄下结论)。字形可以依样画葫芦,老师教,自己学都可以;字义也可以通过解释而知道,唯有读音,如果没有人教,怎样知道?在中国历史上,有不少教人学习汉字发音的办法,例如“ 直音法”,就是用一个比较常用的字来表示某一个字的发音。比如说:“钊,音招”。还有“反切法”,就是用两个汉字拼合成另一个汉字的音,即用第一个字的声母加上第二个字的韵母来拼出这个字的读音,如:“妥,他果反”。这些方法的局限性显而易见,都是以字认字,如果一个字也不认识,或者认识的字很少,那就只能望字兴叹了。

第一个以罗马字母为汉字注音的是意大利传教士利玛窦,1582年(明神宗万历年间),他制订一套罗马注音系统,称为“ 泰西字母”为汉字注音。三百年之后,1859年,英国驻清国外交官威妥玛﹝Wade﹞为著作之便,将明清两代传教士所使用的教会罗马字加以整理,编成一本 “北京词汇”,称为威玛﹝Wade﹞拼音法。1892 年,另一位英国人Giles 采用威妥玛拼音法编成“华英辞典”,被邮政电信机构用来翻译中国人名语地名等。故此拼音法被称为Wade-Giles拼音,又称威式拼音或韦氏拼音。威玛式拼音主要照顾英美人的发音习惯,不符合汉语的语音规律,导致了许多不同读音的汉字都拼成了同音字。如张、常都拼作Chang,朱、储、瞿都拼作Chu。相同的汉字有不同的拼法。如河北拼为Hopei,而湖北拼为Hupeh,同为“北”,却有Pei、Peh几种拼法。同时还引人了南方方言,更增加了拼写的混乱。如厦门(Xiamen)拼为Amoy,广州(Guangzhou)拼作Canton。

到了二十世纪,中国人自己开始采用西方的方法来为汉语建立独立的拼读系统。1918年当时北洋政府教育部发布了由中国读音统一会制定的为汉字注音符号,共计39个字母,排列以“ㄍㄎ”开头; 1930年,民国政府把注音字母改称为“注音符号”,正式的称呼是“国语注音符号第一式”。1986年,台湾政府教育部又公布了“注音符号第二式”简称 “MPS2”。第二式以第一式声母韵母基本拼法为准,把原来的字母变成罗马字母,改用通行之四声调号以表示四声。

汉语拼音是大陆政府推出的汉语读音方案,于1955年—1957年由中国文字改革委员会汉语拼音方案委员会研究制定。1977年9月7日联合国第三届地名标准化会议(雅典)推荐用该方案作为中国地名罗马字母的国际标准。1979年6月15日联合国秘书处发出通知,以汉语拼音方案的拼法作为在各种拉丁字母文字中转写中国人名、地名的国际标凖。1982年8月1日国际标准化组织又发出国际标准ISO7098《文献工作—中文罗马字母拼写法》文件,也规定拼写汉语以汉语拼音为国际标准。美国国会图书馆采用汉语拼音方案作为汉字的译音系统并且将其书目系统逐渐从原来的威妥玛系统改为拼音。全美各大学的图书馆及其中文教学也采用了同样的汉字拼音系统。汉语拼音方案因为是以普通话语音为基础,所以能正确表达每个汉字的语音。但对一般的英美人来讲,他们常常会把汉语拼音仍按威玛式拼音来发,导致很大的误差。

通用拼音则是台湾政府所建议使用的中文拉丁化拼音法。于2000年由台湾教育部国语推行委员会宣布使用,并取代原定改用的国语注音符号第二式,台湾政府自2002年起全面推行以通用拼音为基础的统一译音政策。

除了这些常用的汉语拼读系统外,还有一些由个人或组织机构发明汉语拼读方法,例如象是林语堂式、耶鲁式等,已经很少有人使用。

虽然汉语拼音已经成为国际标准,但威玛式拼音并没有完全退出世界舞台。前两年看到大陆一则新闻,有人在购买中华烟时,看到烟盒上的拼音是 “CHUNGHWA”不是汉语拼音,于是产生了疑问。其实,中华香烟商标拼音是威妥玛式拼音,从有中华烟开始,一直就用这个拼音,已经有五十多年的历史了,因为在市场上已经形成了品牌,就保持下来。这种因为经济因素考虑而保留的不仅是商品,也有人名地名,例如,现代中国的国父孙中山的英文名字Sun Yat-sen就一直是威式拼音,如果改用汉语拼音,可能不仅是没有人认识,也会带来不小的麻烦。至于说各国大图书馆的有关中国的历史资料,威式拼音的地位仍旧不可动摇。

如果说汉语拼音和威玛式拼音是现实和历史之争,那么汉语拼音和通用拼音则完全是政治上的较量了。虽然通用拼音只是将汉语拼音中常令外国人难以发音的“q、x、zh”,改为了“ci、si、jh”,但由此给国人带来的麻烦却大于给世界的方便,像姓朱、张、许、徐等的人,在汉语拼音中,这些姓的拼音应分别是zhu、zhang、xu,但在通用拼音则为jhu、jhang、siu,这一来,这些姓氏的在大陆和台湾的亲人,就变成了不同姓的外人!

除了现实和历史、政治和文化的斗争外,汉语拼读还有标准语和方言的不同,例如,初次从新闻上看到美国滑冰冠军关颖珊(Michelle Kwan),如果只知道她是华裔而不知道她来自香港,很容易就会误认为她的中文姓为“邝”,因为不论是按汉语拼音还是威玛式拼音,“邝”是最接近的发声,实际上,她姓“关”,她的姓是从粤语拼音而来,这是一套香港政府政府以英文字音拼写汉语方言广东话的方法,凡是在香港出生的人、街道、地方以及公共建筑的名称都是以这套方法来拼写。最典型的差别就是“王”字,汉语拼音为“Wang”,粤语拼音为 “Wong”。

汉语拼音大战确实令人“耳”花缭乱,不但外国人搞不清楚,也把海外华人弄得胡里胡涂,往往看着自己同胞姓名的外国字,搞不清他(她)到底姓什么。我们老祖宗留下的遗训是“名不正则言不顺”,可是,汉语不同的拼读方法则把老祖宗这条遗训完全给颠覆了。

繁简之争

1956 年,大陆中国政府正式公布了《汉字简化方案》,这个方案由大陆的“汉字简化方案审订委员会”审订,国务院通过,经《人民日报》公布后,在全国推行。1964年,大陆又出版了《简化字总表》,共分三表:第一表是352个不作偏旁用的简化字,第二表是 132个可作偏旁用的简化字和14个简化偏旁,第三表是经过偏旁类推而成的1754个简化字。这就是今天中国大陆所使用的汉字简体字标准。

汉字简化方案一经出世,就受到了各方面不断的批评,特别是在海外,这股反对的浪潮直到现在仍然是有过之而不及,认为汉字简化得不偿失。综观反对简体字意见,主要集中在两点:一是简体字破坏了汉字的表意性,二是简体字割断了现代汉语和古代汉语之间的密切联系。汉字本来是具有极强的表意性,例如“馬”字,看上去就象一匹在奔腾的马,简化的“马”,很难使人产生这种联想,这样一来就把汉字的优点给阉割了;同时,简体字也使人不能顺利地阅读古典文献,起到了阻碍继承中国文化的作用。

这些反对意见乍一听似乎很有道理,但一细想,又会觉得不以为然,文字首先是一种工具,工具是讲究效率的,怎样好用才是最主要的;另一方面,语言总是向前发展的,不能让历史拖住后腿,即使没有简体字,现代汉语与古代汉语的差别已经是很大了。

从历史上看,汉字的简化也是自然趋势。汉字从甲骨文、金文变为篆书,再变为隶书、楷书和行书,其总趋势就是从繁到简。大约在秦汉年间,汉字的书写形态发生了一次重要的变革,称为隶变,即是由由小篆演变为隶书,由于小篆笔划繁复,书写不便,一些下级官员(隶)于是将笔划简化,例如将 “靁”字下的三个田减为一个,变成“雷”,又将同一偏旁用在不同位置时改为不同形状(如“心”用在旁:情;用在下:恭)等等。这是汉字由由下而上发起的最大一次简化运动,对后世的汉字有很大的影响。

由政府提出汉字的简化方案,也不是大陆首创,1922年,钱玄同在国语统一筹备委员会上提出《减省现行汉字的笔画案》,这是历史上有关简体字的第一个具体方案,它提出的八种简化汉字的方法,实际上也就是现行简体字的产生依据。1935年,钱玄同主持编成《简体字谱》草稿,收简体字2400多个。同年8月,国民党政府教育部采用这份草稿的一部分,公布“第一批简体字表”,收字324个,这是政府第一次大规模推行简化汉字。虽然在第二年的2月又通令收回,但毕竟是历史上由政府公布的第一个简体字表。

而在其它使用汉字的国家,同样也在简化汉字。1946年日本内阁公布《当用汉字表》,收字1850个,其中有131个是简体字,与中国简体字相同的有53个,差不多相同的有9个。1983年南朝鲜《朝鲜日报》公布第一批简体字90 个,在《朝鲜日报》上使用,与中国相同的有29个,差不多相同的有4个。新加坡于1969年公布第一批简体字502个,除了67字(称为“异体简化字”),均与中国公布的简化字相同。1976年颁布的《简体字总表》修订本与中国的《简化字总表》完全一致。马来西亚1981年出版《简化汉字总表》,与中国的《简化字总表》完全一致。

不光是汉语的文字在简化,其它语言的文字也在简化,例如英语,也有大量的缩写词,象是PC,CD等等,这些都已经成为正式的英文单词。由此可见,由简到繁,再由繁到简,是人类语言发展的一个总的趋势。

但是在台湾和许多海外华人,由于种种原因,仍旧在使用繁体字,这样就使得在当今世界上存在着两种中文:简体中文和繁体中文。比起“Mandarin ”和 “Cantonese”、汉语拼音和通用拼音,简体中文和繁体中文的差异更让外国人感觉到汉语的可怕。世界上还没有任何一种文字可以 “Simplified”(简化)了与“Tradition”(繁体)做对。

繁简之争所造成的最大困扰莫过于对海外中文学习者了,他们学习汉语并没有明确的目的,不知道将来是到大陆工作或是与台湾做生意,所以,他们吃不准是应该学习简体中文还是繁体中文,但老师给他们的劝告往往是两种文字都学,不管是“识简学繁”也好,还是“识繁学简”也好,反正一样少不了,否则就学不好中文。这可苦了这些老外,本来中文的读音、字形和语法已经让他们的头变大了不少,现在记单词还要再加一倍的容量,你说怎样让人受得了。试想一下,如果让我们老中学英语,每个单词都要记住两种写法,你说我们的头会不会变大!

中文的繁简之争,也给许多不懂中文的外国人带来了一头雾水,他们以为繁体中文和简体中文是两种差别很大的文字,或许就象古英语和现代英语一样,不是那么容易沟通的,因此在招聘中文人才的条件中,经常会出现只要懂繁体中文的或者简体中文的,让中国人哭笑不得,如果说,繁体中文和简体中文用笔的确不是那样容易沟通的,那么在当今的电脑时代,这种障碍只要用鼠标轻轻一点,繁简之间的转换顷刻之间就完成了。可你就没办法让外国人相信,简体中文和繁体中文的差别不是象他们想象的那样大,比美式英语和英式英语的差别还小。

面临信息时代的挑战

除了以上所提到中文在拼读系统、标准语和简繁字体所存在的纷争之外,中文所面临的最大挑战还是怎样应付信息时代的挑战,随着电脑和互联网的普及,怎样用中文处理电子信息,已经成为摆在了人们的面前的难题,其中两个最基本的问题就是编码和输入。

所谓编码就是怎样让电脑认识人类所认识的语言,电脑不同于人脑,它只认识电子信号,而所有复杂的电子信号都是由0和1两个信号所组成,在电路上就是开和关,反映在电脑中就是二进制数据。当我们输入数字、字母以及各种符号的时候,电脑先把它们变成二进制数码,然后才能对它们进行处理。因此,人们必须首先按一定的规则编码,使每个符号或字符对应一个二进制数。由于早期的计算机系统是发源于美国,因此最早的编码系统也是建立在英语基础上,只考虑数字、26 个英文字母 (包括大小写)、标点与其它特殊符号,外加一些计算机系统的语句即可,这就是国际通用的 ASCII 编码。汉字的内码与ASCⅡ码不同,ASCⅡ构成西文字符时,一个字符占一个字节,而一个字节是二进制的8倍,而一个汉字字符则需要两个字节构成。由于汉字数以万计,形状各异,汉字编码也就有两大困难:选字难和排序难。这也就造成了各种各样的汉字编码。而汉字输入则是在电脑内安装了汉字编码的系统之后,使用者怎样按照一定规则向电脑发出指令,使编码系统能够接受。

在中国大陆,通用的汉字编码标准是GB系列,GB即“国标”的汉语拼音缩写,为中华人民共和国国家标准的意思。最早制定的GB是GB2312-80《信息交换用汉字编码字符集基本集》,1980年发布,共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排序,二级字3008,以偏旁排序。1990年又制定了繁体字的编码标准 GB12345-90《信息交换用汉字编码字符集第一辅助集》,目的在于规范必须使用繁体字的各种场合,以及古籍整理等。该标准共收录6866个汉字(比 GB2312多103个字),纯繁体的字大概有2200余个。GBK编码则是等同于UCS的新的中文编码扩展国家标准,于1995年完成,该编码标准兼容 GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。而最新标准是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,与GB 2312-80与GBK兼容,包含所有GB 13000-93及Unicode 3.1字符。

Big5(大五码)是台湾的汉字编码标准,于1984年由台湾财团法人信息工业策进会和五间软件公司创立,故称大五码。这五家软件公司为宏碁 (Acer), 神通 (MiTAC), 佳佳, 零壹 (Zero One) 及大众 (FIC)。Big5 字集内一共是 13461 个元素, 其中有符号 408 个和所谓的常用字 5401 个, 次常用字 7652 个。

HZ码则是中国留学生为了使汉字信息能在网络上直接传送而产生的。属双字节7位汉字编码,以GB为基础。HZ码很好地解决了中西文字的混排问题,就象是一个标准的ASCII文本文件,因而可以在Internet上方便传输,这就是HZ码的优点。

在使用汉字的日本和韩国也建立了不同的汉字编码标准,分别是JIS和KS系列。JIS 既 Japan Industry Standard(日本工业标准--同 GB 意思一样),JISX 0208-1983共收日本汉字6353个。分一级汉字区和二级汉字区,一级汉字区按拼音排序,二级汉字区按部首排序。韩国KSC 5601-1987:共有8244个字符,韩国汉字有4888个。

Unicode则是各种字符编码的国际方案,可以容纳全世界所有语言文字的编码,也包括汉字编码。Unicode的学名是“Universal Multiple-Octet Coded Character Set”,简称为UCS。实际上,Unicode由两个独立的组织提供,一是国际标准化组织(ISO),另外一个是软件制造商的协会(unicode.org)。ISO开发了ISO 10646项目,Unicode协会开发了Unicode项目。从Unicode2.0开始,Unicode项目采用了与ISO 10646-1相同的字库和字码。目前两个项目仍都存在,并独立地公布各自的标准。Unicode协会现在的最新版本是2008年4月的 Unicode5.1;ISO的最新标准是ISO 10646-3:2008。

在Unicode逐渐在编码技术占统治地位时,在汉字的输入方面,则仍旧是万“码”奔腾、令人眼花缭乱的局面,二十多年的时间里,已经出现了上千种编码方法,并且仍不断地有新的输入方法出现。汉字的输入方案很多,但基本依据都是汉字的读音和字形两种属性,主要分成两大类,按照拼音方式输入或按照汉字形状输入。但不论用哪种方法输入,都不是一件容易的事情。按照读音输入最大的问题是:汉字有太多的同音字,有的多达几十个,所以同音字的干忧十分严重,键盘敲过之后,就出现了一堆同音字,挑选自己所需要的汉字常常是让人气急的事,很多初学中文输入的人没有试几下就放弃了。按字形输入挑战更大,先要学习字形与键盘对应的规律,再要死记硬背这种规律,一般不是想靠中文输入吃饭的人,很少有这种决心和耐心。在这方面,有不少流行的方法,例如大陆的五笔字型输入法和台湾的仓颉输入法。

除了键盘输入方法之外,还有手写板和语音输入。手写输入利用对笔迹进行智能识别的技术,一般使用专用手写板进行输入,也可利用鼠标、触摸屏输入。但电脑毕竟不同于人脑,写得太快或太草就无法辨认,因此,手写输入的输入速度和识别率都是问题。语音输入则是采用对汉语语音进行智能识别的方法,目前这种技术还没有完全成熟。


汉语是世界上使用人口最多的语言,有超过十三亿的人口使用汉语,在联合国规定的六种工作语言中,汉语比其它五种语言(英语、西班牙语、法语、俄语和阿拉伯语)使用人口的总和还多;可是,作为世界信息的交流工具,汉语的作用却十分有限,以互联网为例,90%是英语。实际上,在联合国各种场合当中使用的语言 95%也是英语,汉语的使用率不到到百分之一。这不能不说令所有讲汉语的人一件尴尬的事。

汉语让人感到困难,当然不完全是因为体系的 “内斗”,更多的是来自它的语言特性。中国文化是讲究中庸之道的文化,遇事喜欢模棱两可,这种文化特性也反映到了汉语中。人们常说,汉语是“意合”的语言,很多地方只能靠意会,而无法推理。这到底是一件好事还是一件坏事?语言模糊有时的确有种“含糊美”,让人能产生联想,这也很合中国人的性格,凡事都要 “推敲”,可对于世界其它地方的人来说,汉语的捉摸不定可就让他们头痛不已了!