汉字的数量并没有准确数字,大约将近十万个(北京国安咨讯设备公司汉字字库收入有出处汉字91251个),日常所使用的汉字只有几千字。据统计,1000个常用字能覆盖约92%的书面资料,2000字可覆盖98%以上,3000字时已到99%,简体与繁体的统计结果相差不大。 历史上出现过的汉字总数有8万多(也有6万多的说法),其中多数为异体字和罕用字。绝大多数异体字和罕用字已自然消亡或被规范掉,除古文之外一般只在人名、地名中偶尔出现。此外,继第一批简化字后,还有一批“二简字”,已被废除,但仍有少数字在社会上流行。 汉字数量的首次统计是汉朝许慎在《说文解字》中进行的,共收录9353字。其后,南朝时顾野王所撰的《玉篇》据记载共收16917字,在此基础上修订的《大广益会玉篇》则据说有22726字。此后收字较多的是宋朝官修的《类篇》,收字31319个;另一部宋朝官修的《集韵》中收字53525个,曾经是收字最多的一部书。 另外有些字典收字也较多,如清朝的《康熙字典》收字47035个;日本的《大汉和字典》收字48902个,另有附录1062个;台湾的《中文大字典》收字49905个;《汉语大字典》收字54678个。20世纪已出版的字数最多的是《中华字海》,收字85000个。 在汉字计算机编码标准中,目前最大的汉字编码是台湾的“国家标准”CNS11643,目前(4.0)共收录可考证之繁简、日、韩语汉字共76,067个,但并不普及,只有在户政系统等少数环境使用。台港民间通用的大五码收录繁体汉字13053个。GB18030是中华人民共和国现时最新的内码字集,GBK收录简体、繁体及日语、韩语汉字20912个,而早期的GB2312收录简体汉字6763个。而Unicode的中日韩统一表意文字基本字集则收录汉字20902个,另有两个扩展区,总数亦高达七万多字。
新华社近日公布了最新的统计信息,目前汉字的总数已经超过了8万,而常用的只有3500字。虽然常用字的数量没有多少变化,而字库总量却变大了,这是为什麼呢?
中国汉字总量是多少,大家没有一个统一的说法。有「总汇汉字之大成」评价的《康熙字典》,在书后附有《补遗》,「尽收冷僻字,再附《备考》,又有音无义或音义全无之字」,收录的汉字是4万多个。1994年出版的《中华字海》收入了87019个汉字,而已经通过专家鉴定的北京国安咨询设备公司的汉字字库,收入有出处的汉字91251个,据称是目前全国最全的字库。与庞大的汉字库形成鲜明对照的是,历代日常书面语常用的不同的汉字数量一般都控制在三四千个。数量上并没有超过最初的文字甲骨文。国家在1988年公布的《现代汉语常用字表》选收了2500个常用字、1000个次常用字,总共只有3500字。
国家语言文字工作委员会语言文字应用研究所前副所长纪恒铨认为,一个国家的文字总量有增有减,但基本字的数量则比较固定。汉字有很多,可以分做很多层面。中国常用汉字有2500多个,只要掌握了它们,就可以熟练阅读现代汉语书面语了。《毛泽东选集》5卷本,使用的不同汉字也不超过2000多个。小学语文大纲规定学生应该认识3000个汉字,如果掌握了1800多个汉字,也就可以脱盲了。
纪恒铨说,文字是历史文化的载体,传达著一定的信息,不同社会阶段文字适用特点也不同。随著社会发展,一些文字就被逐渐淘汰了。从现代汉语角度,人们传情达意需要更简便的方式,「4万甚至9万多汉字,恐怕许多人一辈子也记不完。汉字中的生僻字很多,即使自己记住了,如果交流时对方不懂,还是没用」。许多生僻字就是这样逐渐被淘汰出常用字。
随著社会的发展,为了表现新的事物,语言也在发展,9万汉字的背后是社会生活的不断进步,由於中国文字积淀的历史长,这些字就构成了汉字库的主体,主要体现在包括国家编撰的《说文解字》、《康熙字典》、《汉语大字典》、《中华字海》的收字上。在语言文字本身的发展过程中,不可避免地还出现了大批的异体字和不规范字,就像孔乙己曾经坚持「茴」字有四种写法一样,汉字中的异体字是汉字家族日益壮大的一个重要原因。在50年代,国家曾经做过一个异体字整理表,然而工作还未结束,随著汉语拼音化方案的提出,这项工作没有进行到底。中国社会科学院研究生院语言系教授晁继周先生这样解释。
据中国社会科学院语言研究所研究员、参与了《新华字典》和《现代汉语词典》编纂工作的刘庆隆先生介绍,做这样一个大的字库收集整理工作,不但备查备用,还可供国内两岸四地及国外进行汉字文本印刷、古籍整理和研究适用,而且为人名名录及证件制作、中国地图地名标注提供了水平很高的字库工具。90年代初,国家制作过一个包含20902个字的国家标准字库表,但在使用过程中发现这个字表还远远不够使用,目前补充工作还在开展中。
整理汉字库的原因,刘庆隆认为一是适应国际上要求建立国际字标的需要,做成一个国际通用的字库以方便国际文字的交流,目前国际ISO国标委员会正在收集各国文字;二是适应计算机输入法的发展、扩大计算机字库的需要。目前信息产业部的计算机标准化研究所也正在进行汉字字库的统计整理工作,已经整理出来近7万字;第三,汉字发展过程中的字体变形使得一些字看起来已经不像汉字,需要整理以便统一。
*节录自《北京晚报》2001.9.26
作者:贾中山 张卉
汉字是语素文字,总数非常庞大。汉字总共有多少字?到目前为止,恐怕没人能够答得上来精确的数字。
关于汉字的数量,根据古代的字书和词书的记载,可以看出其发展情况。
秦代的《仓颉》、《博学》、《爰历》三篇共有3300字,汉代扬雄作《训纂篇》,有5340字,到许慎作《说文解字》就有9353字了,晋宋以后,文字又日渐增繁。据唐代封演《闻见记·文字篇》所记晋吕忱作《字林》,有12824字,后魏杨承庆作《字统》,有13734字,梁顾野王作《玉篇》有16917字。唐代孙强增字本《玉篇》有22561字。到宋代司马光修《类篇》多至31319字,到清代《康熙字典》就有47000多字了。1915年欧阳博存等的《中华大字典》,有48000多字。1959年日本诸桥辙次的《大汉和辞典》,收字49964个。1971年张其昀主编的《中文大辞典》,有49888字。
随着时代的推移,字典中所收的字数越来越多。1990年徐仲舒主编的《汉语大字典》,收字数为54678个。1994年冷玉龙等的《中华字海》,收字数更是惊人,多达85000字。
如果学习和使用汉字真的需要掌握七八万个汉字的音形义的话,那汉字将是世界上没人能够也没人愿意学习和使用的文字了。幸好《中华字海》一类字书里收录的汉字绝大部分是“死字”,也就是历史上存在过而今天的书面语里已经废置不用的字。
有人统计过十三经(《易经》、《尚书》、《左传》、《公羊传》、《论语》、《孟子》等13部典籍),全部字数为589283个字,其中不相同的单字数为6544个字。因此,实际上人们在日常使用的汉字不过六七千而已。
近日,新华社公布了最新的统计信息,目前汉字的总数已经超过了8万,而常用的只有3500字。虽然常用字的数量没有多少变化,而字库总量却变大了。
据了解,1994年出版的《中华字海》收入了87019个汉字,而已经通过专家鉴定的北京国安咨询设备公司的汉字字库,收入有出处的汉字91251个,据称是目前全国最全的字库。与庞大的汉字库形成鲜明对照的是,历代日常书面语常用的不同的汉字数量一般都控制在三四千个。数量上并没有超过最初的文字甲骨文。国家在1988年公布的《现代汉语常用字表》选收了2500个常用字、1000个次常用字,总共只有3500字。
但是中国汉字源远流长,不可计数啊
常用字有7000个左右,共有汉字90000多个。
<目前最全的汉字字库显示我国有出处汉字九万多个>
新华社
据日前通过专家鉴定的北京国安资讯设备公司汉字字库,收入有出处的汉字91251个。专家
说,这是目前收入汉字最全的字库。
据了解,在国安字库问世前,收入汉字最多的为1994年出版的《中华字海》,共收汉字8701
9个,其中重复字320个。国安字库除包括国家和国际标准的全部字符集汉字外,还涵盖了《
说文解字》全部楷定字及《康熙字典》、《汉语大字典》、《中华字海》的全部收字,并覆
盖80年代台湾教育部门整理的全部汉字。同时还专门收集了上述字集、字典、字书所不能包
括的古今姓氏、地名用字。专家们认为,国安字库不仅可供国内两岸四地及国外进行汉字文
本印刷、古籍整理、辞书编写、汉字整理和研究使用,而且为人名名录及证件制作、中国地
图地名标注提供了水平很高的字库工具。
(《文汇报》1999年11月17日)
我国文字从古代的象形文字发展到今天的汉字,中间是经过多次变化和改革的;但是历代的改革几乎都是兼收并蓄的,以致使汉字越积越多。当前我国文字之多是非常惊人的,比较常用的《新华字典》就有10000多个汉字;1990年出版的《辞海》有14872个汉字;1716年编撰的《康熙字典》有47035个汉字;郭沫若生前曾根据日本朋友的估计,我国大约有60000多个汉字;1994年出版的《中华字海》有87019个汉字(其中重复字320个);近来,根据北京国安资讯设备公司汉字库公布,共收入有出处的汉字91251个汉字。其中一级适用汉字21303个,包括国家标准提出的汉字、我国古今近1200个姓氏6699个汉字和当前乡村一级的地名专用字;二级适用汉字36581个,包括古今权威字典中音、义具全的汉字和十三经、二十四史等的古籍用字;三级备用汉字33367个,包括罕用字、异形字、音义未详字等。尚不包括杂书野史和各地地方志、名人笔记等自造汉字;还有正、草、隶、篆不同写法的异体字、同义字等。单据《说文解字》中就有别体字147个。有人估计实际汉字约在10万个以上;也有人估计在120000个以上;我国究竟有多少汉字至今尚没有定论。