西安三意社下乡演出:汉字字频表

来源:百度文库 编辑:中财网 时间:2024/05/08 18:03:15
汉字字、词、常用短句频度统计是中文信息化重要内容之一,统计的准确率很大程度上取决于所选择的汉字语料和语料产生时代以及语料总量;本文报告作者从 467,355,735字当代语料中对GB13000.1字符集20902字和近60000条简体词语进行了流通频度统计,可以说这是当前最具使用价值的汉字字、词频度统计。
[separator]
一、语料构成
总字数:467,355,735字。
⒈ 1999年至2003年4月报刊文摘、政经时事、科学技术:375,689,126字,占80.4%。
2、现代文学:91,666,609字,占19.6%。
二、字频概况
⒈ 在以上语料中,总共用到的汉字为10647个,扣除繁体字1038个,共用简体字9609个,在GB 13000.1字符集20902字中有10255个未曾出现。
⒉ 与1988年国家语委公布的字频表比较,与青月亮流通字频表比较,字频有较大的涨落,表1为30个高频字的频度比较。
表1:30个高频字的频度比较表
序号
汉字语委字频(‰)累计字频(‰)汉字青月亮字频(‰)累计字频(‰)汉字2003新字频(‰)累计字频(‰)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30






























35.929
14.585
11.843
11.559
11.121
9.116
8.628
8.166
7.323
7.149
6.905
6.375
6.099
5.844
5.762
5.567
5.290
5.286
5.266
4.653
4.479
4.302
4.225
4.148
4.105
4.049
4.043
3.948
3.918
3.879
35.929
50.5
62.4
73.9
85
94.2
102.8
110.9
118.3
125.4
132.3
138.7
144.8
150.6
156.4
162
167.3
172.5
177.8
182.5
186.9
191.2
195.5
199.6
203.7
207.8
211.8
215.8
219.7
223.6






























36.526
10.912
8.600
8.364
8.251
8.075
7.949
7.756
7.397
7.193
6.598
6.250
6.033
4.863
4.836
4.645
4.637
4.522
4.514
4.421
4.408
4.349
4.311
3.914
3.898
3.895
3.859
3.826
3.734
3.699
36.526
47.438
56.038
64.403
72.655
80.730
88.679
96.436
103.833
111.027
117.626
123.876
129.910
134.774
139.610
144.255
148.893
153.415
157.929
162.351
166.760
171.109
175.421
179.335
183.234
187.129
190.989
194.816
198.550
202.249






























31.9095
12.8531
9.23691
9.22364
9.03071
8.96561
8.58411
7.96150
6.49679
6.16388
5.75413
5.65598
5.23414
5.22631
5.20342
4.83986
4.82400
4.72296
4.63624
4.49203
4.35898
4.16824
4.10603
4.03592
3.91603
3.79890
3.76444
3.74665
3.71942
3.61892
31.9095
44.7627
53.9996
63.2232
72.2539
81.2195
89.8037
97.7652
104.262
110.425
116.180
121.836
127.070
132.296
137.499
142.339
147.163
151.886
156.522
161.015
165.373
169.542
173.648
177.684
181.600
185.399
189.163
192.910
196.629
200.248
从上表进行分析:
其中:“的、一、了、是、在、人、不、有、中、大、国、上、这、和、以、个、为、地”这18个字,三家统计均在前30出现,位置略有不同。
其中:“我、他、到、来、时”这5个字,2003新字频和语委字频均在前30出现,青月亮字频未在前30出现。
其中:“年、出、会、生、要、发”这6个字,2003新字频和青月亮字频均在前30出现,语委字频未在前30出现。
其中:2003新字频有1个字“市(28)”在前30中独有;语委字频有7个字“们(34)、说(37)、全(72)、小(65)、子(50)、可 (53)、就(45)” 在其前30中独有;青月亮字频有6个字“用(67)、作(41)、学(69)、成(44)、行(32)、对(33)” 在其前30中独有。括弧中数字为在新字频中的位置。
以上可以得出结论;语委频度由于完成时间为1988年,同当前比较有所偏差;青月亮频度由于选用语料问题以及语料总量不足,因此也有较大偏差。
从汉字字频统计,看汉字简单高效
提示:首100汉字占38%,首200汉字占51.8%,首300占60%,首500占72%,首800占82%,首1000占86%,首1,300占90%,首1,900占95%。
日本人的当用汉字貌似也是1900上下。巧合。
汉字确实是个高效率的文字,认200字已经覆盖了51.8%  的使用面。1900个字竟然占到使用面的95%。恐怕世界上没有第二种文字能达到这个高效了。
说汉字难学是靠不住脚的。
相反,应该在学前,就让儿童把这点儿汉字解决了。你想想,1000个汉字,儿童学前4年,不是象玩儿似的就掌握了?上周回乡,发现6岁小侄子已经能读故事书了。啤酒瓶上的文字毫不犹豫地念出来。这小朋友象其他小朋友一样,乖巧可爱,但不是那种天才。以前听过同事,同学的小朋友学前识字的故事,这次是亲眼见小侄子。更深信不疑:汉字并不难学。儿童早教也是可以成功的。