车享家五元洗车:中文文本分类语料库-TanCorpV1.0

来源:百度文库 编辑:中财网 时间:2020/07/04 20:15:38
谭松波,王月粉
1 语料简介     相比于国际上众多的英文分类语料库而言,本人深感中文分类语料库非常缺乏。因此,建立一个较具规模的中文语料库一直是本人的夙愿。但手工收集上万篇文本确实比较困难,因此收集工作进展较慢。直到最近才告一段落。     本语料库分为两个层次,收集文本14150篇。第一层为12个类别;第二层为60个类别。层次结构及每类样本数如下表: 表1 语料的层次结构
财经
财富
19
汽车
汽车百科
118
金融
267
汽车快讯
258
企业
164
汽车行驶
176
人物
64
汽车政策
38
消费
91
人才
人才创业
39
证券
214
人才管理
412
地域
地域城市
71
人才猎取
39
地域风俗
47
人才履历
39
地域美食
32
人才薪金
40
电脑
电脑病毒
631
人才应试
39
电脑科技
574
体育
篮球
962
电脑软件
426
乒球
112
电脑网络
517
棋牌
50
电脑游戏
102
水上
94
电子商务
693
田径
84
房产
城建
76
网球
131
私宅
433
羽球
55
装修
172
足球
1317
组屋
254
卫生
保健
625
教育
出版
48
两性
335
就业
146
心理
63
考试
173
医药
383
留学
67
艺术
古董艺术
51
培训
21
美学艺术
84
校园
226
文学艺术
153
招生
127
舞台艺术
185
科技
考古科学
183
音乐艺术
73
生命科学
459
娱乐
电影娱乐
499
天文科学
169
音乐娱乐
500
自然科学
229
综艺娱乐
501
2 使用说明     本语料采用词频矩阵的方式给出,其格式采用Han[1-2]定义的格式,Han数据格式包括三个文件,即x.mat、x.mat.rlabel和x.mat.clabel。由于格式只能表示单层语料,本人对它进行了扩充,增加了一个文件,x.mat.hlabel。这样就能描述多层语料,并能兼容单层语料。     x.mat表示词频矩阵。该文件的第一行的三个数字分别表示文档数、词数和该矩阵的词-词频对的个数。其余每行表示一篇文档,具体格式为:词 词频,…,词 词频;x.mat.rlabel是类别文件,每行一个类别名,对应x.mat中每篇文档的类别,对多层而言,它表示文档的叶子节点类别;x.mat.clabel是词名,也就是字典。字典中每个词语的编号等于它所在行的行号;x.mat.hlabel描述每个类别的层次关系。
预处理采用分词工具ICTCLAS[3]对文档进行分词,并去掉数字与标点符号。
本人欢迎各位业界同行使用本分类语料,并希望用如下方式加以引用:
[1] 谭松波,王月粉. 中文文本分类语料库-TanCorpV1.0. 本页面网址.
[2] Songbo Tan et al.A Novel Refinement Approach for Text Categorization. ACM CIKM 2005.
本语料可以作为三个分类语料集使用:
TanCorp-12:单层语料    
    TanCorp-60:单层语料

    TanCorpHier:两层语料

    特别声明:本语料仅作学术研究之用,不可用于任何商业用途!
若您有任何问题或建议,请直接跟我联系。
3 算法评测
为了验证语料的有效性,我们采用五种经典的文本分类算法进行评测,即中心法[1]、最近邻[4]、Winnow[5]、贝叶斯[6]与SVMTorch[7]。Winnow采用平衡Winnow;贝叶斯采用多项式模型;SVMTorch采用线性核函数。所有实验都采用三分交叉验证,即把数据集随机划分成三份,每次取其中两份进行训练,一份进行测试,然后把三次分类结果的平均结果作为最终结果。
实验结果基本反映了我们的预期结果。在TanCorp-12上SVMTorch绝对是顶级表现者。在TanCorp-60上SVMTorch的性能比中心法要差一点,这主要是因为TanCorp-60样本分布的严重不均衡性。 表2: 五种分类算法在TanCorp上的最好微平均比较
中心法
最近邻
Winnow
贝叶斯
SVMTorch
TanCorp-12
0.9053
0.9035
0.8645
0.9157
0.9483
TanCorp-60
0.8057
0.7847
0.7176
0.8069
0.7782
表3: 五种分类算法在TanCorp上的最好宏平均比较
中心法
最近邻
Winnow
贝叶斯
SVMTorch
TanCorp-12
0.8632
0.8478
0.7587
0.8688
0.9172
TanCorp-60
0.7562
0.7001
0.6684
0.7025
0.7493

引用文献:
[1]  E. Han, Karypis. Centroid-Based Document Classification: Analysis & Experimental Resultsl. The Fourth European Conference on Principles and Practice of Knowledge Discovery in Databases, 2000
[2] E. Han.http://www.cs.umn.edu/˜han/data/tmdata.tar.gz.
[3] Huaping Zhang. Chinese Lexical Analysis Using Hierarchical Hidden Markov Model. Second SIGHAN workshop affiliated with 41th ACL. Sapporo Japan, July, 2003, pp. 63-70    [4] Y. Yang. An evaluation of statistical approaches to text categorization. Information Retrieval, 1999, 1(1): 76-88. [5] P.P.T.M. van Mun. Text Classification in Information Retrieval using Winnow.http://citeseer.ist.psu.edu/cs. [6] Andrew McCallum, Kamal Nigam. A Comparison of Event Models for Naive Bayes Text Classification. AAAI/ICML-98 Workshop on Learning for Text Categorization[C]. Menlo Park, CA: AAAI Press. 1998, 41-48. [7] SVMTorch.http://www.idiap.ch/~bengio/projects/SVMTorch.html.   常见问题 1. 我从您的主页上下载了部分语料库,但是系统显示文件是access的快捷方式,文件很大,但是不知道如何打开,使用?
答:不能使用access打开,可以使用UltraEdit打开。
2. 我下载了你主页上的中文语料,解压后在matlab中为什么不能Load?
答:".mat"只是表示该文件存储的是词频矩阵,跟matlab没有关系。
3. 我打开您语料中的.mat文件时有错误,是怎么回事呢?或者您能把它存成其他格式吗,比如.txt文件。
答:可能是因为你采用别的软件来打开它。目前已提供预处理后的txt文件下载。