web of science介绍:文本过滤技术探析

来源:百度文库 编辑:中财网 时间:2024/04/29 21:21:30

 

摘要:随着互联网信息数量的急剧增加,文本信息过滤技术越来越受到重视,基于统计的文本过滤方法比较适用于主题过滤,对具有倾向性的文本进行过滤的效果不理想,本文介绍了文本信息过滤技术的发展历史和研究现状,阐述了中文文本过滤的特点和要求,提出了一个倾向性文本过滤的方法,重点分析了中文文本过滤技术的关键技术和评价标准。

   

关键词 :文本过滤、语义分析、语义模式

 

1 .引言  

随着信息社会的不断发展,人们面临的信息日益剧增,如何更准确、有效地找到自己感兴趣的信息,过滤掉与需求无关的“垃圾”信息,成为了一个重要的研究问题,内容过滤技术也就应运而生。目前,网上信息大多是文本形式,所以内容过滤大多是针对文本的。所谓文本过滤指的是从大量文本中找出满足用户需求的文本的过程,它对于文本信息处理具有重要意义,另外,它也可以实现对网络中不良信息的自动过滤,从而保障网络的安全。网上的不良信息包括暴力、色情、邪教等主题,主题性信息过滤大多采用基于统计的过滤技术,利用关键词匹配技术来实现,这种方法只能过滤出与主题相关的文本,不能区分出文章的立场和态度。而有些文章虽然也包含相关的主题,但却可能对主题持有不同的立场,要解决这个问题,除了要进行主题分析外,还要对文本进行语义分析,理解文本表达的主题思想,弥补统计方法缺乏语义信息的弊端,从而更精确地满足用户的信息需求。本文提出了一个基于语义分析的信息过滤方法,除了对文本进行语义分析外,还充分考虑了文章主题词所在特征区域的重要性,在计算文本的倾向性指标时增加了特征区域权重因子,能更准确地过滤出倾向性文本。

2 .文本过滤技术

文本信息过滤是指依据一定的标准和运用一定的工具从大量的文本数据流中选取用户需要的信息或剔除用户不需要的信息的方法,文本过滤和文本检索及文本分类有很大的相似之处。

2.1 文本信息过滤技术发展

1958 Luhn 提出的“商业智能机器”是信息过滤的最早雏形。 Luhn 所提出的构想涉及了信息过滤系统的每一个方面,为后来的文本过滤做了很好的铺垫。1982 Dernzing 首次提出了“信息过滤”的概念, 在他描述的例子中, 可以通过“内容过滤器”识别出紧邮件和一般邮件,以此提示对信息内容进行有效控制。1987 Malone 等人提出了三种信息选择模式,即认知、经济、社会。认知模式相当于“基于内容的信息过滤”;经济模式来自于 Denning 的“阈值接受思想”;社会模式是他最重要的贡献,即“协同过滤”。 1989 年,美国消息理解大会 (Message Understand Conference)成立,将自然语言处理技术引入到信息研究中来,极大地推动了信息过滤的发展。20 世纪 90 年代以来,著名的文本检索会议TRECText Retrieval Conference)每年都把文本过滤当作一个很重要的一个研究内容,这很大程度上促进了文本过滤技术的发展。从 TREC-4 开始,增加了文本过滤的项目;从 1997 TREC-6开始,文本过滤主要任务确定下来;TREC-7 又将信息分为自适应过滤、批过滤和分流过滤,使得对信息过滤的研究更加深入。 随着信息过滤需求的增长和研究的深入发展, 其他领域的许多技术被应用到文本过滤中来,并取得了很好的效果。 如信息检索中的相关反馈、伪相关反馈以及文本检索中的向量空间模型技术,文本分类和聚类技术,机器学习以及语言底层的处理技术都被应用到信息过滤中来,极大地拓展了信息过滤的研究广度,推动着信息过滤理论研究与技术应用不断走向完善与成熟。

2.2 中文文本过滤技术

中文文本过滤技术在最近几年得到了业内人士的普遍关注。国内对于信息过滤研究起步较晚,但是目前发展也很快,尤其是随着信息安全、信息定制等应用在国内的兴起,对信息过滤技术的研究也得到人们普遍的重视。其中,中科院计算所、复旦大学都曾参加了 TREC 评测中的信息过滤任务,取得了较好的成绩;哈工大、南开大学等重点科研单位也已经开始对信息过滤进行究。然而基于目前提出的中文文本过滤模型开发出的试验系统在不同的领域达到的过滤精度也不相同。由于中英文语法差异较大,对于文本信息的预处理方法不同,因此面向英文的众多过滤算法是否适合中文文本过滤还有待检验。

3.中文文本过滤的关键技术

文本过滤工作基本上可以概括为两项:一是建立用户需求模型,表达用户对信息的具体需求;二是匹配技术,即用户模板与文本匹配技术。因此,文本过滤的主要流程首先是根据用户的信息求,建立用户需求模型,然后在相应的文本流中搜索符合用户需求的文本,同时利用反馈改进需求模型。

3.1 中文分词

 中文分词是对中文句子的切分技术,是中文文本最重要的预处理技术。自动分词过程是指从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程自动分词是汉语所特有的研究课题,英语、法语等印欧语种,词与词之间存在着自然的分割,一般不存在分词的问题。 中文自动分词已经研究了 20 多年,但是目前仍然是制约中文信息处理的瓶颈,汉语除了连续书写之外,汉语词汇没有形态变化,也没有各种词的变格,缺乏自然的分割信息。汉语语法的研究多源于印欧语法的研究,分析结果对词有用的信息较少;汉语的词序义极为灵活,相对的语法限制也较少。在词汇数量上,一般的印欧语种的词汇最多为几十万词,而汉语的词汇高达几百万乃至上千万。一个汉字序列可能有几种不同的切分结果,产生歧义现象。这些都给自动分词造成了极大的困难。宏观上,主要存在语言学和计算机科学等两方面的困难。 汉语分词系统的实现及效果依赖于分词理论与方法。目前国内分词系统所采用的或者正在研究的方法基本上分为以下几类:

1)机械分词法:主要有最大匹配法、 逆向最大匹配法、 逐词匹配法、 部件词典法、词频统计法、设立标志法等。

2)语义分词法:语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法等。

3)人工智能法,又称理解分词法,如专家系统法、神经网络方法等。

3.2 过滤模型

信息过滤系统的性能,关键在于模型的完善程度如何。目前描述文本信息的模型有很多种,有布尔模型、向量空间模型、概率推理模型、潜在语义搜索模型、 基于模糊集合的信息过滤模型。其中,向量空间模型(VSM)的最大优点在于它在知识表示方法上的巨大优势:文本被形式化为多维空间中的向量,把对文本内容的处理简化为向量空间中的向量运算,大大降低了问题的复杂度,提高了文本处理的速度和效率。在一个向量空间模型构造的信息过滤系统中,用字项来标识文档。一个包含不健康信息的文档 D用一个 m 维向量来表示,其中 m 是能够用来表示文档内容的字项的总数。给每一个字项赋予一个权值用来表明它的重要程度。该文档 D的向量表示为 D={w1w2wm},其中 wm 表示第 m个字项的权值。在进行信息过滤的过程中,首先对请求的页面数据进行加工将其看成是一个由 n个词组成的向量 P,然后比较向量 P 和向量 D 的相似程度。通常使用的方法是取两个向量的余弦值,根据它们夹角的大小来判断相似程度。最后根据相似程度来决定是否要过滤掉该页面。也正因为把文本以向量的形式定义到数域中,VSM 模型大大提高了文本处理的速度和效率,因此在文本过滤领域 VSM 是被广泛采用的文本表示模型。向量空间模型也有明显的缺它是一种忽略了特征项之间顺序的词代文本表示模型,虽然带来了计算和处理上的便利,但却损失了大量的文本结构和语义信息;另外向量空间模型是建立在所有项两两正交这一假设的基础上的,没有考虑特征项之间的相关性,对于有着丰富语义的自然语言来说,这种假设过于严格,不能很好地反映自然语言的特征。总之,用简单的初等运算来代替语义,误差势必存在。

3.3 特征选择

特征选择的基本思想通常是构造一个评价函数,对特征集的每个特进行评估。这样每个特征都获得一个评估分,然后对所有的特征按照其评估分的大小进行排序,选取预定数目的最佳特征作为结果的特征子集。选择的准则是经特征选择后能有效提高文本准确率。选择没有改变原始特征空间的性质,组成一个新的低维空间。 特征选择具有降低向量空间维数、简化计算、防止过分拟合以及去除噪声等作用,特征提取的好坏将直接影响着文本过滤的准确率。常用的特征选择方法有:文档频率、信息增益、互信息、x2统计量、期望交叉熵、文本证据权和几率比等。

4.文本过滤的评估标准

为了衡量信息过滤系统效果,需要一套性能标准。一个完善的评价系统需要考虑的不仅仅是信息内容,还包括社会因素、用户兴趣等方面,所以至今还没有一套完美的评测方法。通常,信息过滤系统效果的评估借鉴信息检索的做法。 得益于信息检索评估的长期经验,具体的方法大致可以分为三种:试验评估,仿真评估和分析评估。信息检索标准的评估对信息过滤效果的评估有一定的参考价值,但是不能完全套用。目前大部分过滤效果还是由查全率和准确率来衡量的,准确率和查全率被广泛应用于仿真试验。然而,由于查全率的计算必须以整个数据集为基础,而整个数据集是未知的,所以它不可能应用于那些已经将无关数据忽略掉的真实过滤系统的实验。除了采用在信息检索中常用的查全率和准确率指标外,批过滤和自适应过滤子任务还采用UtilityF值来评价,而分流子任务则根据平均非插值准确率评价.

5.结束语 

 本文提出的倾向性中文文本过滤方法,通过分析文本特征项之间的语义关系,引入特征区域权重因子,计算全文语义的加权相关度,来判断文本的态度和立场,达到内容审查过滤的目的。实验表明,系统具有较高的查准率,对于特定领域的倾向性文本可以高效地进行过滤。需要说明的是,语义模式的建立与维护需要相关的领域知识,对过滤效果有直接的影响,另外,语义模式的权重和特征区域的权重也需要人工确定。下一步的工作可以采用统计方法对相关度和特征区域权重进行训练,针对不同的领域确定更恰当的权重,进一步提高查准率和查全率。

参考文献:

[1]、黄晓斌网络信息过滤原理与应用[M].  北京: 北京学出版社, 2005

[2]、李宝安, 李燕, 孟庆昌. 中文信息处理技术—原理与应用[M].北京:清华大学出版社,2005

[3]、吴立德.大规模中文文本处理[M].上海:复旦大学出版社, 1997

[4]、李瑞芳,孙健,李娜.基于计算机自动分词的研究[J]. 沈阳化工学院学报 2008

[5]Filmore C.J.The Case of the Case.InBach E.Harms R.(eds) Universals in Linguistic TheroyNew YorkHoltRinehart and Winston1986