游泳的重要性作文:中国科学院计算技术研究所 :: www.ICT.ac.cn

来源:百度文库 编辑:中财网 时间:2024/05/05 02:41:51
大规模内容计算
王 斌 许洪波
摘要 网络信息内容安全和智能内容管理是信息时代迫切而又长期的重要需求。大规模内容计算是解决这些需求的一系列关键支撑技术的总称。本文主要介绍了大规模内容计算的相关背景、概念、技术、应用和发展前景。
关键词:大规模内容计算 内容管理 信息处理 信息检索 文本挖掘
1.1 1  引言
随着全球信息网络的普及和信息化进程的推进,互联网(Internet)信息数量巨大、良莠并存。一方面,从这些数据中高性能、高准确度地获取所需内容早已成为服务社会、培育新兴媒体的重要需求,于是,搜索引擎、信息Agent、垃圾邮件过滤等工具应运而生。不仅如此,上述需求逐渐成为不同政治、军事力量甚至国家之间占领网上信息制高点和主动权的举足轻重的、迫切而又长期的需求,信息安全特别是网络信息内容安全受到各国政府的高度重视。美国、日本、法国等发达国家已把网络信息内容安全列为国家重点发展规划,投入了巨大的力量。近年来,我国也逐渐加大信息内容安全的投入力度。另一方面,如何有效地利用信息内容、对这些内容进行智能化管理,也是信息社会提出的一项重要需求,科学院已经把智能内容管理作为信息技术研究的重要方向进行规划,数字图书馆、电子政务、科技奥运等一系列重要任务都对智能内容管理提出了更高要求。
不论是网络信息内容安全还是智能内容管理,都可以看成信息内容处理技术在网络上的应用。比起传统的信息处理来,网上的信息处理具有如下的特点:(一)所处理的信息内容规模极大,更新变化异常迅速;(二)信息来源、格式、载体和相互关联多样化,地理上、内容上的分布散乱无序;(三)同时访问的用户数目巨大,用户的信息需求多样化。核心的问题是要以Internet上的TB甚至PB级(1PB≈103TB≈1015字节)超大规模数据为基础面向需求各异的用户群实现高性能、高准确度的信息服务。
大规模内容计算是解决这个核心问题的一系列关键技术的总称。具体地说,大规模内容计算是在大规模的网络信息环境下,研究与网络信息内容的获取、处理和服务相关的高性能计算模型、关键技术和关键算法的一门重要学科。所谓“大规模”,主要是指它的处理对象数量规模巨大,基本在TB甚至PB的数量级。所谓“内容”,主要是指非结构化的或者半结构化的数据。包括文本数据和多媒体数据。所谓“计算”,当然是一种广义的“处理”。单纯以获取、检索、挖掘、过滤、分类、聚类、管理、跟踪、理解、问答等范畴来概括这个研究方向,都具有很大的局限性,只有用“计算”的概念才能从更高的高度覆盖这个研究方向[1]。
大规模内容计算总体上包括如下步骤(参见图1):第一步是对大规模信息的获取,即得到信息;第二步是对信息内容的分析、加工和处理;第三步是利用分析处理的信息提供服务。本文将主要以文本为处理对象,介绍大规模内容计算的相关技术和应用。基于文本处理的很多思想同样可以用于多媒体处理。另外,本文的对象是已经数字化的文本内容。多媒体处理、书面或者手写信息的数字化过程等内容可参见相关文献[2]。
本文的后续内容安排如下:第二节介绍信息获取的相关技术;第三节到第四节主要介绍内容分析处理的相关技术;第五到第六节主要介绍大规模内容计算的两个典型应用。最后是总结和展望。需要说明的是,本文的典型应用(检索和过滤)也常常被称为技术。它们和本文前面章节介绍的技术可以从单项和组合这个方面加以区分,本文所讲的技术基本上是单项技术,即不太容易拆分或者一般不再拆分的基础技术,而典型应用对应的技术都是多项单项技术的组合应用,在这个意义上,本文将组合后的技术称为应用。

图1 大规模内容计算流程
1.2 2  信息获取技术
信息获取是指从网络收集数据的过程。它是进行后续信息处理、信息服务的基础。如何快速、准确地获取所需要的信息,是信息获取研究的主要内容。在大规模内容计算中,信息获取分为主动获取和被动获取。被动获取通常是将设备介入网络的特定部位进行获取。而主动获取主要是指基于WEB(万维网-World Wide WEB)的信息采集(WEB Crawling, 简称WC),即根据WEB协议,直接从WEB上采集或下载信息。本文主要介绍WEB信息采集技术。
WEB信息采集技术可以分成[3]:基于整个WEB的信息采集(Scalable WC),增量式WEB信息采集(Incremental WC),基于主题的WEB信息采集(Focused WC),基于用户个性化的WEB信息采集(Customized WC),基于Agent的信息采集(Agent-based WC),迁移的信息采集(Relocatable WC)等等。实际系统往往是以上几个采集技术的组合。
采集系统主要研究的是:如何高效稳定地以较小的代价获取最相关的信息。为了提高采集速度,大规模的采集系统往往采用并行采集结构。如Google、百度、天网等搜索引擎后台都采用了并行体系结构。这些体系结构的基本想法都是将采集的各个部分(控制、分析、执行、存储)设计成并行流水结构,尽量减少采集系统的不合理等待、保证采集过程的通畅。
为了降低采集的空间代价,更新策略是研究的重点之一。最理想的是采集系统能够自动学到每个网站或站点的更新规律,从而能够指导采集器的刷新策略,尽量做到没有变化的网页不采集,只采集那些更新的网页。现实的搜索引擎采集系统,都或多或少地采用了更新策略,避免重复性的采集。一种方法是通过统计不同类型站点的更新周期来指导采集。而IBM设计完成的信息采集器WEBFountain则采用了一个优化模型来控制采集策略。这个模型没有对WEB页面变化的统计行为做任何假设,而是采用了一种适应性的方法,根据先前采集周期里采集到的结果的实际变化率进行调整。
基于主题的信息采集是主要针对相关主题的采集,目前是采集研究的热点之一。只采集相关的信息也可以降低采集的代价。基于主题的采集的关键是采集结果和主题的相似度计算。一方面,可以通过采集结果与主题的内容相似度来计算该值;另一方面,可以通过相关链接信息(如锚文本anchor text、链接关系)来预测待采集结果的相似度,从而指导采集的方向。Aggarwal则提出了一种针对两个假设的基于主题的WEB信息采集方法:一是Linkage Locality,即被相关于某一主题的页面链接到的页面趋向于拥有同一主题。 二是Sibling Locality,即对于某个链接到某主题的页面,它所链接到的其它页面也趋向于拥有这个主题。Menczer则评价了三种关于基于主题采集的策略 :Best first Crawler(通过计算链接所在页面与主题的相似度来得到采集优先级)、PageRank(通过每25页计算一遍PageRank值来得到采集优先级,PageRank值计算方法参见第五节)以及InfoSpiders(通过链接周围的文字,利用神经网络和遗传算法来得到采集优先级)。
由于使用采集的用户需求各异,一些采集系统的设计者把目光投向了基于用户个性化的WEB信息采集(Customized WEB Crawling)。基于个性化的信息采集的目标就是只采集用户感兴趣的信息。它与基于主题的采集的不同之处在于它针对某个用户而不是某个主题。即使对同一主题,个性化的信息采集系统对不同用户也可能返回不同结果。个性化信息采集主要是对用户的行为(包括浏览习惯、兴趣等)进行跟踪从而指导采集的进行。卡内基梅隆大学(CMU)研制的SPHINX是一个Java工具包组成的环境交互式信息采集器,它是一个典型的个性化信息采集系统。
另外,还有将智能Agent和采集技术相结合的信息采集技术以及将采集放在服务器端进行的迁移式采集技术等等。限于篇幅,这里不再一一介绍。
1.3 3  内容分析技术
从网上获取数据以后,要对这些数据进行包括格式分析和转换、编码识别和转换、内容意义分析等等相关的处理。本文只介绍基于自然语言文本的分析技术。当然,自然语言处理本身就是一个重要的研究方向,内容包罗万象。可以说,任何自然语言处理的技术都可以用于大规模内容计算。考虑到篇幅关系,这里只对几种最基础、与大规模内容计算最相关的自然语言处理技术进行介绍。
文本的内容分析主要包括词法分析、句法分析、语义分析和语用分析等部分[4]。内容分析是实现网络内容安全和内容管理的基础算法。大规模内容计算的绝大多数应用都会用到内容分析技术,如垃圾邮件的内容特征分析、文本的自动摘要、重要事件的发现和跟踪等等。
1.3.1 3.1 词法分析
词法分析是对自然语言的形态进行分析,判定词的结构、类别和性质的过程。对于以英文为代表的形态丰富的语言来说,英文的词法分析的一个重要过程是形态分析,即将英文词还原成词干。而汉语形态变化很少,其主要的问题在于书写时词与词之间没有空格。所以通常中文词法分析的第一步是分词。分词往往是后续进一步处理的基础。词法分析的另一个主要任务是标注每个词在上下文句子中的词性。
3.1.1  英文形态分析
英语的词常常由前缀、词根、后缀等部分组成。具体到句子中,词还有性、数、格以及时态引起的词形变化。英文的形态分析的主要目标是将句子中的词从词形还原到词甚至词根。英文的形态分析常常也称为stemming,分析器称为stemmer。形态分析常常采用基于自动机的规则方法,即将词形变化的规律总结成规则,然后通过自动机的方法对词形进行转换。转换的过程当中可使用或者不使用词典。目前使用最广泛的Stemmer是Martin Porter提出的Porter Stemmer。相对而言,英文形态分析比较简单。以使用最广泛的Porter为例,它仅仅使用了一组规则,连词典都没有用上。但是,要做一个百分之百正确的形态分析工具也是非常困难的,需要用到词性分析、句法分析甚至语义分析的信息。好在,很多应用对stemmer的要求不是很高,利用不同stemmer的应用结果也相差不大。有些应用(如TREC评测会议中的Home Page Finding任务)中词形信息很重要,不需要stemmer进行词根还原。
3.1.2  中文分词技术
目前的中文分词方法[5]可以总结为两大类:基于机械匹配的分词方法及基于概率统计的分词方法。前者通过对已有词典的机械匹配来得到分词结果。后者不需要任何词典就可以得到分词结果,或者对粗切分结果进行基于概率统计的后处理来得到最终的分词结果。所谓机械匹配是指与已有词典里的词进行一一匹配,匹配上的词输出到结果,匹配不上的词常常以单字的形式输出。中文分词技术面临的两个最大问题是切分歧义和未定义词问题。前者要解决在上下文环境下不同切分结果的选择;后者要解决词典中未收录词(如人名、地名、机构名等)的识别。可以在机械匹配的基础上通过规则的方法来求解上述两个问题。然而规则方法很难穷尽真实文本的各种现象。目前比较主流的方法是通过对真实文本的概率统计来求解切分歧义和未定义词问题。包括北航、北师大、清华大学、北京大学、北工大、哈工大、东北大学、山西大学、中科院计算所等等在内的多家单位都进行了中文分词的研究,包括N元语言模型、隐马尔可夫模型以及多种统计量等等都被引入到中文分词,促进了中文分词结果准确率的提高。值得一提的是,一些研究(如微软研究院)将中文分词的一部分歧义问题延到后续句法分析阶段利用更加丰富的信息加以解决并进行反馈,实现了基于这一新思路的分词系统。
中文分词的一个巨大非技术障碍乃是分词规范和标准问题。虽然中文分词已经有很多年的研究历史,但是迄今为止国内仍没有一个公开的、受到广泛认可的、可操作的分词规范,也不存在一个通用的大规模评测语料。这使得众多研究者的研究结果之间缺乏真正的可比性,从而制约了中文分词技术的提高。能够真正公开为大众所用的较好的分词工具很少。目前,ACL(国际计算语言学协会)的SIGHAN分会已经在这方面进行了初步尝试,并于2003年组织了国际第一次汉语分词评测,吸引了国内外10多家研究单位参加,应该受到中文分词研究者的广泛注意。另外,值得一提的是,中科院计算所的ICTCLAS分词系统[15]可供公开测试和开放源码下载使用,目前已经引起了较大反响,在分词工具可用化方面做出了重要的探索。
3.1.3  词性标注技术
词性标注的根本性原因在于词的兼类现象,即一个词可以有多个词性,但在相关的上下文中,一个词通常只能表现为一个词性。词性标注的目的就是多里挑一。
词性标注也经过了从规则方法到统计方法的过程。国外二十世纪60年代就开始自动词性标注的研究。其中,1971年,美国Brown大学的TAGGIT系统利用3300条上下文框架规则和86个词类标记进行自动标注,正确率达到77%。基于概率统计的方法中,1983年Leech和Garside等人建立了CLAWS系统,通过共现概率矩阵的方法使得自动标注的正确率达到96%~97%。1988年,DeRose对CLAWS系统进行了改进,降低了该系统的复杂性,使得自动词性标注的正确率达到了实用的水平。基于语言模型和隐马模型的概率统计方法也取得了很好的结果。另外,也出现了很多将词法分析整个过程一体化的工作,如英文的形态分析和词性标注一体化、中文的分词和词性标注一体化等等。值得一提的工作还包括Eric Brown的基于错误驱动的规则学习词性标注方法。该方法可以通过初始标注语料,自动学习到有序的多条标注规则来对未标注语料进行标注。有人将该方法归入规则方法,也有人将之纳入统计方法,每种归类都有自己的道理。目前,该词性标注方法可以达到97%的封闭测试正确率,是网上可以下载的实用词法标注工具之一。对于中文词性标注,国内清华大学、山西大学、北京大学、东北大学、中科院计算所等都做了大量有效的工作。见诸报道的中文词性标注的最高正确率也在95%以上。
1.3.2 3.2  句法分析
句法分析是将线性的词序列转变成某种句法结构(最常见的是短语结构树)的过程[6]。由于短语结构语法(特别是上下文无关语法)应用最为广泛,因此以短语结构树为目标的上下文无关语法(CFG)句法分析器研究得最为彻底。其他类型的句法分析器可以由CFG句法分析器改造而成。句法分析的策略主要包括自顶向下、自底向上以及左角分析法。著名的句法分析算法有:CYK、Early、Tomita、Chart等等。真正实现时,句法分析系统通常由短语规则和具体算法组成。短语规则指出了从词到短语、从短语到句子结合的规律。句法分析的最大难点在于句法歧义。也就是说,根据句法规则,一个短语或者句子往往有多棵句法树,而这其中往往只有一棵是正确的。句法分析的主要目标是消除句法歧义。消除句法歧义可以通过在句法规则中不断地引入上下文句法或者语义判定规则来进行。但是这种方法引入的个性化规则一方面十分庞大,另一方面很难保证规则的一致性。另一种方法是在句法分析中引入概率,根据概率的大小来选择句法树的生成。在进行句法分析的过程中,研究者发现对真实语料生成完全的句法分析树似乎太理想化,从而萌生了部分分析[7](partial parsing,也叫组块分析或浅层分析,chunking parsing or shallow parsing)的思想,即不进行完全的句法分析,而是产生部分语言单位组块(如基本名词短语、人名、地名、机构名等等)。这些组块在大规模内容处理中可以得到很好的应用。从所发表论文公布的结果看,英文部分分析的测试结果(F值)可达93%以上。中文部分分析的测试结果也能达到这个值。不过,由于很多研究部分分析的定义、标准和语料并不统一,有些研究结果无法评价,结果之间也缺乏可比性。有实验报告证明,查询语句中名词短语的识别可以改善系统检索文档的相关性,并可提高检索系统的召回率和精确率。
目前,美国宾州大学已经建立了用于句法分析的中英文句法结构库(tree bank),可供研究者实验和评价句法分析的成果。
1.3.3
3.3 语义分析
语义分析的主要目标有两个:一是确定每个语言单位在文中的某种语义类;二是确定这些语言单位之间的语义关系。前者的工作称为语义排歧(WSD, word sense disambiguation),即根据上下文从语言单位可能的多个语义中选择最恰当的语义。后者也常常称为(狭义的)语义分析。
语义分析通常需要语义词典的支持,目前著名的英文语义词典有:WordNet、FrameNet、MindNet等,中文语义词典有:HowNet、同义词词林等等。
WSD的研究同样有规则方法和统计方法。统计方法可以通过对上下文窗口的统计分析来确定词汇的语义。在大规模内容计算中,WSD可以借鉴上下文的历史查询、以及对用户的兴趣跟踪来对查询词的语义进行排歧。
语义分析常常建立在某种语法或理论体系上。如语义语法、格语法、语义网络、蒙格塔语法、范畴语法、概念依存理论等等。
1.4 4  聚类、分类技术
聚类、分类技术是模式识别的基本技术。目前在文本处理中,也是最常用的两项技术。两者都是将未知文本归入某个类别的过程。聚类也称为无监督的分类。它事先没有类别,而是根据样本之间的某种相似程度自动地聚集成某种类别。而分类过程事先都有给定的类别及相关训练样本。分类的过程包括分类器的参数训练以及对测试样本的预测两个部分。不论是聚类还是分类的结果往往都能降低大规模文本处理的复杂性。
信息聚类和信息分类都包括特征选择、信息表示、相似度计算以及分组算法等主要组成部分。相对而言,由于信息分类有训练样本,其特征选择方法繁多且更为复杂。同样,信息分类中不涉及到训练样本的特征选择方法都能用于信息聚类。文本聚类和文本分类中的文本大都采用向量空间模型(参见第五节),相似度计算方面有各种距离计算方法,如夹角余弦、内积等等。
1.4.1 4.1  文本聚类技术
聚类技术通常可以分成两类:层次型(Hierarchical)聚类和分割型(Partitional)聚类。层次型聚类生成一个树型的聚类谱系图,根据需要可以在不同层次上选取类别个数。分割型聚类对原有数据集生成一个划分。层次型聚类方法包括基于最短距离、基于最长距离、基于均值距离的方法。分割型聚类又包括方差法(如k-means方法)和基于图论的方法等等。
文本聚类是聚类方法在文本处理领域的应用。应用领域包括敏感话题的发现、敏感社区的发现、信息过滤中用户(兴趣)的自动聚类(用户兴趣可以采用文本表示)等等。
1.4.2 4.2  文本分类技术
文本分类的特征选择有很多方法,如文档频率(Document Frequency, DF)、信息增益(Information Gain, IG)、互信息(Mutual Information, MI)、χ2统计量等等。CMU的Yang Yiming[8]对这些方法进行了基于英文的分类对比实验,得出的结论是χ2统计量和IG方法最好。近年以来,也有一些基于中文分类的特征选择实验,得到的实验结论不尽相同。特征选择的结果空间可能仍然维数很高,因此,研究人员提出对特征空间进行降维。隐性语义索引(Latent Semantic Indexing, LSI) 和主成分分析(Principle Component Analysis, PCA)都是常用的特征降维方法。文本分类算法有很多。如线性最小平方拟合、贝叶斯(Bayes)、k近邻(k-Nearest Neighbor, kNN)、决策树、支持向量机(Support Vector Machine, SVM)、基于神经网络的分类等等。     Yang Yiming[9]对众多的英文文本分类方法进行了比较,得出的结论是SVM、kNN以及线性最小平方拟合法较优。目前,还没有见到关于中文分类算法性能比较的较权威的书面报道。
文本分类技术应用十分广泛,比如垃圾邮件的检测、敏感话题的跟踪、内容的分层次组织管理等等。
1.5 5  WEB检索
所谓WEB检索是指以检索查询方式从WEB中挑选出和用户需求最相关的页面。WEB检索是大规模内容检索中一个重要应用。之所以把它归结成应用是因为它包括了各种基本技术的复杂组合。WEB检索的对象是WEB,与传统的IR处理对象并不相同,因此,WEB检索中融合了传统IR和一些现代的新技术。一方面,现代IR一直对传统IR进行补充和改进,另一方面,也出现了和传统IR不一样的新技术。
本质上,WEB检索的关键就是将用户的需求和网页进行匹配打分。根据打分依赖对象的不同,本节按照内容、结构、用户行为三个方面来总结WEB检索应用中的种种技术。
网络内容安全和智能内容管理的很多问题都可以归结为对某个已知主题的查询检索问题。如:查询与伊拉克战争相关的文档。
1.5.1 5.1  基于内容的检索
基于内容的检索就是根据页面的内容(可以是标题、正文、锚文本-anchor text甚至是URL-Universal Resources Locator本身)来打分。这里面主要包括三种模型:布尔模型(Boolean Model)、向量空间模型(Vector Space Model,VSM)及概率模型(Probabilistic Model)。
布尔模型实际就是将用户提交的查询词和每个页面直接匹配。用户提交的查询是多个词组成的布尔表达式。符合这个布尔表达式的页面得1分,否则0分。基本的布尔模型因为不能提供更细微的排名而饱受指责。研究者们提出了各种各样的方法,如根据命中关键词的词频排序、将布尔模型进行推广以支持部分匹配等等。推广的一个结果是Extended 布尔模型以至p-norm模型。推广的另一个结果是向量空间模型。需要指出的是,现今的大部分搜索引擎仍然采用了布尔模型的主要思想。
康奈尔大学的Salton等人提出的向量空间模型将查询和文本表示成标引项(标引项term是向量表示的基本单位,可以是字、词、短语及其他语言单位)及其权重的向量。一个例子是:<信息,3,检索,5,模型1>,然后通过向量之间的相似度比较来计算每个文本的相似程度。向量空间模型不仅可以用于检索,而且广泛用于包括文本分类的诸多领域中。标引项权重的计算方法有很多种。最基本的是一种称为TFIDF(Term Frequency & Inverse Document Frequency)的方法,即同时考虑标引项在所在文本中的分布情况以及在全部文本集合中的分布情况。后续的研究还考虑文本的长度因素,提出了多种改进的权重计算公式。其中一种称为Pivoted Normalization的权重计算方法近些年来受到了广泛关注。标引项的选择也是向量空间模型在使用中遇到的问题之一。有研究认为,中文检索中的标引项选择词和二元字的组合较好。最典型的向量空间模型原型系统是康奈尔大学的SMART,它提供源代码开放下载,目前已经被成千上万的研究者所用。
概率检索模型是通过概率的方法将查询和文本联系起来。最经典的概率检索模型是英国伦敦城市大学的Robertson和剑桥大学的Sparck Jones提出的二元独立概率模型(Binary Independence Retrieval, BIR)。它主要通过计算查询词中每个标引项和文本的相关概率来计算整个查询和文本的概率。BIR模型的关键问题是对其中各参数的估计,Robertson和Sparck Jones利用伪相关反馈技术来计算模型的参数,从而最终实现检索。概率模型和向量空间模型在测试中表现出的性能不相上下,很难说哪种模型就比另一种模型优越。另外,概率检索中的相似度计算公式也融入了不少向量空间模型的思想,比如文本长度的引入。最著名的概率检索原型系统是伦敦城市大学的OKAPI。其他的概率检索模型还包括基于神经网络的概率模型、基于语言学模型的检索模型。后者90年代中期由麻省大学(UMass)提出,已经引起了广泛的关注。CMU实现的原型系统Lemur(同时实现了多种检索模型)已经支持基于语言学模型的检索模型。
基于内容的检索还有各种提高检索精度的办法,比如查询扩展或重构(利用词典或者统计信息对用户初始查询进行修正)、相关性反馈(在初始检索的结果上通过用户交互或者自动方式进行反馈,构造更合适的查询)、结果组合(多种检索系统结果的融合)等等。它们的最终目的都是为了精确逼近查询和文本在内容上的相似度。
基于内容的检索的另外一个侧重点是数据的存储和组织,包括索引文件、压缩方法、数据结构等等。篇幅所限,请有兴趣的读者参看相关文献[10]。
1.5.2 5.2  基于结构的检索
前面提到,WEB检索的对象是WEB。而WEB最大的一个特征是互联。另外,很多网页都是半结构文本。充分利用结构信息是现代信息检索,尤其是WEB检索的一项重要内容。首先可以想到的是,可以利用页面本身的半结构信息,比如标题、段落位置、字体信息等等来细化不同位置标引项的权重。这种思想已经广泛融入到基于内容的检索中去,而且取得了很好的效果。除此之外,WEB中各页面之间的链接关系是一项可以利用的重要信息。基于这种信息的技术被称为链接分析技术。绝大部分链接分析算法都有共同的出发点:更多地被其他页面链接的页面是质量更好的页面,并且从更重要的页面出发的链接有更大的权重。这个循环定义可以通过迭代算法巧妙打破。
最著名的链接分析算法是Stanford大学提出并应用到Google搜索引擎中的PageRank算法以及IBM用于CLEVER搜索引擎的HITS算法[11]。
PageRank定义的是在WEB中页面的访问概率。访问概率越大的页面的PageRank值也越大。具体的计算公式是:
Pr(t)=(1-d)/T+d(Pr(t1)/C(t1)+ Pr(t2)/C(t2)+…+Pr(tn)/C(tn))
即,每个页面的PageRank (Pr)是无意中直接浏览到的概率和从上一页中继续访问的概率总和。其中,T是节点(页面)总数,C(t)是从页面t指出的超链接总数,d称为阻尼因子(damping factor),一般取值为0.85。概率Pr(t)反映了节点t的重要程度。
HITS是IBM Almaden研究中心开发的另一种链接分析算法。它认为每个WEB页面都有被指向、作为权威(Authority)和指向其他页面作为资源中心(Hub)的两方面属性,其取值分别用A(p)和H(p)表示。A(p)值为所有指向p的页面q的中心权重H(q)之和,同样,页面p的中心权重H(p)值是所有p所指向的页面q的权威权重A(q)之和,如下式:
A(p)=∑H(qi) (其中qi是所有链接到p的页面)
H(p)=∑A(qi)(其中qi是所有页面p所链接到的页面)
链接分析方法常常和基于内容的检索方法相结合。尽管很多基于较小的数据规模(数十G)网页数据的实验并不能证明链接分析算法能够提高检索的性能。但是,很多人都相信,链接分析方法能够反映WEB社会的一些最自然的属性,应该能够在大规模真实环境下提高检索结果。Google的使用成功也增强了大家的信心砝码。
1.5.3 5.3 基于日志的检索
WEB日志记录了用户访问WEB的历史信息。根据该历史信息可以挖掘出许多对提高检索效果有用的信息,从而可以改进检索的结果。通过分析用户的历史请求,可以获得用户的兴趣爱好,从而提供最符合用户兴趣的结果。通过分析用户对结果的浏览记录,也可以获得用户的兴趣爱好和行为方式,从而指导检索过程。其他用户的访问和浏览信息(如访问频度、用户查询聚类、用户浏览结果聚类等等)同样对提高单个特定用户的检索结果有帮助。利用日志信息提高检索结果是当前商用搜索引擎的一个发展趋势。
1.6 6  信息过滤
信息过滤是大规模内容处理的另一种典型应用。它是对陆续到达的信息进行过滤操作,将符合用户需求的信息保留,并根据用户的操作不断调整过滤策略。如果把信息检索称为一种典型的“拉”(pull)的方式(用户主动,系统被动服务)的话,那么信息过滤则可以称为
“推”(push)方式(用户被动,系统主动服务)。信息过滤的典型应用场景包括:垃圾邮件的过滤、信息的个性化服务、智能内容分发和内容推荐等等。
信息过滤包括两种:一种称为基于内容的信息过滤(Content-based Filtering);另一种称为基于合作的信息过滤(Social Filtering,又叫协同过滤或社会过滤)。
在基于内容的过滤中,通常采用某种方式(如VSM)来表示用户的兴趣模型和信息资源模型。实现时,当历史正例文本达到一定规模时,可以采用各种分类技术。内容过滤最主要工作之一是对用户兴趣的不断学习和反馈,以保证在任一时刻过滤的文本和当前用户兴趣相吻合。最常用的反馈算法是Rocchio算法。中科院计算所提出了一种在反馈信息很少的情况下尽可能提高过滤性能的自适应算法ICTFilter[12]。
基于合作的过滤算法从用户相似度的角度出发。它的基本假设是经常访问相似资源的用户兴趣相似,相似兴趣的用户又会访问相似的资源。因此,通过对相似兴趣用户的判定,来确定某个用户对某一未知资源是否感兴趣。合作过滤的关键在于建立用户的相似度关系。可以采用Pearson Correlation Coefficient (PCC)方法和Vector Similarity (VS),考虑上述方法中矩阵的稀疏性(即用户—资源矩阵是稀疏矩阵)导致潜在相似兴趣用户的难以发现,有人提出了基于用户分类的方法和基于LSI的方法,取得了一定的效果。合作过滤常常和内容过滤方法配合使用。
1.7 7  总结及展望
上面介绍了大规模内容处理的相关背景、技术和应用,总之,大规模内容计算具有广阔的应用前景,是Internet网络内容安全和智能内容管理的关键支撑技术。这两方面的迫切和长期需求促进了大规模内容计算的发展。
大规模内容计算技术的发展有以下几个趋势:
(1) 个性化趋势。从与用户的交互中挖掘出用户的兴趣从而更好地为不同用户提供量身定体的服务是大规模内容计算的发展趋势之一。
(2) 融合化趋势。各种技术甚至学科的交融也是大规模内容计算的一个发展趋势,包括               数据挖掘、机器学习、统计推断、模式识别等等学科研究领域的技术广泛地引入到大规模内容计算,从而推动了大规模内容计算的发展。大规模内容计算的巨大规模同样需要并行处理、海量存储、高性能计算等等各方面的技术。而大规模传统技术之间也有融合的趋势,检索和过滤、分类和聚类、各种检索模型等等之间都逐渐相互借鉴和融合。
另外,与大规模内容计算技术的发展同样相关还有一个语料库建设、标准化和评测的趋势。为了促进相关技术的发展,必须要有大量的实验语料库、技术标准和评测评比。美国政府NIST和DARPAR组织的TREC[13](Text REtrieval Conference)是评测会议中典型的代表,大大促进了大规模内容计算技术的提高。大陆包括微软亚洲研究院、复旦大学、中科院计算所、哈工大、清华大学、中科院自动化所、软件所都先后加入了TREC评测队伍的行列并取得了不错的成绩。目前,国内也有部分组织机构(如北大天网网页分类评测、中科院计算所内容检索评测等)开展了评测相关的工作。这些工作已经或者势必促进大规模内容计算技术的发展。
参考文献
[1] 白硕,程学旗,郭莉,王斌,余智华,刘群,大规模内容计算,2003年,全国第七届计算语言学联合会议论文集,13~25,清华大学出版社。
[2] 高文,刘峰,黄铁军等著,数字图书馆――原理与技术实现,2000年,清华大学出版社。
[3] 李盛韬,基于主题的WEB信息采集技术研究,2002年,中科院计算所硕士学位论文。
[4] 冯志伟,自然语言的计算机处理,1996年,上海外语教育出版社。
[5] 孙茂松,邹嘉彦,汉语自动分词研究评述,当代语言学,2001年,第一期,22~32。
[6] 刘群,中科院研究生院《计算语言学》讲义,2003年,http://www.nlp.gov.cn.
[7] 李素建,汉语组块计算的若干研究,2002年,中科院计算所博士学位论文。
[8] Yiming Yang and Jan O. Pederson, A Comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning (ICML‘97), 1997.
[9] Yiming Yang and Xin Lin, A re-examination of text categorization methods. Proceedings on the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval: 42-49.
[10] Baeza-Yates, R. and Ribeiro-Neto, B. 1999. Modern Information Retrieval. Addison Wesley Longman, Reading, MA.
[11] 刘悦,WWW上链接分析算法的若干研究,2004年,中科院计算所博士学位论文。
[12] 许洪波,大规模信息过滤技术研究及其在WEB问答系统中的应用,2003年,中科院计算所博士学位论文。
[13] TREC 会议网站,http://trec.nist.gov/
[14] 大规模内容计算网站,http://lcc.software.ict.ac.cn/
[15] 中文资源开放平台网站,http://www.nlp.gov.cn/
作者:             王  斌  中国科学院计算技术研究所 博士 副研究员
许洪波  中国科学院计算技术研究所 博士 助理研究员
来源:中国科学院计算技术研究所