mails.ucas.ac.cn邮箱:基于《知网》的汉语词语词义消歧方法

来源:百度文库 编辑:中财网 时间:2024/04/29 20:25:41

基于《知网》的汉语词语词义消歧方法 

摘  要  本文提出了一种简单有效的词义消歧方法,该模型充分利用依存文法分析,从句子的内部结构,寻找词语之间支配与被支配的关系,借以确定能够对词语语义构成内在限制的词语。借助《知网》系统的实体关系,并结合与该岐义词相关联词语的义项,歧义词的义项权重,从而根据义项权重大小来判断歧义词的词义。     关键词  词义消歧;知网;语言处理;依存句法分析 

1  引言

    自然语言中存在着大量的多义词,如何在给定的上下文中,确定其中各个词语在多个词义中选取正确的词义,是词义消歧所应解决的问题。如果多义词的多个词义之间具有不同的词性,则通过词性标注就可以确定该词词义。所以本文所说的词义消歧,是指如何在词性相同的情况下选择多义词正确词义的问题。    汉语词语的词义消歧开始于上世纪90年代后期,主要是利用词典提供的信息。出现了利用《汉语词典》释义文本、《同义词词林》、《知网》中的语义类,对实词多义进行消歧的方法,但是平均正确率并不是很高[1][2]。    近年来,随着计算机存储容量和运算速度的提高,通过对大规模语料库的利用,出现了许多基于语料库统计的词义消歧方法。使消歧的准确率有了一定程度的提高,但是有些低频词,在语料中出现次数不多,很难搜集到它们的上下文环境,存在着知识获取中数据稀疏以及自动学习算法的参数空间过大问题。    到目前,无论那种方法都没有很好地解决词义消歧问题[3]。其中一个重要的原因就是词义知识获取中的瓶颈问题,词义消歧知识库的质量已成为词义消歧成败的关键。    本文提出了一种基于《知网》的汉语词语词义消歧方法,该方法只考虑词汇句法之间的内在关联对特定环境中词义的贡献,借助依存文法分析来找出这种词义关联。假设不存在词义关联的上下文对于歧义词语的特定词义贡献为0,存在语法关联的上下文对词义的贡献相互独立。选择与歧义词汇存在语法关联的上下文作为模型中的特征值,这样做既可以减少无关上下文对词义消歧产生的噪音,又可以大幅度减少计算次数,在提高词义消歧准确率的同时,能够明显提高词义消歧的工作效率。

2  语义资源《知网》简介

    “知网”(Hownet)是董振东先生花费十年时间编辑而成的语义词典,也是一款供自然语言处理工作者免费使用的完全共享软件。知网是一个以汉语和词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库[4]。    知网作为一个知识系统,是一个网而不是树。它所着力反映的是概念的共性和个性,同时知网还着力反映了概念之间和概念的属性之间的各种关系。知网知识库主要包括:①中英双语知识词典;②义原分类源文件;③知网管理工具;④知网说明文件(包括词类表和标识符号说明) 等。本文采用的知网知识库文件主要有经过处理的①和②。

2.1 义原分类源文件

    在知网中,“概念”是对词汇语义的一种描述。每一个词可以表达为几个概念,其中每个词的每一个义项分别对应于一个不同的概念。而“义原”是基本的、不易于再分割的、没有歧义的最小单位。不同的义原组合构成了不同的概念定义。    《知网》一共采用了1500 多个义原,这些义原分为“Event|事件”等十多个大类、16种关系。在义原关系中最重要的还是上下位关系。

2.2 中英双语知识词典

    《中英双语知识词典》中一共收录了12万多条记录,而每一个词语用一条或多条记录来表示,每条记录的词典信息包括:NO.、W_C、G_C、E_C、W_E、G_E、E_E、DEF八项,例如“电脑”一词的概念的记录如下所示:    NO.=21902    W_C=电脑   G_C=N    E_C=    W_E=computer   G_E=N  E_E=  DEF= computer|电脑    其中NO.为概念编号,W_C、G_C、E_C分别是汉语的词语、词性和例子,W_E、G_E、E_E分别是对应的英语词语、词性和例子,DEF是知网对于该概念的定义。

3  依存句法分析方法

    依存句法是由法国语言学家L.Tesniere 在其著作《结构句法基础》(1959 年)中提出,对语言学的产生了深远的影响,特别是在计算语言学界备受推崇。依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中动词是支配其他成分的中心成分,而它本身却不受其他任何成分的支配,所有受支配成分都以某种依存关系从属于支配者[5]。    二十世纪七十年代,Robinson 提出依存语法中关于依存关系的四条公理,在处理中文信息的研究中,学者提出了依存关系的第五条公理[6]:    1. 一个句子中只有一个成分是独立的;    2. 其它成分直接依存于某一成分;    3. 任何一个成分都不能依存于两个或两个以上的成分;    4. 如果A 成分直接依存于B 成分,而C 成分在句中位于A 和B 之间,那么C 或者直接依存于B,或者直接依存处于A 和B 之间的某一成分。    5. 中心成分左右两边的其它成分相互不发生关系。对于第5条公理本方法中并没有采纳,因为当某一个歧义词语恰好出现在中心动词的一侧时,会割断与另一侧词语关联关系,从而影响歧义消除的效果。

4  基于《知网》的语义消歧过程

4.1 语义消歧的体系结构

    词义消歧的处理需要完成两个步骤:(1)对已经完成词性标注的句子利用知网查出每个词语所有可能词义集合;(2)从该集合中选出正确词义。本方法的体系结构如下:

图一  基于《知网》的词义消歧模型
    首先对待分析的句子进行分词、词性标注,去掉一些无关的虚词,提取出关键词[7],本方法中取名词、动词、形容词和副词,得到以下三元组(O,W,wt,N)O为该词在句子中的位置;W为词语本身;wt为词语权重;N为该词的词性。    对于某个存在歧义的词语,如果根据该词语的词性能够进行区分则直接消歧输出;对于词性相同而概念解释具有多个,则根据句法分析得到与该词语所有关联的实词。    设歧义词w与其词性对应的有n个义项:R1,R2,∧Rn(n≥2),把每个义项按照义原进行分解为K1, K2…Kj(j≤6 因为知网中每个词语的义项定义最多包括6个义原),并去除那些没有区分能力的义原。通过依存句法分析取出歧义词所在句子中与其相关联的另外m个实词W1,W2,∧Wm(1≤m≤T-1)其中T是句子中所有实词(包括歧义词本身)的数目。设这m个实词分别有R1,R2,∧Rm个义项(Ri≥1,1≤i≤m),再把每个Ri按照义原进行分解Ki1, Ki2…Kij(j≤6),并令每个义原的初始权重为Weight(Kij)=1。    判断歧义词语的每个义原与关联词语的某个义原是否存在以下关系,这些关系在知网中均已定义:    A.相同义原                              B.材料-成品关系      C.施事/经验者/关系主体-事件关系    D.受事/内容/领属物-事件关系     E.工具-事件关系    F.场所-事件关系                       G.事件-角色关系     H.相关关系                              I.上下位关系     如果存在以上关系,那么歧义词语的相应义原权重加1,最后该义原所在义项的权重wt(Ri)。

              

    取K(K为歧义词所有义项中权重最大的项)所在的义项为最终歧义词语的消歧结果。

4.2 语义消歧过程伪代码

    1、根据依存句法分析得到与歧义词语所有关联实词的伪代码如算法4.1所示。    算法4.1 依存句法分析关联词语的算法    输入:带有词序的歧义词语W    输出:与歧义词语W相关联的词语Wm    函数体:    1)对整个句子进行依存句法分析   得到句子的独立成分和与这个独立成分相关联的    词语Wm四元组    2)对于带有词序的歧义词语W   IF W 与Wm 存在依存关系并且Wm是经过分词处    理得到的关键词   THEN return( Wm )   ENDIF    2、歧义词语义原权重调节算法的伪代码如算法4.2所示。    算法4.2 义原权重调节的算法    输入:义原比重相同的关键词w的四元组    输出:经调节的义项比重的关键词    函数体:    1)给词W的每个义项按照义原分解并分别把每个义原赋一初始比重    2)对于歧义词W关联的每一个关键词Wm  对于Wm中的与Wm词性相对应的义项Rm      对于Rm中的每个义原Kij             对于歧义词W的每个与W词性相对应的义项Rn                 对于Rn中的每个义原Kj           I           F Kij 与Kj 有上述关系 THEN Weight(Kij)= Weight(Kij)+1                 ENDIF

5  实验结果分析

    我们选择人民日报语料库作为实验语料,语料中共有800个句子,每个句子的长度为20-30字符。把以上的消歧过程在VC6.0中实现做以测试。消歧的正确率计算公式为:    消歧的正确率=得到正确消歧结果的词语总数/存在歧义的词语总数......(3)    消歧结果的正确与否是通过手工进行判定的。目前实验的正确率为90.6%。这表明我们提出的基于依存句法对歧义进行消解是有效的。实验中我们还对句子长度对消歧正确率的影响做了测试,如果句子的长度过短,那么消歧的效果将会下降,句子的长度过长,理论上会提高消歧的精度,但是依存句法分析主要是针对句子分析的程序,对于文本段落的分析,会降低依存关系的分析精度,从而降低词语消歧的准确率。    虽然该方法与基于统计的方法在计算复杂度和时间上具有明显的效率,但是也存在着一些问题。    (1) 义原的敏感性问题。由于该方法是基于多义词语义原与关联词语的义原关系进行的,故义原词语如何确定是一个关键问题。    (2) 知网本身的缺陷。目前知网尚未完全开放所有词条义项实例,在试验中我们手工地为部分词语添加义项实例,这不免会有一些主观倾向性,并且试验语料的数目比较有限。    (3) 扩大测试对象的范围。多义词消歧方法的系统评价是困难的,本文提出的方法需要进一步在大规模测试集进行检验。

6  结论

    本文提出了一种基于依存句法分析句子结构进行歧义消解的方法,这种方法不需要制定规则约束,而是通过关联词语的义原在知网中的关联关系来调整概念的趋向权重从而从多个概念中得到一个最优的结果。实例是用语言来表示的,可以很方便通过调整词语实例集的例子来达到一个比较好的排歧效果。同时我们采用的语义知识资源《知网》是专为自然语言处理而设计的,无论是词条数还是语义定义及分类体系都十分适用于自然语言处理。从实验的分析来看,基于实例的方法具有良好的歧义消解效果。

[1] 刘开瑛. 汉语全文检索中的义项标注技术研究. 计算语言学进展与应用. 北京: 清华大学出版社, 1995 [2] 刘小虎. 英汉机器翻译中词义消歧方法的研究. 哈尔滨大学[博士学位] . 1998 [3] 赵铁军等. 机器翻译原理. 哈尔滨: 哈尔滨工业大学出版社. 2000 [4]董振东,董强,“知网”,http://www.keenage.com,1999[5]刘海涛,依存语法和机器翻译. 语言文字应用. 1997, 3:89-93[6]郭艳华, 周昌乐. 一种汉语语句依存关系网协动生成方法研究. 杭州工业学院学报. 2000, 20(4):24-32[7]分词程序,天津市海量科技有限公司海量智能计算技术研究中心[8]依存句法分析部分源程序,哈工大信息检索研究室