mails.ucas.ac.cn邮箱:基于《知网》的汉语词语词义消歧方法
来源:百度文库 编辑:中财网 时间:2024/04/29 20:25:41
基于《知网》的汉语词语词义消歧方法
摘 要 本文提出了一种简单有效的词义消歧方法,该模型充分利用依存文法分析,从句子的内部结构,寻找词语之间支配与被支配的关系,借以确定能够对词语语义构成内在限制的词语。借助《知网》系统的实体关系,并结合与该岐义词相关联词语的义项,歧义词的义项权重,从而根据义项权重大小来判断歧义词的词义。 关键词 词义消歧;知网;语言处理;依存句法分析1 引言
自然语言中存在着大量的多义词,如何在给定的上下文中,确定其中各个词语在多个词义中选取正确的词义,是词义消歧所应解决的问题。如果多义词的多个词义之间具有不同的词性,则通过词性标注就可以确定该词词义。所以本文所说的词义消歧,是指如何在词性相同的情况下选择多义词正确词义的问题。 汉语词语的词义消歧开始于上世纪90年代后期,主要是利用词典提供的信息。出现了利用《汉语词典》释义文本、《同义词词林》、《知网》中的语义类,对实词多义进行消歧的方法,但是平均正确率并不是很高[1][2]。 近年来,随着计算机存储容量和运算速度的提高,通过对大规模语料库的利用,出现了许多基于语料库统计的词义消歧方法。使消歧的准确率有了一定程度的提高,但是有些低频词,在语料中出现次数不多,很难搜集到它们的上下文环境,存在着知识获取中数据稀疏以及自动学习算法的参数空间过大问题。 到目前,无论那种方法都没有很好地解决词义消歧问题[3]。其中一个重要的原因就是词义知识获取中的瓶颈问题,词义消歧知识库的质量已成为词义消歧成败的关键。 本文提出了一种基于《知网》的汉语词语词义消歧方法,该方法只考虑词汇句法之间的内在关联对特定环境中词义的贡献,借助依存文法分析来找出这种词义关联。假设不存在词义关联的上下文对于歧义词语的特定词义贡献为0,存在语法关联的上下文对词义的贡献相互独立。选择与歧义词汇存在语法关联的上下文作为模型中的特征值,这样做既可以减少无关上下文对词义消歧产生的噪音,又可以大幅度减少计算次数,在提高词义消歧准确率的同时,能够明显提高词义消歧的工作效率。2 语义资源《知网》简介
“知网”(Hownet)是董振东先生花费十年时间编辑而成的语义词典,也是一款供自然语言处理工作者免费使用的完全共享软件。知网是一个以汉语和词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库[4]。 知网作为一个知识系统,是一个网而不是树。它所着力反映的是概念的共性和个性,同时知网还着力反映了概念之间和概念的属性之间的各种关系。知网知识库主要包括:①中英双语知识词典;②义原分类源文件;③知网管理工具;④知网说明文件(包括词类表和标识符号说明) 等。本文采用的知网知识库文件主要有经过处理的①和②。2.1 义原分类源文件
在知网中,“概念”是对词汇语义的一种描述。每一个词可以表达为几个概念,其中每个词的每一个义项分别对应于一个不同的概念。而“义原”是基本的、不易于再分割的、没有歧义的最小单位。不同的义原组合构成了不同的概念定义。 《知网》一共采用了1500 多个义原,这些义原分为“Event|事件”等十多个大类、16种关系。在义原关系中最重要的还是上下位关系。2.2 中英双语知识词典
《中英双语知识词典》中一共收录了12万多条记录,而每一个词语用一条或多条记录来表示,每条记录的词典信息包括:NO.、W_C、G_C、E_C、W_E、G_E、E_E、DEF八项,例如“电脑”一词的概念的记录如下所示: NO.=21902 W_C=电脑 G_C=N E_C= W_E=computer G_E=N E_E= DEF= computer|电脑 其中NO.为概念编号,W_C、G_C、E_C分别是汉语的词语、词性和例子,W_E、G_E、E_E分别是对应的英语词语、词性和例子,DEF是知网对于该概念的定义。3 依存句法分析方法
依存句法是由法国语言学家L.Tesniere 在其著作《结构句法基础》(1959 年)中提出,对语言学的产生了深远的影响,特别是在计算语言学界备受推崇。依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中动词是支配其他成分的中心成分,而它本身却不受其他任何成分的支配,所有受支配成分都以某种依存关系从属于支配者[5]。 二十世纪七十年代,Robinson 提出依存语法中关于依存关系的四条公理,在处理中文信息的研究中,学者提出了依存关系的第五条公理[6]: 1. 一个句子中只有一个成分是独立的; 2. 其它成分直接依存于某一成分; 3. 任何一个成分都不能依存于两个或两个以上的成分; 4. 如果A 成分直接依存于B 成分,而C 成分在句中位于A 和B 之间,那么C 或者直接依存于B,或者直接依存处于A 和B 之间的某一成分。 5. 中心成分左右两边的其它成分相互不发生关系。对于第5条公理本方法中并没有采纳,因为当某一个歧义词语恰好出现在中心动词的一侧时,会割断与另一侧词语关联关系,从而影响歧义消除的效果。4 基于《知网》的语义消歧过程
4.1 语义消歧的体系结构
词义消歧的处理需要完成两个步骤:(1)对已经完成词性标注的句子利用知网查出每个词语所有可能词义集合;(2)从该集合中选出正确词义。本方法的体系结构如下:图一 基于《知网》的词义消歧模型
首先对待分析的句子进行分词、词性标注,去掉一些无关的虚词,提取出关键词[7],本方法中取名词、动词、形容词和副词,得到以下三元组(O,W,wt,N)O为该词在句子中的位置;W为词语本身;wt为词语权重;N为该词的词性。 对于某个存在歧义的词语,如果根据该词语的词性能够进行区分则直接消歧输出;对于词性相同而概念解释具有多个,则根据句法分析得到与该词语所有关联的实词。 设歧义词w与其词性对应的有n个义项:R1,R2,∧Rn(n≥2),把每个义项按照义原进行分解为K1, K2…Kj(j≤6 因为知网中每个词语的义项定义最多包括6个义原),并去除那些没有区分能力的义原。通过依存句法分析取出歧义词所在句子中与其相关联的另外m个实词W1,W2,∧Wm(1≤m≤T-1)其中T是句子中所有实词(包括歧义词本身)的数目。设这m个实词分别有R1,R2,∧Rm个义项(Ri≥1,1≤i≤m),再把每个Ri按照义原进行分解Ki1, Ki2…Kij(j≤6),并令每个义原的初始权重为Weight(Kij)=1。 判断歧义词语的每个义原与关联词语的某个义原是否存在以下关系,这些关系在知网中均已定义: A.相同义原 B.材料-成品关系 C.施事/经验者/关系主体-事件关系 D.受事/内容/领属物-事件关系 E.工具-事件关系 F.场所-事件关系 G.事件-角色关系 H.相关关系 I.上下位关系 如果存在以上关系,那么歧义词语的相应义原权重加1,最后该义原所在义项的权重wt(Ri)。
取K(K为歧义词所有义项中权重最大的项)所在的义项为最终歧义词语的消歧结果。