刘德凯岳翎吻戏:视音频信息自动标引与检索技术

来源:百度文库 编辑:中财网 时间:2024/05/06 20:45:50
cici 发表于 2006-2-17 20:25:00

京中科大洋科技发展股份有限公司 陈 旭

一、前言

媒体资产管理系统中有两个非常重要的模块,即编目检索模块。所谓编目就是编制目录。它是建立在信息标引的基础上的。也就是说,要将信息有序的组织起来,提供检索,首先要对信息资源的形式及内容特征进行分析、选择和记录,并赋予某种检索标识,这个过程称之为标引;然后再将这些描述信息按照一定的规则有序化的组织起来,这个过程就是编目。编目是检索的基础。

视音频信息的标引主要包括两个方面的内容,一个方面是关于磁带、录像带等载体的形式特征信息或者是数字化视音频信息的数据格式信息(如,磁带或录像带类型、视音频码率、文件格式等),另一个方面就是视音频本身反映的内容信息(如,题名信息、主题词信息、分类信息等等),在分析的基础上,选择、记录有价值的或者是具有检索意义的信息,从而实现对视音频资料的描述。

由于视音频信息的多维特性,使得视音频信息标引的难度加大,工作量剧增。另外随着我国新闻、影视业的快速发展,我国的视音频信息正在成倍的增长,每天的数据量都是相当可观的。这对视音频的编目标引工作而言是一个巨大的挑战。每天要处理数量很大的视音频资料需要大量的人力物力。因此,利用计算机来辅助人们从事复杂的视音频信息的标引工作是非常必要。目前有的系统部分地实现了计算机自动编目,主要采用了如下的一些技术,包括视频中的字幕识别、语音识别及转换为文本、自动提取关键帧、镜头自动切割等。在字幕识别和语音识别,然后转换为文本的基础上,我们可以进行更深层次的自动标引工作,即对视音频信息内容的提取与提炼。下面将重点介绍基于内容的视音频信息自动标引和检索技术。

二、自动标引技术

1.自动分类

自动分类标引就是由计算机代替人工对视音频信息进行分类,赋予其分类标识,以描述视音频信息主题内容的过程。先分析被分类的视音频对象的特征,然后将其与一个分类表或一个分类标准进行比较,最后将被分类的视音频对象划归为特征最相近的一类,并赋予相应的分类号。当然,视音频信息的自动分类目前仍然需要建立在有文本的基础上的。自动分类一般经过如下几个过程:

1)文本的向量化表示。在对文本数据进行学习或分类前,需要把它表示成向量形式。它的处理方法是:对所有训练文档进行分词处理,统计每个词的文档出现频率等信息,然后构造每篇文本的向量。对文档进行分词,得到一个词集合,对词进行词频统计,同时过滤停用词,剔除虚词,如语气词、副词、介词、连词等,以及把出现频率低于一定范围的词排除掉。由于单字词在分类时候不是很重要,也被过滤掉了。由于分词算法的限制,文档有很多具有分类价值的词或短语没有被识别出来,如人名、地名、组织结构名称等。为了提高分类的准确率,需要扩展分词词典,现在有很多分词词典都具有一定的开放性,允许进行扩展。

2)特征抽取。特征抽取是文本分类中最重要的问题,它具有降低文本向量空间维数、简化计算等作用。利用评估函数对特征集中的每个特征独立计算评估值,然后对所有特征根据评估值大小进行排序,选取预定数目的最佳特征作为结果的特征子集。在进行特征抽取时,程序在一定范围内,自动地选择不同的阈值,对特征进行过滤,然后进行分类测试。根据最后分类的效果,选择最佳的特征过滤阈值。

3)分类器。分类器的功能是根据一个文档的特征向量,计算该文档的类别。包括Naive Bayes法、Rocchio法、kNN方法、决策树、神经网络法、支持向量机SVM、基于投票的方法和线性分类算法等。

自动分类的具体过程如下(参见图1):

(1) 首先把训练语料分成正反两种类型(属于该类或不属于该类),然后统计文档的词(词串)的词频,得到一个词频统计文件。

(2) 根据词频统计文件,计算每个词的特征值。

(3) 选取特征值最大的前n 个词(词串)作为特征。对训练文档进行处理,构造每个文档的特征向量,得到一个特征向量的训练文件。

(4) 采用分类器反复进行训练,选择合适的分类阈值大小,以及特征集合的大小n,以达到最优化的分类效果。

(5) 对每个类重复以上(1)~(4)的步骤。

2.自动抽词

自动抽词标引是自动从文本中抽取词或短语来表达文本主题内容。在手工标引中,标引员一般会尽量选择那些能很好指示文本内容的词或短语作为标引词。影响他们选择时做出决策的因素有:词语在文本中出现的频率,词语在文本中出现的位置(如标题中、文摘中、图表解说词中等),词语的语言环境等。而自动抽词标引主要是靠计算机来完成的。计算机要完成这项任务,某种程度上需要模仿人类的思维过程。所以根据自动抽词标引时所采用的标准,可以分为下面几种:

1)绝对频率法

由计算机程序将文本与停用词表对照,除去非名词(冠词、介词、连词等类似的词类),然后计算出某一文本中词语出现的频率,再将词语出现的频率进行排序,排在最前面的词为“高频词”,被选作文本的“标引词”。

当在某一数据库范围内进行考察时,绝对频率法具有一个很明显的缺点,就是虽然一些词语在某一文本中经常出现,但同时在整个数据库中也经常出现,那么,根据绝对频率法抽取出来的这些高频词可能无法很好的区分数据库中的不同文本。从检索角度而言,这些高频词可能并不具有检索意义,它们会降低文本的查准率。举一个典型的例子:在政治新闻数据中,“中国”和“中共”出现的次数很多,但它们并不能很好的区分这个文本集合中的单个条目。而“信访调研”可能出现的次数很少,但它却比“中国”和“中共”这两个词更能区分文本集合中的不同文本。所以,它将是一个很具有检索价值的词。而在使用绝对频率法进行抽词标引时,“信访调研”因为在文本中出现的次数较少,而很有可能被遗漏。为了弥补绝对频率的这种不足,可以采用相对频率法。

2)相对频率法

从上文可以看出,一个词在文本中出现的绝对频率并不是计算机在处理文本时唯一需要关注的频率。有时,这个词在整个数据库中出现的频率甚至更为重要。当某个词或短语在一篇文本中出现的频率高于它们在整个数据库中出现的比率时,这个词或短语就可以被选作标引词,这就是所谓的相对频率法。例如,某个词在含有10,000,000个词的数据库中只出现了大约5次,在一篇5,000字的新闻文章中只出现了一次,但因为它在文本中出现的频率1/5000,高于它在整个数据库中出现的比率1/2000000,所以这个词将被选作这篇新闻文章的标引词。

使用相对频率法不必使用停用词表。那些经常出现的名词以及所有的介词、连词、冠词等虽然会在个体的条目中频繁出现,但它们也会在整个数据库中频繁出现,因而它们将自动被排除出去。

相对频率法比绝对频率法更为复杂,因为随着新的文本不断的加入到数据库中来,计算机程序需要不断的计算出每个词在数据库中出现的频率(与出现在数据库中的词语的总数量有关),并比较这个出现频率与每个词在某一特定文本中出现的频率。

基于相对频率从一篇文本中抽取出来的词或短语会不同于基于绝对频率抽取出来的词或短语。因为利用相对频率法可以抽取出来那些在某一特定文本中出现次数较少(或许只有一次),但在整个数据库中出现的比率更小的词,而不会抽取出那些在一篇文本中经常出现,在整个数据库中经常出现的词。利用绝对频率法所产生的结果则与之相反。但它们所抽取的多数词将会是相同的,不会有本质上的差别。因为为了实现有效的信息检索,我们不仅希望选择的标引词能够很好的区分不同的文本,还希望能够形成有效的文本聚类,实现族性检索。

3)位置法

利用词语在文本中出现的位置来进行选择。例如,从标题、文摘、图表解说词、主题句中进行词语的抽取。一般说来,出现在标题中的名词和动词表达文章主题的能力比出现在正文中的其他词要强。另外,主题句中的关键词也能很好地表达文本的内容。在进行自动抽词标引时,可以只处理每一段的第一句和最后一句。有研究已经表明,第一句是“主题句”的比率为85%,最后一句是“主题句”的比率为7%。而这里所说的“主题句”是指能够提供有关文本内容的最多信息的句子。

3.自动赋词

大多数人工标引不是抽词标引而是赋词标引。所谓赋词标引就是从某种形式的受控词表中选取词语来表达文本主题内容。自动赋词标引则是指由计算机来自动完成这一过程。它与自动抽词标引的最大的一个区别就是,所使用的标引词来自于某一受控词表,而不是来自文本本身。

1)基于关联词表

基于关联词表的自动标引过程包括下面两个环节:

为受控词表中的每一个叙词建立一个关联词表。也就是这个叙词的同义词和相关词。当对一篇文本进行标引时,利用计算机根据词频法从文本中抽取出来的重要的词语,与受控词表的关联词表集合进行匹配,当某个叙词的关联词表与之匹配超过一定阈值时,就将这个叙词赋予这篇文本。

2)基于中介词典

在进行赋词标引时,使用一个中介词典(如语义词表),与文本中的词进行匹配,同时将中介词典的词与某一个主题词表的词进行对应,这样通过中介词典,就可以将文本词指引向受控词表中的词。利用中介词典虽然可以将自然语言词转换为受控词表词,但中介词典的覆盖面一般比较小,难以编制一个能满足各方的词典,所以利用中介词典进行的自动赋词标引一般会局限于某一特定的学科领域。
事实上,大多数的自动化标引系统不是真正“自动化”的,也就是说不是由计算机来代替人类的工作,而是趋向于由计算机来辅助人类标引员。这就是所谓的“机助”标引系统。一般来说,机助标引主要有以下两种方法:

(1)用计算机提供各种类型的联机显示,并辅助标引员。实时的识别标引员的错误(例如,使用非标准词或使用主标题词/子标题词的无效组合),并立即通知标引员。

(2)利用计算机程序阅读文本(可能只有标题或文摘),通过抽词程序或赋词程序选择标引词。然后由人类标引员来检查被选定的词。标引员可以进一步的增加计算机不能分配的词,或删除程序错误分配的词。

4.自动摘要

所谓自动摘要就是利用计算机自动地从原始文献中提取文摘。自动摘要的目标就是“从信息源中提取内容,采用压缩的形式和与用户(或应用)需求相关的方式,将最重要的内容呈现给用户”。在文本检索中,自动摘要有助于用户快速评价检索结果的相关程度。自动文摘主要可以分为两种:一是自动摘录(Automatic Extration),另一个是自动文摘(Automatic Abstraction)。

自动摘录(Automatic Extration)就是通过从源文本中提取句子的方法,生成文摘。目前研究的比较多的是基于语料库的句子提取方法。自动摘录(Automatic Extration)虽然实现起来比较简单。但是如何将提取出来的零散句子组成连贯的摘要是一个无法回避的问题。

自动文摘(Automatic Abstraction)不同于自动摘录(Automatic Extration)的主要特点在于: Automatic Abstraction含有输入文本中所没有的句子。所以,为了构建一个abstract,人或机器需要理解原文本。因为基于abstraction 方法的智能程度要比extraction 高,所以也更为困难。几种常用的自动文摘(Automatic Abstraction)方法:样板法、Term 重写法、事件关系法、概念分级法。

下面将详细地介绍自动摘录(Automatic Extraction)的方法和步骤:
自动摘录(Automatic Extraction)将文本视为句子的线性序列,将句子视为词的线性序列。它通常分4步进行:

1)计算词的权值。进行自动摘要学习前需要进行文本的向量表示,主要采用词集表示法和词串表示法。然后对词进行词频统计,同时过滤停用词,剔除功能词,如语气词、介词、连词、助词等。对于词频少于1的词,可以将其过滤。并按词频大小对词或词串进行排序。词的权重由词在当前文档的相对词频和在训练文档库中的词频共同决定。

2)计算句子的权值。在自动摘录中,选择文摘句的依据有下面几种: 
● 有效词数量。能够指示文章主题的词称为“有效词”。任何文献中都有不少"介词"、"连词"、"助词"等虚词。这些词在一般情况下,都不是有效词。对实词,其作为有效词的价值也是不同的,可给予不同的价值。有效词往往是高频词。根据句子中有效词的个数可以计算句子的权值,这是自动摘录方法的基本依据。 
● 标题。标题是作者给出的提示文章内容的短语,标题中出现的有效词需要特别加权。出现这些有效词的句子也需要特别加权。
● 位置。有调查显示:段落的论题是段落首句的概率为85%,是段落末句的概率为7%。因此,需要提高段落首句的权值。另外,文献中用括号括起来的部分,如:XML(可扩展标记语言);用破折号引出来的部分,如“数据的自动识别输入--条码技术”;用“所谓”所引出的部分,如"所谓的有效词",其中的实词往往也应当给予特别的加权。
● 句法结构。句式与句子的重要性之间存在着某种联系,比如文摘中的句子大多是陈述句,而疑问句、感叹句等则不宜进入文摘。
● 指示性短语。各种"指示性短语"如"本文讨论了"、"综上所述"等所在的句子往往是很好的文摘候选句。因为其中往往高度地概括了文献主题。

以上五种特征是自动摘录的依据,它们从不同角度指示了文章的主题,但都不够准确全面。将上述各种特征结合起来综合加权,就能够提高摘录的质量。

3)对原文中的所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句。

4)将所有文摘句按照它们在原文中的出现顺序输出。 (未完待续)