冰封惠子扮演者:科学网—至今才悟到的一些基本问题

来源:百度文库 编辑:中财网 时间:2024/04/29 02:06:18
拜读武夷山老师的博文《科学计量学、科学史和情报学的历史联系》,勾起了我对学科之间关系的兴趣,于是禁不住把自己的想法也一吐为快。呵呵,不怕您笑话,这么简单的问题,我到今天才考虑出来点眉目。无论是信息计量学,文献计量学,还是科学计量学,其主要活动就是数数,掰手指头或者打算盘都行。从命名的原则上讲,“信息”、“文献”是数数的对象,而“科学”则是说这种计数活动的应用对象。这样一想,其实本身是一个活动(计数)的两个方面,如同小姑娘总要在不同场合穿不同的衣裳。尽管文献计量学历史悠久一些,信息计量学和科学计量学提出的似乎晚一点;尽管有着三大定律(洛特卡、布拉德福、齐夫)和两大规律(增长和老化),以及引文分析,看着似乎很繁杂,但是,从应用的角度考虑,我个人认为文献计量学能解决的无外乎两件事:(1)科学结构的分析,某个专题领域的研究主题,无论是用论文的同被引分析,还是主题词/关键词的共词聚类分析,还是作者同被引分析,甚至引文年代分布,都是通过对文献计数的方法展现科学研究活动的基本状况的,这当然属于科学计量学的了。(2)绩效评价:科研单位和个人乃至国家的科研活动成果评价,比如发表文献量,被引用数量,当然可以扩大到国家层次上,也可以缩小到期刊水平上,这些研究不是科学计量学又是什么呢?所以,从应用对象而言,文献计量学就是科学计量学的一个组成部分,甚至可以说文献计量学仍然是科学计量学到目前为止的主要的研究手段。如果深入一点儿,不是以整篇文章作为计数单位,比如从文章中抽取出来主题词,或者概念,或者知识,以及这些东东直接的关系,那就可以说是信息计量学了,只不过进展不大,后来又被数据挖掘所侵占了。这就又涉及到了文本挖掘的问题了,我一直也困扰,从1986年,在武汉大学听邱均平老师的第一堂课开始,我一直从事文献计量学的研究,这些年来改称自己研究的领域是“数据挖掘和知识发现”,其实有赶时髦的嫌疑,自己心里也嘀咕,自己所研究的还不就是文献计量学那一套吗?虽然我对数据挖掘的定义、文本挖掘的主要任务,乃至文本挖掘在生物医学领域的主要研究方向达到倒背如流(主要是为了讲课用),但是,心里还是害怕别人问这个问题的。后来,一个具体的例子让我对二者的区别有了些许的领悟。一个难缠的学生,给我提出这样一个问题:影响健康公平研究的主要外因有哪些?希望我用情报学的方法来解决之。我最初自然的联想就是找到有关于健康公平的文献,抽取其中概念以及概念间的联系,形成一个规则或者模板,然后返回到大的文献集合中,找到答案。结果发现,得到的是影响健康公平的因素,而不是影响健康公平研究的因素。这就是文献计量学和文本挖掘的分别:寻找影响健康公平研究的因素,实际上是文献计量学或者科学计量学的任务,是对一个学科发展状况的分析,所以还是要从文献计量学中寻找办法;寻找影响健康公平的因素,则是文本挖掘的任务,如同目前在生物信息学领域大量出现的论文中涉及到的蛋白间作用,基因与疾病关系等等一样的(这个基因能引起哪些疾病?)。我也做过阿司匹林有哪些副作用的分析,只是那时候对学科间的关系还是稀里糊涂的。最后,重温一下生物医学领域的文本挖掘的主要任务:2005年,Aaron M. Cohen and William R. Hersh. A survey of current work in biomedical text mining. BRIEFINGS IN BIOINFORMATICS. VOL 6. NO 1. 57–71. MARCH 2005(1)       命名实体识别(Named Entity Recognition ):识别出文献集中某一种事物的各种名称,比如某一组期刊论文中所有的药物名,一组MEDLINE文摘中基因名称和符号。(2)       文本分类(Text classification):自动判别一篇文献是否具有某种特性,一般是指该文献是否讨论某一个主题或者含有特定类型的信息。(3)       同义词或者缩略语抽取(Synonym and abbreviation extraction):主要是未发现的基因名称同义词或者缩略语的抽取。(4)        关系抽取(Relationship extraction):发现特定一对实体之间有某种预先设定好的关系,比如基因,蛋白或者药物之间的各种生物医学关系或者特定的某种关系(如调控关系)。(5)       形成假说(Hypothesis generation):基于Swanson的非相关互补文献的发现。(6)       集成系统平台(Integration frameworks):TXTGate,PubMatrix,Textpresso等。2007年,Pierre ZweigenbaumDina Demner-FushmanHong YuKevin B. Cohen. Frontiers of biomedical text mining: current progress. Brief Bioinform. 2007 September ; 8(5): 358–375.(1)从文本中抽取事实(EXTRACTING FACTS FROM TEXTS)(1.1)识别命名实体(Named entity recognition)(1.2)确认生物医学实体关系(Identifying relations between biomedical entities)(2)基于信息抽取的研究(BEYOND INFORMATION EXTRACTION)(2.1)总结(Summarization):自动总结文本的内容,确认一篇或者多篇论文的最重要的内容,并简洁规范地表示之。(2.2)处理非文本资料(Processing non-textual material):用图像分析技术和自然语言处理技术来分析图表以及图表相关的文字,或者处理特殊类型的文字,比如化合物。(2.3)回答问题(Question answering):高精度的文献检索,给出简短的回答,提供支持材料和链接。(2.4)基于文献的发现(Literature-based discovery):还是Swanson的研究。(3)评估系统和面向用户的系统(ASSESSMENT AND USER-FOCUSED SYSTEMS)(3.1)注释文本集和大规模评价(Annotated text collections and large-scale evaluation):用于评价文本挖掘系统的语料库等等。(3.2)了解用户需求(Understanding user needs):在系统开发过程中考虑到用户需求、行为以及与系统工具的相互作用,以此来判断生物医学信息学服务和工具是否必须和有用。比如对FlyBase数据库的开发中就利用了对用户行为的观察和用户反馈信息。通过对上面的两篇文章的分析汇总,我们大致可以归纳出,在生物医学领域 ,文本挖掘主要内容就是(1)文本挖掘的基本技术,如命名实体识别和关系抽取;(2)以文本挖掘基本技术为基础,开展的应用性的研究;(3)有关系统的开发和评价研究。对了,下面是一个文本挖掘的入门读物,很简单,有兴趣的同行可以看看:K. Bretonnel Cohen, Lawrence Hunter Getting Started in Text Mining.PLoS Computational Biology, 2008,4( 1): e20.( www.ploscompbiol.org)