玉脸紫儿:技术支持的文献研究法——数字化教育研究的一个尝试

来源:百度文库 编辑:中财网 时间:2024/05/05 21:55:48

魏顺平:技术支持的文献研究法——数字化教育研究的一个尝试


( 2011年10月31日)

  一、数字化研究的兴起

  当今时代,信息技术的蓬勃发展给人们的学习、工作、生活等各方面带来深远影响,科学研究领域也不例外。随着科学研究工作者将信息技术特别是计算机技术和网络技术在科学研究领域的不断应用,一个新的研究取向逐渐形成,即e-Research。关于e-Research,有“数字化研究”和“信息化科研”两种译法,本文采用“数字化研究”这一译法。下面我们来了解一下已有的有关数字化研究的表述。

  数字化研究(原文使用“信息化科研”一词)是指信息技术所“使能的”科学研究实践,信息技术的作用体现为:通过新一代基础设施提供可共享的高性能计算资源,通过海量的数据存储技术提供分布式数据库服务,以及在此基础上的协同研究的虚拟环境支持(Sargent,2006)(转引自顾小清,2008)。来自国内一篇博文关于数字化研究的描述如下:与E-Learning类似,e-Research有电子化研究、数字化研究和网络化研究的涵义,可以理解为现代信息技术支持的网络环境下研究活动形式、过程与内容的统称,具有多种表现形式,如:采用现代信息技术支持的研究工具和方法;使用计算机进行研究数据搜集、分析和处理;通过网络组织合作/协作研究;合作/协作研究网络环境或平台;提供电子化研究资源;具有网络特定性质的研究活动等(e-Research,2010)。与e-Science相比,数字化研究(e-Research)侧重于信息技术对研究过程与研究活动的支持,以及信息技术为科学研究所提供的新的可能性及方法(Anderson & Kanuka,2002)。

  另外,国外研究人员还提出了数字化研究的发展阶段。英国National Centre for e-Social Science的Peter Halfpenny提出信息技术在社会科学研究中的三种应用,信息技术在科研领域的应用经历了以下三个发展阶段(Halfpenny,2007):一是对技术的研究(research on technology)阶段;二是利用技术开展研究(research using existing ICTs)阶段,如计算机辅助的访谈、技术支持的数据分析、社会性网络分析等;三是技术使能的研究(research enabled by e-infrastructure)阶段,如数据挖掘、数据处理、数据整合、数据分析、协同研究、模拟、可视化等。

  目前数字化研究正处在第二发展阶段,即利用技术开展研究阶段,并且第三发展阶段也初见端倪。要在数字化研究中利用好信息技术,我们需要对信息技术在社会科学研究中所扮演的角色有一个清晰的认识。顾小清(2008)认为,数字化研究(原文使用“信息化科研”一词)包含两大特点:资源共享和协同工作。从已有定义的描述来看,数字化研究中信息技术的作用也主要体现在资源共享和协同工作。这实际上只是说到了发挥信息技术通信功能的一面。而信息技术计算功能的一面却被忽略了。信息技术通信功能体现在合作科研方面,例如资源共享、协同工作;而信息技术的计算功能体现在数据收集、数据分析、数据呈现等方面。本文将重点论述计算技术在教育科学研究中的应用,以求对推动数字化教育研究有所启示。鉴于文献研究是所有研究都不可缺少的环节,笔者将以信息技术对已有文献研究法的改进为切入点,探索数字化研究中信息技术计算功能如数据挖掘、可视化的应用方式。

  二、文献研究法概述

  文献研究法主要指搜集、鉴别、整理文献,并通过对文献的研究,形成对事实科学认识的方法(孟庆茂,2001)。文献研究法是一种古老而又富有生命力的科学研究方法。没有一项教育科学研究是不需要查阅文献的。

  文献研究法的一般过程包括五个基本环节,分别是:提出课题或假设、研究设计、搜集文献、整理文献和进行文献综述。搜集研究文献的渠道多种多样,搜集教育科学研究文献的主要渠道有:图书馆,档案馆,博物馆,社会、科学、教育事业单位或机构,学术会议、个人交往和计算机互联网(internet)。文献的整理是文献研究法的重要环节和内容。它包括对文献的阅读、记录、鉴别、分类处理和制定文献综述。文献综述是文献综合评述的简称,指在全面搜集有关文献资料的基础上,经过归纳整理、分析鉴别,对一定时期内某个学科或专题的研究成果和进展进行系统、全面的叙述和评论。

  三、技术支持的文献研究法

  随着数字图书馆技术和数字出版技术的不断发展,人们存储文献和利用文献的方式已发生了很大变化。文献存储和获得方式的变化大大影响了文献研究的一般过程,特别是文献研究的后三个环节。当前,教育研究中的一些主要文献特别是学术期刊、统计报表均以数字化的形式存储,发布在互联网上供检索使用,并实时更新。各类学术书籍、工具书也通过各类数字图书的形式呈现出来。这些期刊、统计报表、学术书籍、工具书均以一定的统一格式存储在数据库中,利用各种检索方法和数据处理方法,我们可以批量获取这些文献基本信息并存储起来,然后借助数据查询语言和文本挖掘技术可对这些文献信息进行呈现方式转换,达到整理文献、系统全面的叙述和评论文献的目的。下面就来介绍文献数字化存储与传播的背景下,借助技术手段开展文献研究的一般过程,如图1所示。


  文献搜集:编写检索语句,提高文献搜集的全面性和准确性

  当前,大家常用的搜集文献方法就是从期刊网上搜集期刊论文,以了解最新研究成果。中国知网(CNKI)的中国期刊全文数据库是较为常用的期刊数据库。本文以该数据库为例阐述文献研究的开展过程。

  一般而言,大家在介绍自己的文献搜集结果时会这样描述:“在中国期刊全文数据库中检索XX,得到XX篇论文”。这种表述让读者很难重复这一检索过程,因为不清楚所指的检索字段,也不清楚检索的年限以及检索发生的时间。笔者认为,做文献研究,首先是要找到所有相关文献,其次是找准所需的文献,最后是让他人也能重复这一检索过程。采用中国期刊全文数据库的专业检索功能可以使文献检索结果更全面、更准确,也使文献检索过程能为他人所重复。下面以搜集“协作学习”研究相关的文献为例,介绍专业检索功能的使用。当我们进入“中国期刊全文数据库”时,默认打开的是“标准检索”页面。此时单击页面右上角的“专业检索”链接,即可进入专业检索页面。在专业检索页面中输入如表1所示的检索语句,返回191篇论文记录(时间范围自1999年到2007年)。


  在该检索语句中,检索词使用了“协作学习”、“合作学习”、“协同学习”、“CSCL”等多个,因为“协作学习”有多种表述方式,这样采用多个同义术语同时作为检索词的做法可以保证文献搜集的全面性。检索的期刊范围限定在教育技术研究领域的8个主要学术期刊,这是因为关于协作学习尤其是CSCL的研究多集中在教育技术领域,这样能保证文献搜集的准确性。并且这一文献检索过程是可重复的,读者将表1中的检索语句复制并拷贝到专业检索框中,设定时间范围,即可获得相同的检索结果。可重复性是严谨的科学研究的一个重要特征,通过编写检索语句可使文献研究法一定程度上具备这一特征。

  文献整理:利用信息抽取技术和数据库查询语言变换文献呈现形式,提高文献整理效率

  在过去,文献整理主要以手工笔记的方式完成,有“标记与批语式”、“抄录式”、“提要式”、“札记式”,费时费力,且不利于今后再利用,并且如果文献量庞大的话,很难实现对文献的一个整体认识。随着文献数字化存储和传播的到来,研究者所能得到的文献是海量,如果还是利用手工的方式(只不过用WORD文档替代了笔记本)进行文献整理,显然是不相匹配的。所幸,文献的数字化存储也就意味着文献的格式化存储,每篇文献的存储形式都是一样的,因为我们可以对这些文献进行批量整理,并迅速统计得出当前所掌握的文献的总体情况。有时,我们为了提高文献整理的效率,在最开始的时候,并不会逐一阅读所获得的文献全文,而是先浏览标题和摘要。因此,我们在借助中国期刊全文数据库开展文献研究的时候,可以批量获得文献的标题和摘要信息,存储在自己的计算机中,进行快速浏览和整理工作。

  在中国知网(CNKI)中国期刊全文数据库的专业检索页面输入某检索语句,可得到如图2所示的检索结果,有10211条论文记录。面对如此众多的文献,纯手工的文献整理方法显然是不适用的。势必要借助计算机技术来辅助人们整理这些文献信息。


  通过单击上图中的“全选”按钮,然后单击存盘按钮,我们便可以得到所选论文的题录信息如标题、摘要、关键词、作者等的呈现页面,其片段如表2所示。


  原始的文献题录信息如表2所示,各种信息混同在一起。这里我们采用信息提取技术,通过总结每类信息的呈现规则,如文献标题以“题名”开始、关键词信息以“中文关键词”开始等,并用正则表达式将这些规则表达出来,以便计算机程序能够理解这些规则。然后按照规则编写计算机程序来批量处理这些题录信息,将各种信息分项存储到数据表中,得到文献题录信息表,其片段如表3所示。


  如表3所示,将我们所找到的文献以统一的格式存储到我们本地机器的数据库中,应该算是初步完成了文献整理工作。在表3的基础上,研究人员通过编写数据库查询语句或者使用EXCEL的各种数据处理功能,可对文献进行更为深入的整理,如统计这一批文献的年度分布、期刊分布以及从事这一类研究的主要作者。随着同主题文献信息的不断积累,研究人员可以形成自己的研究专题数据库,为自己今后反复利用这些文献、深入分析这些文献带来方便。同时,采用信息抽取技术和数据库查询语言,可在几分钟内完成成千上万篇的文献基本信息的整理,大大提高了研究效率。

  文献综述:利用文本挖掘技术分析文献文本,开拓文献综述的新形式

  一般情况下,文献综述主要是通过人工阅读的方式,摘取文献中的一些重要观点,并进行系统、全面的叙述,之后加以评论。在文献数字化存储的条件下,我们可以采用自然语言处理技术,让计算机来辅助我们“阅读”大批量的文献,从总体上呈现一些事实和关系,而后在此基础上进一步聚焦到一小部分文献进行人工阅读,势必能大大提高文献综述的效率和效果。我们知道,文献研究的主要目的是“了解前人已取得的成果、研究的现状”,这些“成果”、“现状”其实就是“前人”所创造的知识,文献综述的一个重要任务就是要将这些前人创造的知识全面、准确的呈现出来。笔者认为,知识的元素是概念,知识的本质是概念及概念之间的关系。因此,我们可以从概念及概念间关系的角度来开展文献综述工作。术语是专业领域中概念的语言指称。术语和概念之间应一一对应,那么关于概念及概念间的关系的分析可以转换为术语及术语间的关系的分析。我们可以采用术语提取算法(傅骞,魏顺平,王斌,路秋丽,2008)从文献的题录信息提取得到所包含的术语,并采用共现分析法(魏顺平,2008)来计算术语间的关系,最终可以高频术语和术语网络关系图的形式来呈现已有研究所创作的知识,一定程度上达到了文献综述的要求,开拓了文献综述的新形式。

  四 应用案例

  为了完整展现上述技术支持的文献研究法的操作过程,下面以“远程教育中的评价”这一研究主题的文献研究作为应用案例,以使读者有一个直观的认识。

  文献搜集:下载题录信息


  在中国期刊全文数据库中输入如表4所示检索语句,时间范围设定为1999年至2007年,期刊类型选择“核心期刊”。共得到86篇文献,并下载题录信息。

  文献整理:拆分文献摘要和提取术语

  将这86篇论文的题录信息,采用信息抽取技术,转存到文献信息数据表中。在文献信息数据表的基础上进行文献的年度分布情况查询,得到如图3所示结果。


  从图3中可以看出,“远程教育中的评价”得到了更多关注。接着采用自然语言处理技术对文献题录信息中的摘要进行分句操作,并提取题录信息中存在的术语,得到句子数据表和术语数据表,然后用术语数据表对句子数据表进行分词操作,得到“句子-术语”对应表。

  文献综述:发现高频术语,绘制术语网络关系图

  (2)发现高频术语

  在“句子-术语”对应表的基础上,我们计算得出86篇文献共有术语284个,其中频次排名前30位的术语如表5所示。


  从表5可以看出,当前“远程教育中的评价”领域,“教学质量”、“网络学习”、“网络教学”是主要的关注对象,应该也是评价对象,并强调“评价模型”、“评价体系”、“评价系统”、“评价指标体系”的建立,“电子学档”应该是最为常用的评价工具和方法,其他的工具还有“评价量规”,常用的评价方法还有“形成性评价”和“综合评价”。通过列举高频术语,就是我们对文献调研的领域“远程教育中的评价”关注重点和话语体系有了一个概要的认识,为我们进一步开展有针对性的文献研读指明了方向。

  由于我们的文献研究重点是发现评价相关知识,那么我们可以再来看看284个术语中以“评价”结尾(即以“评价”为中心,可视为“评价”的下位概念)的术语,如表6所示。


  这38个术语中,依据术语的短语结构(主谓式和偏正式),可将这些术语分类两大类,其中主谓式术语中,主语其实是谓语“评价”的对象,这些术语如表7所示:


  从表7中的术语,我们可以对当前“远程教育中的评价”领域所关注的对象有一个概要的了解,这些对象包括各类“学习”、“教学”、“教育”、“资源”以及“学校”。

  在偏正式术语中,修饰成分表明“评价”的方法或手段(“自我评价”和“专家评价”属例外),这些术语如表8所示(每一行表示更细的分类)。


  从表8中的术语,我们可以对“远程教育中的评价”领域已经采用的评价方法或手段有一个概要的了解,这些方法或手段包括“电子档案袋”、“量化”、“模糊”、“网络”等。

  (2)绘制术语网络关系图

  通过频次来了解术语的重要性只是对“远程教育中的评价”知识体系的构成元素的认识,要想获得对该知识体系较为全面的认识,我们必须借助绘制术语网络关系图。笔者选取术语频次排名位于前50的术语,并计算这50个术语的共现关系,然后使用UCINET软件绘制网络图,以直观的形式展示术语之间的共现关系,得到的结果如图4所示。


  从图4中可以了解到,这50个术语中绝大部分术语是直接关联或间接关联的,“网络学习”、“教学质量”、“评价模型”、“学习评价”等术语处在较为核心的位置。其中,与“网络学习”有关系的术语有“电子学档”、“评价量规”、“形成性评价”、“评价体系”、“评价模型”、“评价模式”、“评价指标体系”等,这就给我们关于“网络学习”评价研究的一个概貌。如果我们想进一步了解与“网络学习”相关的术语,从而对“网络学习”的评价研究有一个更全面的认识,我们可以进一步以“网络学习”为中心绘制共现关系图,得到如图5所示结果。


  如图5所示,我们可以看到与“网络学习”相关的所有术语。从图5中可以看到,围绕“网络学习”,所采用的评价方法有形成性评价、总结性评价、模糊评价、自我评价、互评、多元评价、模糊综合评价;评价手段有量规、电子学档等。为了更为深入的了解“网络学习”的相关内容,此时我们可以查阅86篇文献中与网络学习相关的文献,得到如表9所示。


  借助表9,研究人员可对这些文献进行逐篇阅读,以实现对有关“网络学习”评价研究的深入认识。

  案例小结

  通过上述应用案例的展示,技术支持的文献研究法不仅能够从宏观方面快速把握“远程教育中的评价”这一研究主题的知识体系,如了解核心术语、评价对象、评价方法,并了解术语间的关系,这在以往纯人工的文献研究方法是难以做到的。在对核心术语和术语关系把握的基础上,可以更有针对性地开展文献研读,使文献研读工作更聚焦、更高效。

  五、结语

  本文重点探讨了数字化研究中信息技术的计算功能包括数据收集、数据分析、文本挖掘和可视化等方面的应用,尝试对文献研究法加以改进。通过案例分析表明,技术支持的文献研究法在处理海量文献、快速把握已有研究的基本状态、帮助研究人员聚焦文献研读重点等方面有独特优势。当前,教育研究领域的数字化研究探索方兴未艾,我们教育技术工作者在教育科研领域具有利用信息技术开展研究的优势,应该承担起探索教育领域的数字化研究理论与方法的重任,并最终将数字化研究在整个教学科学研究领域推广应用,提高研究的效果、效率与效益。(原载:现代教育技术 [J].2010,(6): 29-34.)

参考文献:

[1] 顾小清,李雪.信息化科学研究及其教育应用综述[J].开放教育研究,2008,(4):15-21.

[2] e-Research. Accessible via[DB/OL]. 2010-4-1.>

[3] Anderson, T., & Kanuka, H.(2002). E-Research: Methods, Strategies, and Issues[M]. Boston, USA:  Allyn & Bacon publisher.

[4] Peter Halfpenny(2007).Looking ahead: innovations and issues for the next ten years[R]. Accessible via ncess.ac.uk/SRA%20AGM%202007%20Panel%20Discussion%20final.ppt, 2010-4-1>.

[5] 孟庆茂.教育科学研究方法[M].北京:中央广播电视大学出版社, 2001: 80.

[6] 傅骞,魏顺平,王斌,路秋丽(2008). 教育技术领域术语提取研究[J]. 现代教育技术,2008,(5):60-65.

[7] 魏顺平.基于文献文本的概念图构建方法——以协作学习领域概念图构建为例[J].中国远程教育,2008,(2): 47-52.

作者单位:中央电大