蛊真人人祖传整理:Four Different Repository Architectures:aDORe, arXiv, DSpace, Fedora

来源:百度文库 编辑:中财网 时间:2024/04/20 20:51:26

aDORe
aDORe, A Modular and Standards-Based Digital Object Repository at the Los Alamos National Laboratory
http://public.lanl.gov/herbertv/papers/aDORe_20050128_submission.pdf
This paper describes the aDORe repository architecture designed and implemented for ingesting, storing, and accessing a vast collection of Digital Objects at the Research Library of the Los Alamos National Laboratory. The aDORe architecture is highly modular and standards-based. In the architecture, the MPEG-21 Digital Item Declaration Language is used as the XML-based format to represent Digital Objects that can consist of multiple datastreams as Open Archival Information System Archival Information Packages (OAIS AIPs). Through an ingestion process, these OAIS AIPs are stored in a multitude of autonomous repositories. A Repository Index keeps track of the creation and location of all the autonomous repositories, whereas an Identifier Locator reflects in which autonomous repository a given Digital Object or OAIS AIP resides. A front-end to the complete environment—the OAI-PMH Federator—is introduced for requesting OAIS Dissmination Information Packages (OAIS DIPs).

These OAIS DIPs can be the stored OAIS AIPs themselves, or transformations thereof. This front-end allows OAI-PMH harvesters to recurrently and selectively collect batches of OAIS DIPs from aDORe, and hence to create multiple, parallel services using the collected objects. Another front-end—the OpenURL Resolver—is introduced for requesting OAIS Result Sets. An OAIS Result Set is a dissemination of an individual Digital Object or of its constituent datastreams. Both front-ends make use of an MPEG-21 Digital Item Processing engine to apply those services to OAIS AIPs, Digital Objects, or constituent datastreams that were specified in a dissemination request.

arXiv
http://lanl.arxiv.org/
arXiv is an e-print service in the fields of physics, mathematics, non-linear science, computer science, and quantitative biology. The contents of arXiv conform to Cornell University academic standards. arXiv is owned, operated and funded by Cornell University, a private not-for-profit educational institution. arXiv is also partially funded by the National Science Foundation.
e-print arXiv预印本文献库简介
http://www.ihep.ac.cn/library/lanmu/xiaoxi/arxiv.htm
一、 e-print arXiv概述
  e-print arXiv是美国国家科学基金会和美国能源部资助, 于1991年8月由美国洛斯阿拉莫斯(Los Alamos)国家实验室建立的电子预印本

文献库。其建设目的在于促进科研成果的交流与共享,帮助科研人员追踪本学科最新研究进展,避免研究工作重复等。主站点设在康乃尔大学

http://arxiv.org/ ,在世界各地设有17个镜像站点。其中洛斯阿拉莫斯国家实验室镜像站点是http://xxx.lanl.gov/ ,中国的镜像站点是http://cn.arXiv.org。
  1. arXiv收录范围:目前包含物理学、数学、非线性科学、计算机科学等四个学科共计17万篇预印本文献。
  2. arXiv收录内容:收录的论文除作者提交的外,还包括American Physical Society、Institute of Physics等12种电子期刊全文,但不包括非学术性信息,如新闻或政策性文章等。
  3. arXiv著录项目:著录项目包括:文献出处、收录时间、arXiv存档号、标题、作者、文摘、学科主题分类,并提供参考文献和被引情况的链接。数据库的全文文献有多种格式(例如PS、PDF、DVI等),需要安装对应的全文浏览器才能阅读。尤其是PS格式,要求在UNIX系统下安装PS格式的浏览软件。因此,建议大家选择较为通用PDF格式浏览全文。
  4. arXiv特色:研究者按照一定的格式将论文进行排版后,通过E-mail、FTP等方式、按学科类别上传至相应的数据库中。要说明的是,送入预印本库中的论文均未经过任何审核,也没有任何先决条件决定哪些论文可以送入e-print arXiv数据库中,实际上这是默认了文责自负的原则。收入该数据库中的论文可以随时受到同行的评论,论文作者也可以对这种评论进行反驳。论文作者在将论文提交e-print arXiv的同时,也可以将论文提交学术期刊正式发表。论文一旦在某种期刊上发表,在e-print arXiv的该论文记录中将加入正式发表期刊的有关信息。
  5. arXiv更新频率:由于arXiv采取双向交流的方式,即用户不但可通过WWW界面或E-mail方式检索或获取文献,而且还能随时上传文献,因此arXiv的更新频率很高,几乎是每日更新。
  二、e-print arXiv预印本文献库检索方法
  1.WWW界面检索方式:用户可通过学科、标题、作者或关键词检索所需文献。
  (1)选择学科范围:选择物理、非线性科学、数学或计算机科学; (2)点击"Search",进入检索界面;
  (3)选择文档、时间范围和每屏显示的检索结果数;
  (4)输入检索词,通过下拉式菜单和逻辑检索(AND、OR、AND NOT)的组合使用,可以将检索词限定在文摘、标题、作者、评论、参考文献、主题分类或全部范围内。逻辑检索(AND、OR、AND NOT)使用方法与其他数据库相同。另外,检索式中含有"^ _ { } + -"等符号是能够被检出的,但是"( ) ="等符号和单一字母、单一数字都不能检出;
  (5)单击"Do Search"键或回车键就可以检索出相关资料;
  (6)在检索结果中选择PS、PDF 或其他格式阅读、下载全文。
  2.E-mail检索方式: 通过E-mail将检索结果送到用户的信箱中。
  (1)检索(find)文献,例如要检索作者"Harvey"在1994年hep-th中的全部论文,则可发出如下邮件:To: hep-th@arXiv.org
Subject: find Harvey 94
  (2) 获取(get)全文,例如要获取hep-th中的9603067号文献,则发出如下邮件:To: hep-th@arXiv.org
Subject: get 9603067
  (3)用户还能通过注册选定自己感兴趣的学科范围,一旦有更新的论文,则会用E-mail通知用户。
  3.Catchup界面检索方式:通过该方式可迅速检索出某学科某主题某年某月某日所收录的全部论文,但是该方式仅在主站点

http://arxiv.org/ 提供服务,从主站点的主页或检索页面均可进入。检索步骤:
  (1)在主页检索栏中选择学科范围,点?quot;Catchup"进入该页面;
  (2)选择学科主题,时间(年、月、日)及选择是否具有文摘;
  (3)单击"Do Catchup"或回车键就可检索出相关结果;
  (4)在检索结果中选择PS、PDF 或其他格式阅读、下载全文。
  4.arXiv存档号检索方式:用户如果知道arXiv存档号,则可以直接从浏览器中键入:http://arXiv.org/abs/arch-ive/yymmnnn 进行检索

DSpace

DSpace是一个突破性的数字知识库系统.它可以收集,存储,索引,保护和重新分配一个机构的研究数据.
http://dspace.org/index.html

http://www.biolover.com/dvbbs/dispbbs.asp?boardid=34&id=3223
对于数字图书馆,专家学者纷纷提出自己的见解 ,公司厂商也不断推出各种原型系统 。虽然有很多模型构建的尝试 ,但实际上我国图书馆的现状基本上还处于数字图书馆的起步阶段,其模式如下:


  在上面这个模型中,图书馆的数字门户(Web服务)是独立于自动化系统开发的,外部用户能够访问的自动化系统数据只有OPEC。由于共享的数据很少,图书馆的WEB服务或者通过自动化系统的接口进行复杂的二次开发,或者进行重复的元数据建设。
  随着网络的发展,人们已经习惯于在线检索,无论是已经出版还是未经出版的,是印刷的或是电子的材料。而这在上面的模式中,受限于自动化系统的专用性,要实现显然是有局限的。能不能有一个可以把图书馆的内外用户统一在一起的系统呢?它不仅管理数字资源,也管理印刷资源,换句话说,它可以管理所有的馆藏对象(Collection),同时又可以方便地向读者提供服务。为此,我们注意到了MIT和HP实验室共同开发的数字空间(DSpace)系统。
  随着越来越多的原生数字材料(born digital)出现在教育研究领域,研究机构逐渐意识到如何创建一个稳定的环境来长期保存和获得这些材料是一个重要问题。这就是MIT和HP实验室合作研究DSpace平台的初衷。经过两年多的努力,到2002年10月,这个平台开始在MIT正式服务 。一个月后,MIT和HP实验室一起向全世界公开了基于BSD开放源代码许可 的DSpace源码。
  DSpace是一个专门的数字资产(Digital assets)管理系统,它管理和发布由数字文件或“数字流”(bitstreams)组成的数字条目(item),并且允许创建、索引和搜索相关的元数据以便定位和存取该条目。它包括的基本概念主要有:
  数字空间群(DSpace communite):数字空间是针对数字材料的长期保存而设计的。数字材料来源于不同的组群,比如大学的院系、实验室,图书馆的采访、编目等部门,这些依据不同的授权完成不同任务的组群称作数字空间群。
  电子用户(e-people):DSpace的用户可能是教师、学生,也可能只是一些计算机系统,因此DSpace把用户称作“E人”。
  工作流(workflow):DSpace的运作方式,数字材料和元数据在被接受之前经过事先设定的流转审核的步骤;
  信息订阅(subscription):用户可以向DSpace发送订阅请求,以便在新材料到来时收到带有内容提要的Email提示。

2超越传统数字图书馆
  
  诚如上述,DSpace是一个数字资产管理系统,本身不是为数字图书馆而开发的,但其围绕存储管理,利用分级认证的工作流机制,先天上就具有构建新一代数字图书馆模型的优势(如图2)。

  其特征可以归结为三个要点:
  ①基于存储的资产管理;
  ②利用数字提交的工作流模型来捕获和描述数字化条目;
  ③分级权限认证;
 2.1 基于存储的资产管理
  DSpace首先是基于存储管理的,它提供对所有数字格式的支持,比如文档、书籍、数据库、计算机程序、虚拟和仿真模型、多媒体出版物和学习对象等等。另一方面,对于印刷型文献,DSpace也可以通过元数据进行存储管理,利用URL和馆藏地点来区分文献服务的方式。
  Dspace支持两种存储模式:“位”存储(bit preservation)和功能存储(functional preservation)。位存储保证提交的数字材料没有任何改变,即每一位(bit)均保持原样。我们不能保证“位”存储的文件在5-10年以后还可以被阅读或执行,但我们假设会有“数字考古学家” (digital archaeologists),在多年以后仍然可以将文件复原出来,尤其是在有诸如用户指南、创建程序等附加信息的情况下,这是可以办到的。功能存储的实现是通过随着时间的变化改变存储内容的格式,以保证当旧有格式淘汰后,数字材料还能够被随时调用(可浏览、可运行、可检索……)。显而易见,功能存储是理想的存储状态,但需要更多的经费支持。为此,Dspace对于文件格式定义了三个层次:支持的格式、知道的格式和不支持的格式。如下表:


支持的格式

Supported
支持的格式将利用格式迁移技术进行功能存储

知道的格式

Known
知道的格式意味着我们无法承诺进行功能存储,但是作为一种流行格式,可以尝试通过第三方提供的转换工具完成格式迁移从而实现功能存储。

不支持的格式

Unsupported
不支持的格式意味着DSpace没有足够的信息保证功能存储


  有些文件格式很容易向通用的格式转化(像TIFF图像或XML文档),而有些格式会由于专利等原因很难实现功能存储。对于上述的所有三个层次,DSpace建议在经费允许的情况下同时进行“位”和“功能”存储,以便一旦时间证明哪种格式可以更有效地呈现素材时,“数字考古学家”能够获得最初的原料。
由于存储的问题同样存在于元数据,因此,DSpace的重要合作伙伴,英国的剑桥大学,为了完成元数据格式的周期性迁移,也在致力于开发新的提交转换系统,以将用户提交的材料从“知道的格式”和“不支持的格式”转换为“支持的格式”。
2.2以事件触发构建的工作流机制
  DSpace的运作是以事件触发的机制来实现的。谁可以存储材料,怎样存储,谁可以利用存储的材料,谁负责管理?这一系列问题在可定制的管理策略下完全由事件触发来解决。
  在DSpace中有很多的数字空间群,对于内部工作部门(数字空间群),通常我们设定所有工作人员都是“提交者”(submitters),而其中的一部分人又被设定为“审核者”(reviewers),负责人则设定为终审者(coordinator)。每个数字空间群中都存在着“提交者”、“审核者”等等的角色。这些角色可能指派给很多人,组成角色群,或称“电子工作组(e-person group)”。 任何一个对系统的请求,从检索、浏览到材料提交,都会触发不同的工作流,并进入相应的“任务池(Task pool)”。经过审核、元数据编辑和终审等等环节最终进入DSpace。

而该工作流涉及的每一个步骤的电子工作组,都会因为自己的角色而获得通知,使相应的电子用户可以进入个人数字空间(Individual DSpace)来完成任务。
  典型的事件如新书采购:书商(用户)的图书馆(DSpace)提交书目,新书通告被放入采访部(acquisition数字空间群)的“任务池”,处于采访数字空间群的专业人员可以从“任务池”中获取书目进行审核,(相应的书目将同时被移除,以免重复相同的工作流。)如果审核通过,系统产生订购单。如果是即时生效的数字资源,这一事件将触发DSpace的元数据编辑工作流。如果审核不通过,用户将得到附有审核人员意见的通知书。示意如下:

  对于外部数字空间群,匿名用户可以通过WEB访问进行检索和浏览,授权用户则可以将自己的材料提交DSpace,触发馆藏接收工作流。比如教员的课件、博士的学位论文,这些数字文献本来就是数字图书馆的馆藏来源,通过DSpace的工作流经过专业馆员的审核和元数据编辑,很方便地进入馆藏。另外,作为数字图书馆功能的拓展,用户还可以在授权的个人数字空间中临时或永久存放数字材料。
2.3以分级权限控制的管理体系
  如上所述,数字空间群拥有不同的电子工作组,而不同的组拥有不同的权限。某些DSpace的功能,象检索、浏览等可以是匿名的,但是象提交、订阅以及管理等等功能则需要经过用户认证。DSpace提倡“电子用户”(e-people)的概念,每个电子用户需要向DSpace提供如下信息:
· E-mail 地址
· 姓名
· 认证信息,比如密码
· 订阅专题列表
  DSpace有一个可变的认证系统,它采用的是“缺省否定(default deny)”的策略,比如,一个电子用户对某个元数据具有“读”权限,但他未必就拥有对此元数据指向的材料的“读”权限。在DSpace中可以设定的权限如下表:


READ读
知道某个对象存在,可以浏览相关的元数据

WRITE写
修改和某个对象相关的元数据,但不可删除

ADD添加
允许增加对象,如果需要向一个专题空间提交对象,用户必须拥有这一权限。

REMOVE移除
删除对象

WORKFLOW工作流
可以加入某个专题空间的工作流,比如拥有拒绝一个特定提交的权限。


  这其中没有“DELETE”行为,为了从专题空间中删除某个对象,就必须拥有“移除(REMOVE)”权限。权限策略可以针对个别的用户和匿名用户,也可以适用于电子工作组和数字空间群。

3 构建基于DSpace的数字图书馆

  DSpace是一个开放源代码的软件平台,主要代码均为Java编写,可以运行于所有UNIX系统,象Linux或者HP-UX等。对应于数字图书馆的五个技术环节:数字资源采集、数字对象存储与管理、搜索技术、信息传递技术和权限认证 。我们可以根据自己的需要来修改和扩展它的功能。由于Java虚拟机是由HTML和部分嵌入的Java代码组成的,基本上不需要触动其核心的代码就可以方便地修改它。同时,它还采用了一些第三方的开放源码系统:
· PostgreSQL, 开放源码的关系数据库系统 ;
· Jakarta Tomcat,Java服务器组件 ;
· Apache HTTP 服务器发布系统,可选SSL和X509认证支持 ;
  当然,还可以选择这些组件的替代品:比如可以用Caucho的Resin application server 来代替Tomcat ,为了尽量减少移植和使用的障碍,DSpace缺省都使用完全免费的开放源码工具包。
  数字资源采集是数字图书馆的对象来源,包括创建原始内容和捕获开放系统中现存的资源。DSpace不支持原始内容的创建,但可以以工作流方式捕获任何支持主动文档开放协议(Open Archives Initiative)的数字资源和元数据,同时也通过这一方式完成信息传递 。
  检索是DSpace挖掘(discovery)的重要组成部分。用户对于搜索引擎的要求是很高的,所以DSpace的目标就是提供尽量多的检索特色。DSpace的索引和检索模型有一个API接口,允许非常方便地索引新内容,重建索引以及在指定范围内检索。这个API来自免費的Java搜索引擎——Lucene 。Lucene支持字段检索、停词(stop words)、词干(stemming)以及不重建索引增加新的索引内容的能力。
  所有的DSpace用户界面都是基于WEB的,并且包含一系列的界面:用户提交界面、搜索界面、系统管理界面以及提交审核的各种界面。利用Java虚拟机和Java服务器技术,DSpace允许用户通过浏览器访问系统,这使DSpace的使用和管理都十分方便。
  在虚拟存储技术的支持下,利用DSpace联盟,还可以实现虚拟馆藏:联盟的馆藏对于用户完全透明,用户通过WEB界面访问元数据,并发送资源请求。DSpace可以根据标准协议进入不同院校的系统,象康奈尔大学的arXiv ,通过本地的存储过程自动获取有关的文档备份。用户只需点击锁定(located)的条目,它就会被下载到WEB浏览器中。如果是一种WEB支持(Web-native)的格式,它就会立刻显示在浏览器中;否则它就被存储在用户的计算机上,象Excel数据表或者CAD文件,需要以特定的程序来打开它。
  DSpace可以存储、管理和发布任何已经和未经出版的本地馆藏,保证印刷和数字文献的统一索引和定位。浙江大学图书馆一直关注着DSpace的发展。我们认为,围绕DSpace核心,制定完善的策略,设计合理的工作流,采用成熟的工业标准和协议,构建一个高效、稳定、易用的新一代数字图书馆是完全可能的。为此,图书馆开展了相应的研究和实施规划,并将在适当的时候公开这一原型系统。

 

Fedora
http://bbs.cfanhome.com/dispbbs.asp?boardID=52&ID=403993
一,Fedora Core简介

以下采自Red Hat公司官方网站,由于个人水平有限,以下引文的翻译仅供学习交流之用,旨在将问题阐述清楚,其中如有不当之处,敬请见谅

。。。
 
“The Fedora Project is an open source project sponsored by Red Hat and supported by the Fedora community. It is also a proving ground for new technology that may eventually make its way into Red Hat products. It is not a supported product of Red Hat, Inc.”

Fedora 项目 是一个由Red Hat公司资助的、Linux 社区支持的开源项目。它同时也提供了一个最终将被整合进红帽产品(主要是RHEL)的技术平台。它并不是一个受Red Hat公司支持的产品。

“What is The Fedora Project?”
“Red Hat Linux now has two descendents, Red Hat Enterprise Linux and The Fedora Project. The Fedora Project is an openly-developed project designed by Red Hat, open for general participation, led by a meritocracy, following a set of project objectives. The goal of The Fedora Project is to work with the Linux community to build a complete, generalpurpose operating system exclusively from open source software. Development will be done in a public forum. The project will produce time-based

releases of Fedora Core about 2-3 times a year, with a public release schedule. The Red Hat engineering team will continue to participate in .”

那么,什么是Fedora 项目呢?
Red Hat Linux 现在已具有两个派生物:Red Hat 企业版以及Fedora 项目。
Fedora 项目是由Red Hat 设计并对大众团体开放的,以各精英社群为主导结合整套项目规计的开源项目。其目标是与Linux社区共同构建的一个完整且具有通用目的的基于开源软件的专属操作系统。具体开发将借助于linux开源社区。Fedora项目将借助一个公共的版本发布时间表每年2-3次发布Fedora的据时版本。

“The Red Hat engineering team will continue to participate in building Fedora Core and will invite and encourage more outside participation than in past releases. By using this more open process, we hope to provide an operating system more in line with the ideals of free software and more appealing to the open source community. “

Red Hat 原本开发rh Linux的工程团队将继续参与到Fedora Core 的开发中来,同时将鼓利更多自由软件开发者参与进来。通过这种更开放的方式,以期让这个新的发行版成为真正以自由软件为开发理念的操作系统,并能够更趋近于开源社区的需要。

“Fedora Core is intended to be a logical upgrade path for previous users of Red Hat Linux whose needs are consistent with the objectives of the Fedora Project. It is a return to Red Hat's roots; 2-3 releases per year, and freely-available downloads that can be called by name even when media containing those bits are sold by third parties (within the constraints of trademark guidelines).”

对于先前rh Linux的使用者而言,他们的需要与Fedora Project 的目标始终保持一致,为此Fedora Core 有望成为接续先前 Red Hat Linux 的发行版。新版本每年发布加之自由可下载的资源,甚至还包含于其中的媒体可由第三方团体售卖(在商标权的允许范围内)。