不收费的同城约爱软件:談敦煌遺書數據庫

来源:百度文库 编辑:中财网 时间:2024/04/28 00:02:02

談敦煌遺書數據庫

方廣錩  朱 

 

    方按:原文有數據庫各種界面照片近30張,不知怎麼拷貝上來時,統統丟了。衹好就這樣了。

 

一、導言

 

    全世界所藏漢文敦煌遺書的總數為58000餘號,至今缺乏一個完整、翔實、實用的總目錄。敦煌遺書兼具文物、文獻、文字三方面的研究價值,蘊藏的研究信息極爲龐大。敦煌遺書的形態極其複雜,所蘊藏的研究信息的形態也極其複雜。以上兩點,為全面著錄敦煌遺書、進行編目帶來極大的困難。現代數據庫技術的發展,使利用數據庫進行敦煌遺書編目成為可能,但如何建設一個符合敦煌遺書實際情況的數據庫,依然是我們面臨的重大課題。2005年,國際敦煌學界曾經齊集在上海師範大學,專題討論有關建設“敦煌知識庫”的問題。會議論文結集為《敦煌學知識庫學術論文集》,2006年由上海古籍出版社出版。會議的召開,說明建設數據庫進行敦煌遺書編目與研究已經成為敦煌學界的共識。

    筆者長期從事敦煌遺書的調查與編目,80年代後半期,曾經將黃永武《敦煌遺書最新目錄》輸入電腦,編撰為《敦煌遺書索引》。這個索引,類似于後來釋禪叡編纂的《敦煌寶藏遺書索引》[①]。眾所周知,80年代後半期電腦漢字字庫的數量有限,故當時不少字只好用符號替代,加上其他一些原因,那個《敦煌遺書索引》的內容比較簡單,衹有典籍名稱與卷號兩項,衹能滿足簡單的檢索。所以完成以後沒有公開發表,僅供個人參考使用。其後,隨著數據庫技術的日益發展,筆者開始設想利用數據庫從事敦煌遺書編目。第一個數據庫開發於90年代末,到2003年升級為4.2版本。版本雖然升到4.2,結構與功能卻始終比較簡單,衹能從事一些簡單的比較與查詢,嚴格地講,還不能算是一個真正的數據庫,所以命名為“敦煌目錄索引程序”。2005年的敦煌知識庫國際學術研討會上,曾以《敦煌遺書編目所用數據庫及數據資料》為題進行介紹,論文也已收入會議論文集。本文擬介紹筆者近年開發的第二個敦煌遺書數據庫。這個數據庫從2006年底開始設計,經過一年的醞釀,2007年底正式啟動,現在已經完成第一期工程。這個數據庫的功能比前一個數據庫大為增強,包括按照各種條件輸入、加工、檢索、輸出敦煌遺書中的各種數據資料。由於它已經基本具備數據庫的功能,故命名為“敦煌遺書數據庫”。目前正在完善第一期工程的數據建設,規劃開發第二期工程。計劃最終將這個數據庫建設成敦煌學研究的實用平臺。

    本文簡單介紹“敦煌遺書數據庫”已經完成的第一期工程的現狀。包括它的各種工作界面、所容納的信息類別、各種功能、以及怎樣利用該數據庫加工、查閲資料、輸出相關數據等。

 

二、敦煌遺書數據庫簡介

 

    “敦煌遺書數據庫”分爲兩期完成。第一期的開發目的是為編纂《敦煌遺書總目錄》服務。所輸入與儲存的數據為從文物、文獻、文字等三個方面對敦煌遺書所作的各項著錄,編目時參考的各種相關照片及研究資料。可提供各種在庫數據的修訂、檢索、查詢功能。至於數據的輸出,目前預設為編纂、出版大型圖錄《國家圖書館藏敦煌遺書》所需的條記目錄、卷首目錄、標版目錄,以及編纂《敦煌遺書總目錄》所需的流水目錄、分類解說目錄及各種索引,但也可以根據需要輸出其他各種數據。第二期將擴展為敦煌學研究平臺,屆時擬進一步完善圖片數據與文字數據的鏈接、加入敦煌遺書研究數據、並開發各種專題研究平臺乃至與研究者的互動平臺等。

    目前第一期中的數據庫架構已基本完成,數據的完善還在進行。已經可以進行敦煌遺書原始數據的導入、改錯與刪除。可在數据庫中按照各種預設條件查看數據及照片,進行數據的修訂。可以設定各種條件並進行資料的檢索、查詢。可以按照預設要求自動為各種文獻進行加工,諸如加上分類號並對文獻進行分類。可按照預設要求采集各種詞語以製作索引,並可在各被索引詞語間建立起相互關係。可以進行敦煌遺書綴殘的提示,並在人工綴殘的基礎上,進一步進行多號殘卷的綴殘。可以按照不同的要求,將各類數據按照一定的格式輸出為滿足不同研究需要的文本式或表格式的word文件。

    “敦煌遺書數據庫”主界面如下:

 

    主界面上邊列有主菜單,共有八項:文件、數據導入、數據查看、綴殘處理、索引處理、相關數據、系統、退出。數據庫現有的各項功能均以主菜單為基礎展開。

 

三、敦煌遺書數據庫的有關功能

 

    (一)原始數據的導入、改錯與刪除

    所謂“原始數據”,分為基礎數據與補充數據等兩種形式。

    基礎數據指按照規定格式編纂,以word文本存檔,且未作内容刪節的敦煌遺書條記目錄。按照目前的著錄體例,該條記目錄從1.1項到14.3項,共設定為14個大項、37個小項[②],全面著錄每件敦煌遺書的文物、文獻、文字等三個方面乃至流傳、研究的各種資料。實際著錄時采取有則著錄,無則空缺的原則,故每件遺書未必都具備37項[③]

    補充數據指按照規定格式編纂,以word文本存檔,僅包含部分特定項目的敦煌遺書條記目錄。

    所以產生上述兩種不同的原始數據,原因在於現行的編目方式。目前的編目工作,有的依據原卷進行,這時可以詳細著錄各種數據,包括遺書的文物、文獻、文字等三方面數據。有的依據圖錄進行,這時衹能著錄遺書的文獻、文字數據。有時限於各種條件,甚至衹能著錄關於文獻、文字的部分數據。這樣,不同的遺書,有時存在數據缺失問題。這些缺失的數據,衹能等將來有條件時,再行補入。即使按照原卷進行著錄的遺書,有時候也需要將部份項目,比如錄文等暫且放一放,待另行完成後補入;或者先做一個草稿,待修訂以後重新輸入。由此產生較為完整的基礎數據與待後輸入的補充數據這樣兩種不同的原始數據。

    基礎數據可以一次性輸入,補充數據則往往需要以後再輸入,乃至多次輸入。後期輸入的補充數據,不能衝擊已經存於數據庫的基礎數據,而應與基礎數據合為一體。爲了達到上述目的,設計了“全部條目導入”、“部分條目導入”等兩種數據導入方式。

    點擊主界面上“數據導入”,出現“全部條目導入”與“部分條目導入”兩個選項。下面是“原始著錄數據導入-全部條目”的界面,可以進行基礎數據的導入、改錯與刪除。

 

    導入方法:在上述界面左邊的兩個窗口中,選擇需要導入的關聯word文件,點擊“增加”按鈕,這一文件便加入右邊窗口。然後點擊“數據整理”按鈕即可。

    在這一界面所進行的“改錯”,實際並不涉及原始數據本身的對錯,而是指原始數據的格式不符合數據庫的輸入規範,需要修改。

    雖然1984年剛開始從事敦煌遺書編目,我已經意識到將來有利用電腦進行數據加工的可能,因此在設計著錄體例時,採用條記目錄的方式,並規定了必要的著錄格式。但隨著對敦煌遺書及其編目工作認識的不斷深化,著錄體例也在不斷修訂。加之原始數據最初由人工完成,且多人常年參加編目,每個人、某個人的不同時間對體例的理解不一定完全正確與一致,原稿的體例就難免會有差異。手寫原稿完成幾年後,纔請人將之錄入電腦,移錄過程中難免出現魚魯之訛。又過了幾年,纔設計出數據庫,並將電腦稿輸入數據庫。如此等等,現有的原始數據,頗有著錄格式不符合現有數據庫要求的情況。就數據庫而言,凡是格式不合要求的數據,如果項號無誤,數據庫還可以識別並讀入;如果項號有誤,則數據庫無法識別並讀入。爲了解決這一問題,我們這樣設計:無論數據庫能否識別該數據,如果格式有錯誤,數據庫一律記錄下來。每一個關聯的word文件讀入以後,衹要點擊“出錯記錄”按鈕,數據庫將給出錯誤提示。這樣,可以按照錯誤提示逐一修訂,直到所有的原始數據都符合數據庫輸入規範,全部輸入數據庫為止。

    敦煌遺書編目往往會遇到這種情況:某件遺書原來作為一號著錄,但後來經過研究,發現該遺書實際包含兩個文獻,應該分作兩號。或者相反,原來作為兩號著錄的遺書,後來發現應該歸倂為一號。這時,需要在數據庫中增加或刪除一號。為此設計了單獨增加某條數據或刪除某條數據的功能。這個功能在“數據查看”界面中實現,這裡不介紹。

    所謂“刪除”,包括刪除提供原始數據的word文件與刪除數據庫中的數據兩種功能。

    以前設計第一個數據庫時,編目工作以word文件為主,數據庫本身衹起輔助功能。所以關聯的word文件不能隨便刪除,一旦刪除,數據庫無法咦鳌2粌H如此,關聯的word文件也不能隨便改動,略微有所改動,就需要將文件重新讀入數據庫,數據庫纔能正常咦鳌6诙數據庫思路相反,編目工作以數據庫為主,數據庫可以隨時依據不同需要生成各種新的word文件。所以,作為提供原始數據的word文件一旦讀入數據庫,除了備查之外,已經喪失作用,隨時可以刪除。關聯word文件的刪除,不妨礙數據庫的正常咝小

    數據庫中的數據可以批量刪除,也可以單條或單項刪除。

    批量刪除的方法有兩種:

    第一種,在上述界面右邊的窗口中,用光標定義需要刪除的關聯word文件,點擊“刪除”按鈕,便可以將該文件所涉及卷號的所有數據一併刪除。亦即不僅將關聯的word文件提供的原始數據全部刪除,並將數據庫在這些原始數據基礎上所做的修訂一併刪除。

    第二種,編纂新的關聯的word文件,文件名與路徑與原文件相同,即覆蓋原文件。在上述界面右邊的窗口中,用光標定義該文件,然後點擊“數據整理”按鈕,此時數據庫重新讀入關聯的word文件,並用新數據覆蓋全部舊數據。

    單條數據及單項數據的刪除,也在“數據查看”界面實現,這裡不介紹。

    下面是“原始著錄數據導入-部份條目”的界面,可以進行補充數據的導入、改錯與刪除。

 

    補充數據導入、改錯與刪除的操作方式與“原始著錄數據導入-全部條目”的界面基本相同,此不贅述。

 

    (二)數據的查看與修訂

    點擊主界面上“數據查看”按鈕,可進入“查看原始目錄數據”界面。

 

    該界面上邊有16個按鈕:刷新、刪除、關閉、查看全部、條件查詢、查看修改、導出到word、條件導出、批量更新、現數據清回車、現首尾對照規範、現數據切分、全部數據切分、首尾對照錯誤導出、現數據分類號處理、看圖;此外,在“條件查詢”與“查看修改”按鈕之間,還有一個下拉式菜單;以上總計17項,分別承擔各種功能。比如數據讀入之後,首先需要進行“現數據清回車”、“現數據切分”、“現首尾對照規範”等三項預備性操作,纔能正確地查看與修訂數據。

    按鈕下為一長條計數條。統計下面表格共列出多少條數據,當前為第幾條。

    計數條下為每號敦煌遺書的表列數據。表列數據共有48項:編號、分類號、經名卷本卷次、(卷次)、參考號1、參考號2、參考號3、參考號4、參考號5、總體數據、每紙數據、外觀性描述、(裝幀形式)、(首尾存況)、多主體著錄、多主體關係、首部文字對照、(首對照-存況)、(首對照-對照本)、(首對照-對照細節)、尾部文字對照、(尾對照-存況)、(尾對照-對照本)、(尾對照-對照細節)、錄文、説明、首題、尾題、異同、首綴接、尾綴接、首集合、尾集合、題記、印章、雜寫、護首扉頁、年代、二次加工、收藏鑑賞、圖版、揭裱互見、備註、格式、問題、資料、更新時間。實際是上述14個大項、37個小項的擴展。其中帶括弧者為重復項,供數據切分及檢索用。這48項數據,均可順序或逆序進行排序。框格的長度、寬度都可以根據需要調節。

    由於表列數據項目很多,一屏無法顯示。可利用滾動條顯示,也可點擊左下小三角前的竪杠,把表格分爲N個界面來回拖動,進行數據的對照。

    如果點擊“查看全部”,可以查看數據庫中儲存的所有數據。也可以點擊“條件查詢”,按照設定查看自己需要的數據。下面是點擊“條件查詢”後出現的“設定查詢條件”界面:

 

 

 

    選項共有八種,可以單獨使用,也可以匹配使用;其中七種附有下拉式菜單,可利用下拉式菜單選擇,也可以自行填寫。

    (1)、收藏單位:不選擇“收藏單位”,則默認全部數據。

    (2)、編號範圍:前後兩個框,可以選擇某一段編號,即查詢某一編號段的敦煌遺書;也可以為同一個編號,即查詢某一號敦煌遺書。如均不選擇,則默認全部編號。

    (3)、分類號:前後兩個框,使用方法與編號同。

    (4)、文獻名:輸入文獻名後,可利用“包含”、“精確”、“排除”等選項,進行查找。如不選擇,則默認全部文獻。

    (5)、年代:前後兩個框,使用方法與編號同。

    (6)、更新時間:“更新時間”指數據更新時間。前後兩個框,使用方法與編號同。

    (7)、參考號:“參考號”,可通貫5個參考號,模糊查找所需遺書。如果限定在某個參考號,則應該用“指定條目”。

    (8)、指定條目:“指定條目”是個用處最爲廣泛的工具,所指定條目範圍涵蓋全部14個大項、37個小項。選定條目後,在下面的框中輸入檢索條件,並可利用“包含”、“精確”、“排除”等選項,在指定的範圍内進行檢索、查詢。爲了更好地發揮“指定條目”的檢索功能,設定1到8個復選框,可以匹配使用。

    條件設定完畢,點擊“確認查詢”,就可以查看所需數據。

    如設定查找北京圖書館藏《金剛般若波羅蜜經》中首尾完整的寫卷,可作如下設定:

 

 

 

    點擊“確認查詢”,結果為13條:

 

 

    這裡的“首尾均全”,“首全”指的是該文獻有首題,著錄時,即使首題殘破,亦算首全;“尾全”指有尾題,或雖然沒有尾題,但卷尾經文已經抄完。實際上,北圖共有《金剛經》1400餘號,但首尾均全的僅有上述13號,不足1%。這還是僅從文獻角度統計。如果考慮遺書的文物因素,按照卷軸裝的規範,把前有護首、後有尾軸的遺書才算首尾均全的話,檢索結果為0,即一號也不存在。

    我們可以檢索北圖藏敦煌遺書的卷軸裝中首尾均全、且同時具有護首及尾軸的遺書數量:

 

 

 

    結果如下,共16號:

 

 

 

    在查詢某類遺書後,如擬查看某號遺書的具體數據,可將光標指向該號遺書,並確認下拉式菜單處在“全部條目”的位置:

 

    然後點擊“查看修改”即可彈出如下界面:

 

    在此界面點擊“編輯”,可以進行數據的修訂、養護。爲了方便修訂,其中大部分框格,均可雙擊放大。對於帶有普遍特徵的錯誤,則可以利用批量更新方法一次性修改。

    數據庫中存放了一些照片,如果在“查看原始目錄數據”界面光標指向某條數據時,“看圖”按鈕變紅,表示該號有照片存放。

 

    此時點擊“看圖”,會彈出照片窗口。

 

    並可以放大查看。

 

    (三)敦煌遺書分類

    計劃中的《敦煌遺書總目錄》是一個分類解說目錄,分類法在拙作《敦煌漢文遺書分類法(草案)附說明》[④]設計的分類法基礎上,吸收各方意見修訂而成。爲了讓電腦自動給不同文獻賦予相應的分類號,特意編制了輔助文件《諸經起訖》。

 

    在“查看原始目錄數據”界面,點擊“現數據分類號處理”,數據庫會按照《諸經起訖》中的預先設定,對符合經名卷本條件者給予分類號或者更改錯誤分類號,遇到《諸經起訖》中沒有的經名卷本,則納入《諸經起訖》。這樣,通過不斷維護、更新《諸經起訖》,可使所有的文獻都有一個與之相應的分類號,最終完成敦煌遺書的分類。

    (四)索引

    詳實、便利的索引是一部學術性目錄的重要組成部分。《敦煌遺書總目錄》計劃編纂十來個索引,爲了完成這一任務,必須先完成所索引詞語的采集。因此,除了可直接利用14個大項、37個小項完成的索引外,計劃從外觀、錄文、説明、異同、題記、印章、雜寫、護首、今人題跋、備註、格式、問題、資料等諸項中採集可以成爲索引對象的人名、地名(含寺院名)、職官名(含僧官名)、書名、年號、器物、糧油、藥材、牲畜、工藝、社會組織、服飾、術語、印章、非漢文、繪畫、神名等17種詞語,編為索引。並努力在所索引的詞語中建立溝通相應的關係,以期打破諸知識點之間傳統的平面關聯,建立立體的因陀羅網狀結構,以備將來的深入研究。

    下面是從BD00062號背2的錄文項采集索引詞語的界面:

 

 

 

 

    索引詞語的采集,采用半自動方法。部分工作由數據庫自動完成,主要工作還要靠人工進行。但是,隨著采集量的增大,自動化程度將越來越高。不過詞語之間相互聯繫,依然要靠人工分析、建立。

    詞語采集以後,點擊主界面“索引處理”中的“索引數據查詢”,可以得到如下界面:

 

  點擊“全部數據”按鈕,得到已經被採集的全部索引數據:

 

 

 

    點擊“條件查詢”按鈕,在新的窗口輸入自己需要的查詢信息,如下設定,乃要求檢索哪些經生參與抄寫《無量壽宗要經》:

 

 

 

    點擊“確認查詢”,結果如下:

 

 

    點擊“導出到WORD”,可以將上述結果輸出為WORD文件。

    考慮到數據庫中的數據正在不斷完善。所以設計“更新經名年代”功能。如果遺書的名稱、年代有修訂,點擊“更新經名年代”按鈕,索引界面中的所有遺書的經名與年代,一律按照最新著錄,予以更新。

 

    (五)數據輸出

    如前所述,第一期工程的數據輸出首先設定為編纂《敦煌遺書總目錄》及編纂大型圖錄《國家圖書館藏敦煌遺書》的需要。

    就《敦煌遺書總目錄》而言,需要輸出的數據為館藏流水目錄、分類目錄與索引。

    輸出館藏流水目錄、分類目錄,點擊主菜單上“條件導出”按鈕,在下面的界面即可完成:

 

 

    這個界面輸出功能比較強大。

    如果在左邊第二豎欄上方選擇“全選”,可以輸出全部14個大項、37個小項的數據。捨去其中的“格式”、“問題”、“資料”三項,輸出以後即為《敦煌遺書總目錄》所需要的的館藏流水目錄。如捨去其中的“分類號”、“首集合”、“尾集合”、“格式”、“問題”、“資料”等項,輸出以後即為目前大型圖錄《國家圖書館藏敦煌遺書》所附的條記目錄。

    如在上方小框中設定收藏單位、分類號等,點擊“分類目錄輸出”,即可以輸出分類目錄。

    此外,利用上述界面還可以輸出《國家圖書館藏敦煌遺書》所需要的卷首目錄(衹包括編號與文獻名等)、標版目錄,乃至各種專題目錄。此外,還可以在14個大項、37個小項中任意選擇所需要項目、組合起來,自由編排次序以後輸出。輸出的格式也可以自由設定。

    索引輸出中,一般詞語的輸出,前面已經介紹。此外,還可以點擊“索引處理”中的“典籍名稱索引”,出現如下界面,輸入所要求的選項,生成各種典籍名稱索引。

 

 

 

    (六)敦煌遺書綴殘

    敦煌遺書為敦煌古代寺院的棄藏,絕大多數均為殘卷。現存58000號漢文遺書中,約有一半為較小殘片。這些殘卷與殘片,不少相互可以綴接。敦煌遺書的綴接,以往是一件難度相當高的工作,人們往往在諸多殘片、殘卷的檢索中無意得之。現在,由於我們把敦煌遺書作為一個整體看待,基本掌握了綴殘的規律,亦即綴殘必然在相同文獻的相同位置進行。且由於我們已經為絕大多數文獻找到了相應的對照本,在對照本中確定了敦煌遺書殘卷首尾相應的位置,這樣,就可以讓數據庫按照上述規律自動搜索有可能綴接的殘卷。為此,先編纂了一個輔助文件《綴殘參考文獻參數》:

 

    這樣,利用這個輔助文件與前述《諸經起訖》,讓數據庫按照設定要求自動搜索哪些殘卷有可能綴接,並作出提示。

 

    然後按照提示去查核原卷,看它們是否真的可以綴接。

    具體的綴接結果輸入數據庫以後,可以點擊“綴殘生成查詢”,在如下界面查詢並輸出綴殘結果。下面是國家圖書館藏敦煌遺書目前所知的綴殘結果:

 

 

四、結語

    從1984年至今,筆者從事敦煌遺書編目已有20餘年。目前,北京圖書館編目的定稿工作正在收尾;英國圖書館的編目的初稿已經完成,尚待定稿;法國、俄國敦煌遺書的編目也已經完成初稿,但缺失文物因素的著錄;散藏敦煌遺書的調查與編目也正在進行。因此,雖然數據庫中已經儲存6萬多號數據,實際並不完整。由於時間漫長,前後體例有修訂、選用對照本有變化等種種因素,使得庫中數據尚需大規模修訂,纔能真正提供給學術界。包括本文例舉的上述數據,都不是最後的定稿,僅供參考。因此,一個單位、一個單位地完成編目定稿,進一步完善數據庫中的數據,是近期努力的目標。

    此外,目前正在規劃數據庫的第二期工程。打算儘快將該數據庫由單機版提升為網絡版,儘快提供給敦煌學界,並力圖在與敦煌學界的互動中,進一步完善這個數據庫,使它真正成為敦煌研究的高端平臺。

    最後需要說明的是,該《敦煌遺書數據庫》由方廣錩提出基本構想與客戶需求,由新疆克拉瑪依石油學院網絡中心主任、重慶大學在讀博士研究生朱雷副教授編程,並經兩人反復磨合、測試而成。

                           2009年2月14日初稿於上海

                           2010年1月5日定稿於通州皇木廠



[①] 釋禪叡:《敦煌寶藏遺書索引》,法鼓文化事業股份有限公司,臺灣,1996年。

[②] 具體項目如下:1.1、編號;1.2、分類號;1.3、經名卷本卷次;1.4、參考號1;1.5、參考號2;1.6、參考號3;1.7、參考號4;1.8、參考號5;2.1、總體數據;2.2、每紙數據;2.3、外觀描述;2.4、多主體著錄;2.5、多主體關係;3.1、首對照;3.2、尾對照;3.3、錄文;3.4、説明;4.1、首題;4.2、尾題;5、異同;6.1、首綴接;6.2、尾綴接;6.3、首集合;6.4、尾集合;7.1、題記、勘記、題名;7.2、印章;7.3、雜寫;7.4、護首扉頁;8、年代;9.1、字體;9.2、二次加工;10、收藏鑑賞;11、圖版;12、揭裱互見;13、備註;14.1、格式;14.2、問題;14.3、資料。

[③] 應該說明,從目前的編目實踐看,上述14個大項、37個小項還嫌粗略。因此,下一步將對該數據形式進行重大調整,對數據內容進行進一步細分,以滿足各方面的檢索需求。

[④] 方廣錩:《敦煌漢文遺書分類法(草案)附說明》,載《敦煌學佛教學論叢》,中國佛教文化出版有限公司,香港,1998年。