一、明清檔案的整理與演變
《檔案學辭典》認為,整理歸檔是指“檔案機構根據文獻在來源、內容、時間、形式等方面的文化聯系,對檔案進行系統的分類、組合、整理和編目。”文獻檔案的整理無疑是一種紀念工作。
文獻校勘之所以具有代表性,主要有三個原因:一是校勘對象的特殊性,珍貴史料既具有一般檔案的共性,又因其歷史悠久、不可互補性而具有一定的藝術價值;其次,整理方法的特殊性,歷史文獻的內容和載體不再自然,需要在整理過程中有特殊的整理方法;第三,校勘理論的局限性。對于珍貴的史料,現有的新聞傳播學理論和研究更多地關注其作為檔案的普遍性,而忽視了其作為史料的個性,這也造成了文獻檔案整理理論的特殊性。
中國**國家檔案館成立90年來,建檔工作經歷了文獻博物館時期、明清時期、1980-2010年、2011年四個階段。
圖書館時期的整理與歸檔。作為故宮下屬的三級機構,已經開始收集整理檔案。這一時期的主要工作是接收和集中散落各處的清代檔案,并進行初步清查。當時,在戰爭頻繁的環境下,文件經常丟失和轉移,數據收集受到很大影響。但在當時學者的堅持下,原本雜亂的明清檔案隨波逐流,整理出它們的76個脈絡,分門別類,構建了它們的體系,初步奠定了整理清代檔案的基礎。
明清檔案。這一時期的檔案工作具有承前啟后的特點。一方面將之前散落各地的明清檔案繼續接收,對于宗人府等尚未整理的檔案,將進行大致分離存放,以備下一步整理。另一方面,及時總結整理經驗,不斷探索,逐步熟悉和嘗試整理不同系統的檔案,建立了較為科學完整的整理模式,鞏固了現有的檔案基礎。其中,影響較大的是副奏折的18類記載、內閣官職按題材劃分等。可以說,這一時期是立案工作的重要時期,奠定了一直沿用至今的全家庭監護制度和檔案層級的基礎。
1980年國家檔案館**后,人員迅速增加,整理隊伍不斷壯大,進入均衡發展時期。在這個階段,檔案的整理基本上延續了以前的模式和方法,從檔案層面到檔案層面。總的編排方式是:集卷-分塊-逐漸編號-加信封-寫標題等。同時,對于系譜系統不同的檔案,也區分了不同的排序標準和層級體系。2011年初,根據“五年整理歸檔計劃”,檔案室進入新的整理階段。在后續階段,我們采用計算機輔助排序,采用外包模式,并根據數據歸檔的具體情況制定數據歸檔方案和細則。通過8個簽約項目,我們完成了內閣、軍務部長、皇宮中學60個檔案館5243647(冊)檔案的整理工作。
Ii.歷史檔案數字化排序
2011年,我館提出了“五年數據歸檔計劃”,這是社會化過程的**個外包安排模式。通過高度標準化、模塊化、規范化的過程監督,并輔以計算機網絡管理數據,對我館現有檔案進行整理進行了新的嘗試。中國**國家檔案館檔案數字化工作的深化,產生了大量珍貴史料的數字化影印,積累了海量的歷史文獻資料。*大的特點是:
1.館藏數字檔案規模龐大。從文獻層面來看,我們圖書館的檔案數以千萬計,從電子證據來看,這是天文數字。單從2011年5月以來的編譯結果來看,每年編譯的文件超過160萬個,電子證據近4000TB,數字時代可使用的幀數超過3200萬幀。
2.字段很多,一個檔案的價值信息也是數不勝數,比如負責人、時間、職位、地區、檔案號等幾十個信息字段。然而,在我們圖書館的檔案中,不同的檔案歸檔時會輸入不同的信息字段。例如,如果排列了宮中朱批紀念類的物品,則需要錄入朱批的內容,但在屬于朱批紀念類的物品檔案中,則不需要此錄入字段。
3.價值密度小,數據歸檔過程中必須錄入一些數據。然而,對于用戶來說,不同的目的和需求,不同的文件和信息選擇,導致數據使用頻率高,吸收效率差異大,在一定程度上降低了價值密度。
4.人的主觀判斷與差異化管理。以往的整理歸檔主要是以個人觀望為主,每個人**承擔幾個環節,難以替代,受“人”因素影響。但是現在的歸檔工作需要時代的發展,這種整理模式的作用和帶來的麻煩都是顯而易見的。借助計算機,可以*大程度地避免這種影響。任何時候都不可能用數字技術快速有效地整理珍貴的史料,尤其是數千萬的明清檔案。技術與電腦整理結合采用大規模外包模式,現在可以實現,原因有以下三(條件):
1.現代科學的發展學技術。與過去相比,如今,計算機已經成為應用*廣泛的輔助整理工具,并設計了高清攝像頭、聯網系統、多交互操作軟件等。,都提供技術支持。
2.專業服務公司建設。與過去相比,專業化分工進一步細化,出現了能夠提供歷史數據整理和外包業務功能的專業化企業。這些公司可以根據歸檔工作的需要設計相應的程序,并提供足夠的設備操作,以流水線的生產模式輸入、整合和保存所需的檔案信息。
3.各領域理論的整合。在跨學科、跨學科融合成為現實的今天,計算機輔助歷史文獻整理得到了更多的支持,如網絡化產品與整理歸檔環節的工業流水線相結合,可以提高效率;企業管理理論應用于數據歸檔人員管理,使標準化生產成為可能,等等。
三五年來的備案情況及特點
就珍貴史料具體數據的整理而言,我們在收集、整理、儲存和處理數字檔案的過程中,不應被數據沖昏頭腦,而應冷靜對待。基于云計算的用戶行為體驗的運行規律,在一定程度上演繹了基于利用的整理思想范式,也提供了文獻檔案整理的基礎分析。
關于創新革命推動各行業啟動量化進程的事實,哈佛歷史教授加里·金
描述:“這是一場革命。大數據的巨大資源讓各行各業都開始了量化的過程,這個過程在任何領域都會開始,無論是歷史、商業還是政府。與手工作坊的歷史整理歸檔不同,我館實施的大規模珍貴史料量化整理,其特點是持續推行產品的標準化和廣泛性。
自“大數據云計算”概念引入以來,我們通過五年來的歸檔實踐,重新思考了歷史數據整理的內涵和外延。系統構建的整理操作步驟、數據接口和程序功能在整理實踐中不斷完善。在排序的實際層面上,我們遵循了《館藏檔案整理總體方案》(2011—2015)中“維護現有的整個文件設置和原始文件文件庫”的排序原則。在文件級排序時,我們基于我館3月《劃分館藏檔案文件級基礎保管單位件的原則及標準》確定文件中的文件級托存單位“件”,給出文件級文件號,并根據本項目的排序實施方案及相關規則形成檢索數據。卷中的每個文件都配有一個信封,并配有條形碼。
1.操作流程標準化。在揚棄傳統整理工藝的基礎上,我館的整理實踐立足于
項目外包的模式充分利用現代信息技術技術,兼顧質量和速度,在確保文件、檔案“一物不丟、一物不亂”的安全框架內,妥善規范整理流程。我們針對珍貴史料探索出了一套通用性強的整理流程,即:預處理—人工組卷整理—計算機化信息提取、整理—人工驗證—添加文件級信封、實體整理—包裝貼標、成品質量檢驗—暫返庫—進入數字化處理階段—進入實體文件的存儲與封存—進入數據虛擬描述階段:
2.數據接口標準化過程。在數據庫中構建框架時,設置收集元素字段的El。
統一的計時標準。在保留所有傳統字段信息(檔號、責任者、職官、文種、時間、文字種類、件數、面數、畫幅數、破損情況、備注等)的基礎上,我們為不同群體提供基于界面生成的個性化定制相關數據庫。例如,在編制排序順序目錄時,根據需要將相關條目與標準字體段分開。
3.規范程序功能管理。考慮到檔案工作成果數據的集成和共享,它對應不同的
目錄業務需求由相應目錄數據庫中的優化軟件程序模塊生成。例如,倉庫存儲的需求會生成一個包含文件位置信息和損壞程度等重要信息的目錄數據庫系統。無論滿足什么樣的需求,都是基于一個通用的程序功能。
更加注重正相關而不是因果數據思維,使我們對歷史數據歸檔的內涵有了新的認識,即歷史文獻的整理是分層次、分維度的,沒有一勞永逸。我們對文化整理歸檔數字化改造和描述的實踐,通過件與件、卷與卷、項與項、類與類、全案與全案之間的數據整合,通過關聯形成人機協同,通過交互和挖掘發現新的價值。
要突破信息鎖定的傳統整理思維,**步是克服其他傳統數據形成的數據孤島,搭建數據信息共享平臺,形成既面向歷史又面向未來、充滿開放珍貴史料的大數據云計算。
組織內涵的開放性。在實際的文獻檔案整理工作中,有對珍貴史料因果關系的嘗試。
澄清欲望。然而,傳統的整理實踐告訴他們,這種讓所有意圖都清晰的想法幾乎是無法解決的。然而,我們卻進入了西方本體論中一個叫“解釋的循環”的陷阱,錢鐘書曾用古雅細膩的文言文翻譯過:“小品使大品明,大品使小品明;把終點推到終點,探索終點到貧困終點;相互往復,容易弄圓,避免偏燥,所謂‘闡釋之循環’就是“易”。
換言之,“解釋的循環”深刻傳達了傳統檔案工作思想的困境。我們努力準確地恢復單個文件的任何信息元素,同時對整個檔案進行詳細而全面的描述。這種在單檔和全家福之間給出滿意解釋的意圖,恰恰證明我們陷入了因果鏈陷阱。
大數據的出現改變了人們的思維框架和認知形式。在“數據驅動”的觀點下,數據的雜糅性優于準確性,數據的宏觀調控高于微觀推敲。在數據挖掘中,我們放棄了對因果關系的渴求,專注于對各種社會關系的整體數據分析,即因果關系的邏輯讓位于數據之間的線性關系。檢查數據之間“互反”的正相關關系,這可以通過實證主義在人類認識活動領域倡導的交往理性得到證明。
檔案本身豐富的校勘脈絡為校勘活動設置了鮮活的概率,而校勘脈絡的動態系統理論上決定了校勘理念始終在進行,因此校勘活動始終是開放的、創造性的、永無止境的。
以數據歸檔整理為例,“五年歸檔工作規劃”出臺前85年的整理實踐表明,“如何整理文獻”是整理歷史文獻的基本點,也是爭論不休的熱點話題。館藏珍貴史料的具體情況極其復雜,導致對“片”的內涵和外在外延缺乏準確、權威的標準。我館過去整理部品的具體做法:主要部品附件與個別件有爭議,內容相關的部品與實物形狀制作的部品有爭議,一組文獻與文獻集有爭議。2011年《劃分館藏檔案文件級基礎保管單位(件)的原則與標準》的實施意見可以看作是對這個問題的權威調解。但是根據大數據環境下的整理實踐,這個整理問題幾乎是可以克服的。在數字虛擬空間中,關鍵是零件之間的正相關。簡而言之,對A部分的判斷高度依賴于它與相關B、C、d部分的關系,我們可以通過獲取數據搜索網站,根據相關度創建所有片段的集合。這樣,關于“零件”的爭論將被取消,它將不再作為一個實體是可有可無的。
2.結果是公開的。
方輝在《瀛奎律髓》中指出:詩人有很大的判斷和總結。我館《五年歸檔工作規劃》是在總結我館歸檔歷史規律、把握“大數據時代”歸檔工作發展路線的基礎上,結合我館歷史文獻真實情況做出的“重大判斷”。檔案收集整理分為五個階段。截至2015年4月,我們已經完成了檔案整理項目的前四個階段。根據項目的整理實踐,這四個時期可以稱為“總結歸納”。對于整理珍貴史料思想中試圖還原檔案產生情況和原始聯系的理想而言,“五年檔案規劃整理”無疑是一大裨益。經過整理后再進行全面數字化改造的珍貴史料,在克服了傳統的紙質檔案孤島后,將與包括大數據在內的所有信息形成明清檔案。到那時,通過適當的數據引擎,我們可以完全組織各種軟件定義,而不會傷害到物理文件。
記錄人類活動的珍貴史料承載著個人無法控制的各種信息資源。當數字化完成并整合到電子檔案中后,借助數據引擎,我們可以在復雜運算和分析的基礎上,對數值模擬和演示進行深入研究,我們完全有可能看到更多塵封往事的真相,解開更復雜、更隱秘的歷史謎團。這表明人們利用數字檔案積極獲取、標注、比較、采樣和解釋文化知識,這充滿了很多機會。這也從根本上改變了歷史數據歸檔結果的單一性和強封閉性。