新聞中心 > 要聞

倫敦大學學院數字人文研究中心檔案識別技術研究與啟示

——多光譜成像技術和著名羊皮紙書籍研究概況

作者:孫 肖

來源:中國檔案報

2020-04-23 星期四

????筆者于2019年在中國人民大學參加了由國家檔案局、中國人民大學檔案學院和國際檔案理事會東亞分會聯合舉辦的2019檔案學深造證書班,有幸聽到了倫敦大學學院數字人文研究中心主任西蒙·馬奧尼關于數字人文研究中心的一些介紹,對該中心開展的多光譜成像技術和著名羊皮紙書籍研究產生了濃厚興趣,并找到了兩篇相關論文進行了學習了解。身為檔案工作者,筆者認為這兩種技術對于我國的檔案識別、修復、再利用工作有很強的借鑒意義,因此對其中的精華進行了總結,以供更多的檔案工作者研究借鑒。

????倫敦大學學院數字人文研究中心成立于2010年,是一個跨學院的研究中心,是一個充滿活力的團體,其成員在倫敦大學學院博物館及特藏館、人文與藝術、社會與歷史、計算機、工程學等多個領域從事教學科研工作。

多光譜成像技術

????光譜成像是一種高分辨率、非侵入性和非破壞性的數字攝影形式,從電磁光譜的紅、綠、藍過渡到紫外線和紅外線。通過數字化處理得到的圖像集將自然光中肉眼不可見的物體的特征顯示出來。該技術可以加重褪色的文字、重現文本和底圖等。由于不同墨水的性狀不同,多光譜成像技術可有效識別因發霉或磨損而模糊不清的字。多光譜成像技術已成為當今世界上用來恢復手稿中丟失字跡的主流方法。

????以羊皮書(出自英國國家檔案館,書寫墨水為鞣酸鐵墨水、正反頁、橫豎對折三次,有紅色邊緣線等,除了有撕裂和磨損的痕跡外,整體保存較好)為例。首先,工作人員預設了會使羊皮書退化變質的影響因素,包括技術失誤、儲存(環境、光線、自然災害)、利用(使用不當、修復、重新裝訂)等。項目組取樣本后,工作人員按照預設的影響因素對羊皮書樣本進行退化處理。

????經過退化處理后,工作人員對樣本進行多光譜圖像拍攝(使用尼康彩色相機和黑白相機)。尼康彩色相機的特點是高像素、可拍攝彩色照片,黑白相機的特點是只能拍攝黑白照片(黑白照片的優勢在于,在有濾鏡的條件下便于多光譜成像,且對紅外線敏感度高),但缺點是像素低。運用這兩種拍攝方式,工作人員可探測到樣本表面和深層次的特點。運用彩色反射成像、彩色透射成像、單色反射的方法,項目組一共拍攝了2800張照片用于圖像分析。通過不同的圖像處理算法與未經過處理的圖像進行對比來尋找不同點。項目組主要運用了3種圖像處理方法,即主成成分分析、獨立成分分析、線性光譜混合分析。

?
圖一

圖二

????在圖一中,從上到下4行依次是:未經過處理的圖像、經過主成成分分析處理的圖像、經過獨立成分分析處理的圖像、經過線性光譜混合分析處理的圖像。

????項目組以在3種損害狀態(刮痕、血書、次氯酸鈉)下的多光譜圖像識別為例,對3種圖像處理方法的效果進行了介紹。

????1、刮痕。西方慣用重復利用羊皮紙的方法是將其表面層撕掉后用浮石繼續書寫,這時多光譜成像技術可以對被擦掉的文本進行識別,經過實驗,獨立成分分析方法對此類損害最有效。

????2、血書(本實驗樣品采用的是被血浸染了的羊皮書),由于血的波長和大部分墨水相似,經實驗,主成成分分析可以有效加深文本,在對血和墨水的光譜較了解的情況下,線性光譜混合分析也是很有效的方法。

????3、用次氯酸鈉處理過的文件上的筆跡已模糊,在此類文件上,多光譜圖像識別效果不佳。通過一系列實驗,多光譜成像在文件被苯胺染料、油、血浸染的情況下能完全恢復文字。用鞣酸墨水、墨汁書寫或受霉菌影響文件字跡在完全模糊的情況下,多光譜成像效果欠佳。

????但是,在多數情況下,圖像處理算法可以從多光譜圖像中提取更多肉眼看不到的有效信息。雖然沒有一種處理方法可以應對所有情況,但是主成成分分析是最精確、穩健的分析法。

著名羊皮紙書籍研究

????著名羊皮紙書籍是倫敦市在愛爾蘭阿爾斯特省新教徒殖民和管理中的作用來源的重要文件,但在受到火災損壞后,其利用受到限制,不可供歷史學家接觸。

????既有方法無法對脆弱的羊皮紙書籍進行恢復,于是,工作人員制作了羊皮書的3D模型。火災后,卷曲、脆弱的紙可以在3D模型中展開,紙上的文字得到識別。本方法同樣適用于在受到損壞后變得非常脆弱的其他類檔案。圖二為受到火災損壞后的羊皮書卷。由于羊皮書的本身性質,加之暴露在熱、潮濕等環境下,出現了縮水、隆起、彎曲現象。

????工作人員分以下幾步對羊皮書卷進行了修復。

????第一步:檔案實體修復。工作人員對羊皮書卷進行了詳細的狀態評估,以確定在存儲和處理過程中可能對文件完整性造成的風險。在了解了損傷類型后設計出條件評定系統,以確定損傷的總體范圍。經過評估,普通的物理平面恢復會損傷羊皮書卷。經過系列實驗后,工作人員決定采取清潔、濕化、張力干燥的處理方式。將清潔、濕化后的羊皮紙鋪在金屬作業板上,用磁鐵將羊皮紙固定后,進行張力干燥。目的是盡可能少地向羊皮紙引入水分,并考慮到每天工作時間的限制以及在商定的時間框架內使處理過的紙張可用于數字化的需要,工作人員對羊皮紙進行了局部拉伸。

????第二步:引入3D重建方法。在經過多方面斟酌后,工作人員選擇了多視圖立體方法,它非常適合變形羊皮紙的實際手動采集,因為它允許用戶自由選擇視點,以得到褶皺表面的所有部分,并捕獲一系列二維數字圖像,然后可以使用這些圖像生成三維模型。在本方法中,使用手持相機采集圖像即可,無須使用專用掃描設備。此外,現有的多視圖立體計算算法可以滿足工作人員的需求。

????第三步:數字重建過程。1、捕獲圖像。工作人員用手持數碼單反相機對羊皮書進行拍攝。羊皮紙擺放在黑色的絨布上,3盞漫反射大燈均勻分布在周圍提供均勻的照明,以盡量減少羊皮紙上投射的陰影量。工作人員對每張羊皮紙進行了360°拍攝后,又拉近距離進行特寫,對于羊皮紙高度扭曲區域,使用微距鏡頭獲得特寫圖像。

????2、重建。工作人員運用系列算法對采集的圖像完成3D重建,并克服了比例問題。有一些羊皮紙在初步恢復后,原本殘缺不全的地方會有一些小洞,工作人員用曲面重建算法實現了羊皮紙的完全復原。之后,工作人員用既有的紋理圖譜生成方法建立了三角網絡模型。

????3、評估復原質量。平面圖像可以用DPI(每英寸點數)來描述其畫質,但是該羊皮卷是3D效果,無法用DPI來衡量。工作人員采用“有效DPI”法,通過采集和重建過程對羊皮紙表面細節進行采樣的頻率度量。通過制作DPI趨勢圖得出結論,在每件羊皮紙的邊緣部分,由于文字殘缺等原因,DPI值都較低。

????4、交互式文檔開發。工作人員開發了交互系統,允許用戶在羊皮紙書的三維重建表面瀏覽,對感興趣的部分,可以將特定區域在3D效果下平展。本方法也是通過兩種模型完成,即局部仿射模式,以三維形式呈現圖像并對其進行變換,以便目標區域朝向對象;局部平坦模式,允許目標區域獨立于網格的其余部分展平為二維。為保證文件的真實性,對于給定的三維視圖,工作人員通過系統顯示原始圖像中最能描述當前觀察到的羊皮紙狀態的部分。

????5、整體平展化。在整體平展化工作開展前,項目組對羊皮書的最初狀態進行了評估。羊皮書文檔中的文本以統一的字形大小、等距的水平線和嚴格的垂直頁邊距書寫。通過系列方法,工作人員實現了在讀者進行閱讀時對文本走向的預測,并且讀者可以對此進行修改。針對羊皮紙受損后顏色發生變化的問題,工作人員通過規范化羊皮紙紋理的外觀來消除顏色變化。最好的辦法是通過用一個空間變化的因素獨立地縮放每個顏色通道來實現,這樣羊皮紙的所有缺色區域大致都能匹配上相同的顏色。

????工作人員通過上述方法實現了對著名羊皮紙書籍的全文3D重建,研究者不用接觸原檔案,就可以對其進行研究。在著名羊皮紙書籍遭受如此嚴重損壞的情況下,工作人員能運用一系列先進技術實現最大程度復原,實現其記述文字的可讀性和文件的再利用,這值得我們學習,以進一步提升檔案修復工作水平。

????原載于《中國檔案報》2020年4月20日 總第3514期 第三版

 
 
責任編輯:張雪
 
版權所有,未經許可,不得轉載。
参加漫展可以赚钱吗 广西快三开奖结果今天所有 融资融券交易实例过程 上海天天彩选4开奖结果查询r一上海一一 快乐10分开奖结果走势图 北京pk拾如何看走势 排列7中奖规则及奖金 贵州快三组合走势图 吉林十一选五走势图助手 幸运飞艇技巧图片必中 贝因美股票 湖北11选5一定牛遗漏 最全的福彩3d技巧之一 上海11选5开奖结果360 3d定胆杀号彩宝贝网 私募股票推荐网址 江苏11选五中奖规则