跳转到内容

圖書掃描

维基百科,自由的百科全书

圖書掃描是一種透過圖像掃描將實體的書轉換成數位影像電子圖書(e-books)的過程。這種方法比重新輸入所有文案快很多。在圖書掃描還沒可行前,重新鍵入文章是一般的唯一選擇。 一本書一旦被數位掃描後,此圖像即可供快速地傳播、複製和視窗瀏覽。這類經掃描後的圖像通常存放成DjVu圖片檔案、PDF格式或TIFF格式。一個以光學器材(例如:掃瞄器數位相機…)將文字以圖像方式輸入至電腦,再加以辨識還原成文字的技術(OCR)可以賺取更多利益,大大減少了儲存書籍所需的空間和允許文案可重新編排、搜尋或用作輸入文本處理應用,例如自然語言處理。

商業圖書掃描

用V型書籍掃描儀器繪草圖
用典型手冊書籍掃描儀繪草圖

商業圖書掃描儀器的方式不像正常的掃描器,這些圖書掃描儀器通常是一種有兩側光源的高素質數位相機,並裝在某種形狀的框架上,好讓人或機器方便翻這本書。一些書籍需要V形的托架,提供支助書脊並且自動地將書本置於中心。

相較於高架掃描器的生產力,速度快為此類型掃描器的優勢。相較於價格通常從1萬美元起跳的傳統高架掃描器,此類型的數位相機圖書掃描儀器更加符合成本效益。

大規模組織圖書掃描

大規模組織的圖書掃描例如有「古騰堡計畫」英文電子書網站、Google圖書搜尋、和「開放內容聯盟」。

其中最主要的挑戰就是預計將有數以千萬的書籍必須被掃描。所有書籍必須掃描,成為一個「普世圖書館」(universal library)供全球無數人於網路搜尋檢索。目前為止有三種大型組織依靠的主要方法:外包、在室內掃描使用商業圖書掃描儀器,以及在室內掃描使用自動掃描解決方案。

至於外包,書籍經常是掃描完以便宜的價格從印度中國船運而來。或者,基於便利、安全以及技術改良,許多組織選擇在室內掃描,不是用耗時的高架掃描器,就是用數位相機式的掃描方法會快很多,而且這個方法跟Google的網路資料庫一樣好。傳統方法是包含切割書籍的書脊,和在一台有自動輸送頁數能力功能的掃瞄機掃描每一頁,並且在掃描完後重新裝定零散的頁數。

一旦掃描完後,資料不是手動就是經由OCR的輸入,另一項主要的花費就是書籍掃描計畫。

由於有版權爭議,大部分的掃描書籍都沒有版權,然而,Google圖書搜尋所掃描的書仍然在版權保護下,除非出版者特別的排除。

破壞性掃描

為了讓書籍掃描維持在低預算,掃描書籍或雜誌最低成本的方法就是切除裝訂。這種把書籍或雜誌轉換成一捆活葉式的紙張,可以被裝載至一個標準的自動文件供給裝置和利用低成本及一般的掃描技術來掃描。然而這對很老的書和稀有的書絕對不是一個理想的好方法,這對於書籍和雜誌的掃描是一個很好用的工具,在書籍不是很貴重的收藏品之下,作為掃描內容的替代者很簡單。用這種方法的過程會遇到兩樣技術性的困難,第一就是切除的部份,第二則是掃描的部份。

裁切

延著一個方向裁切一疊500到1000頁的文件最好的方法就是用裁切機。這是一個有著紙老虎鉗的大鋼桌旋擰下來至成堆的書堆,裁切前要確實的扣牢。裁切的完成是利用一個尖銳的大鋼葉片直直向下同時裁掉整堆文件。 葉片上的控制桿容許使用數百磅的力來達到快速的一次裁切。

想要乾淨俐落的切穿厚厚的一疊紙堆不能用傳統廉價的鐮狀鉸鏈裁紙機。這種裁切機是給較薄的紙堆用,實際上最多只能到10堆的限制。一堆大疊的紙張利用在鉸鏈上扭轉的力,拉扯葉片遠離桌子尖端。切口變的較不確定當切口遠離鉸鏈,而力道需要控制葉片在切口邊緣以增加切口移動遠離鉸鏈。

裁切機在裁切的過程隨著使用次數變多葉片會變鈍所以必須要重新磨尖。上塗料的紙像是光滑的雜誌會比平坦的書籍更加迅速的弄鈍葉片,因為有高嶺石粘土包覆。此外,切割精裝版書籍會造成過度的磨損,因為是切穿精裝版書籍的背襯。反而去除外層包裝書堆內部紙的邊緣會被切開。

掃描

文章從書脊被拆開後,傳統的平台掃描器只能單次掃描一張。然而這樣的方式非常緩慢和辛苦。使用自動的掃描器(ADF)能使掃描文件便的更加容易。

某些類型的書由於有邊緣的裝飾或者邊緣有弧度,在使用自動的掃瞄器會造成困難。ADF是特別用來掃描相同形狀和大小,因此不符合這種標準類型的書會導致無法預期的錯誤掃描。由於這些書的邊緣不一,在被拆開之前會以裁切器將其邊緣裁切平順。

上塗料的雜誌紙面與教科書太光滑使他們難以在自動文件配給裝置的滾柱上被拾起和引導到紙的路徑,ADF採用了一系列滾柱及途徑來快速翻動紙張,放至機器中有可能會阻塞而導致錯誤。一般來說,只要盡量用直線的紙張路徑少彎曲、曲線的話不太會出問題。粘土經過多次使用也會被抹掉且覆蓋黏黏的東西在滾輪上。ADF滾柱可能需要定期清理以防止使用過度而滑動。

雜誌可能會造成大量掃描的問題點,由於一些紙張不均勻的堆疊,如雜誌訂閱卡和褶皺的內頁。這些需要在拆除前開始批量掃描,如果有價值的內容會被單獨掃描,或者是被排除在掃描過程之外。

非破壞性掃描

近年來,軟體驅動的機器和機器人已發展到掃描書籍,而沒有解散他們的需要,以維護資料的內容和它目前狀態的數字化圖片檔案。

最近的趨勢是,不斷改進成像技術,可使那些很少或幾乎沒有損壞的稀少以及脆弱的書籍,在很短的時間內被存取為高品質的數字圖檔。

一些高端掃描系統採用真空、空氣、滾輪,和靜電,同時又是影像自動執行,通常是從放在可調整的V型支架高解析度攝影機中產生。

圖像穿梭的成像設備使各種編輯可以進一步處理圖像,無論是檔案的文件,如TIFF或JPEG2000;还是網頁的輸出,如JPEG或PDF文件。

法律

依據中華民國著作權法第三條「重製:指以……其他方法直接、間接、永久或暫時之重複製作」,故圖書掃描屬重製行為。

參考資料

參見

外部連結