書目探勘
書目探勘(bibliomining),就是將資料探勘技術運用於圖書館。它是資料探勘、書目計量學、統計學、報表工具的結合,以求從圖書館系統的大量資料中,粹取並了解讀者的行為模式,進而支援決策、改進服務。
起源
「書目探勘」(bibliomining)一詞是由學者Scott Nicholson提出,最早見於2003年Nicholson的“The Bibliomining Process: Data Warehousing and Data Mining for Library Decision-Making.”文章中。「書目探勘」早期在英文中,是以「Data mining in library」統稱,但Nicholson認為,多數包含“data mining” + “library”的文章, “library” 純粹指在資料探勘中的工具庫,而非討論“資料探勘應用於圖書館”,因此另創詞彙“bibliomining”予以區隔。
過程
在2003年Nicholson的“The Bibliomining Process: Data Warehousing and Data Mining for Library Decision-Making.”文章中,介紹了書目探勘的過程如下:
- 確定主題(determining areas of focus);
- 決定圖書館內部與外部的資料來源(identifying internal and external data sources);
- 建立資料倉儲,並予以收集、清理、與匿名化資料(collecting, cleaning, and anonymizing the data into a data warehouse);
- 選擇適當的分析工具(selecting appropriate analysis tools);
- 從探勘與分析的結果發掘資料樣態(discovery of patterns through data mining and creation of reports with traditional analytical tools);
- 分析與實做(analyzing and implementing the results.)
應用
至於書目探勘在圖書館領域之應用,林湧順在其碩士論文「以資料探勘技術探討高中生使用圖書館之行為模式─以國立台灣師範大學附屬高級中學為例」中,有做出如下的歸納:
資料探勘技術 | 技術應用 |
關聯規則分析 |
|
分類分析 |
|
群集分析 |
|
次序相關分析 |
|
書目探勘的資料倉儲
要進行書目探勘,必須先建立資料倉儲(data warehouse)。在2005年Nicholson的「The Basis for Bibliomining: Frameworks for Bringing Together Usage-Based Data Mining and Bibliometrics through Data Warehousing in Digital Library Services.」文章中,對圖書館的資料倉儲所應包含的內容,分為三大類別:作品(work)、使用者(user)、服務(service),有以下分別簡介:
- 作品(work):
- 來自作品本身的資訊:如作者、題名等。
- 作品的詮釋資料:如subject heading。
- 標釋出作品位置的資訊:如URL、索書號。
整體的資料倉儲概念圖,可以下圖表示: