


泛語語料庫(Pangloss Collection)是位在巴黎的法國國家科學研究中心(CNRS)口傳語言與文化研究所(LACITO)所開發的開放獲取數位圖書館,旨在採集世界各種語言的錄音(其中大部分為瀕臨滅絕的稀有語言),匯聚成一個向大眾開放的數位語料庫,從而為保護世界語言多樣性作出貢獻 [1] [2]





泛語語料庫收錄並發布第一手錄音檔(近年來也增加了一些影像檔)。其中一部分音檔經由專家學者人工轉寫成文字稿和譯文,可與原始音檔交互參照(包括語音、音韻、拼字)[6] 。每個文檔都是根據口傳語言與文化科學研究方法,通過母語人士的親口講述,由調查人員在該文化背景下忠實地將內容記錄下來[7]


自2002年以來,除了錄音跟影像資料之外,泛語語料庫還收錄了若干辭典[8] ,並在2017年將辭典系列命名為「 Lexica 」 [9]


泛語語料庫所存檔的數據採開源格式,訪客可以下載資料原始檔案(多數為創用CCCreative Commons許可協定),以便離線使用。資料庫網站提供的各式軟體工具也屬開源軟體(開放原始碼)。 此外,泛語語料庫很早就採用諸如XML等相容性高的格式,此種格式目前為數位人文科學的主流。 [10]

泛語語料庫是語言學資料庫「 開放式語言典藏組織」(OLAC[11])的一員,也是DELAMAN瀕危語言資料庫協會會員之一[12]

泛語語料庫乃CoCoON(COllections de COrpus Oraux Numériques)數位資料館的資料庫之一。CoCoON是一個技術平台,旨在支援口語語料採集人員建立、整理、歸檔語料庫。[13] 其典藏的數據儲存在「 數位人文資料存放平台」Huma-Num[14]上。


2001年時,「 LACITO歸檔方案」收藏了大約20種語言,共100篇左右的長篇語料[15] 。 2011年,泛語資料庫的館藏庫收錄了近1000卷的長篇語料,涵蓋67種語言,總計350篇語料經過轉寫和注釋[16] 。 館藏在2014年達到1400篇語料,其中大約有400篇已由人工轉寫和注釋[3] 。2016年10月時,泛語資料庫典藏了132種語言[17] 。 其館藏在2018年2月達到170種語言,3559個錄音檔跟影像檔[18] [19] 。2021年,在新一款自動轉寫軟體的幫助下,轉寫和歸檔都方便許多,一個小時便可以抵以往上百小時的工作進度。


