假名化
假名化(Pseudonymization)是一種數據管理和去識別化過程。該過程通過使用人工標識符或假名取代原始數據記錄內的個人身份信息 [1]實現了在不影響數據分析和數據處理的前提下做好個人私隱信息保護工作。
歷史
假名這一概念在計算機加密中最早在1981年由David L. Chaum在描述一種使電子郵件接收者無法追蹤發信人的論文[2]中提出,文中作者提出了一種通過公私鑰生成的數碼化假名代替真實名稱來進行不記名的工作(如投票計數)的方法。
2000年,Andreas Pfitzmann在題為《匿名性、不可觀測性和偽 假名性ーー一個術語學建議》一文中,首次對名詞「假名」及其動詞形式「假名化」做了正式定義——假名是一種可以識別某一主體的標識符,而該主體被稱為假名的持有者。[3]
文中舉例:在一個互發消息的場景下,沒有假名時,發送者和接收者都在使用其可以聯繫到真實世界個人的個人信息進行交流,而應用假名後,發送者通過長時間使用同一個假名,可以做到與接收者建立聯繫的同時,隱匿自己的真實個人信息,從而做到對個人信息的保護。
2008年,ISO組織在ISO-TS-25237-2008 - Health informatics — Pseudonymization標準中提出了在醫療健康領域信息處理過程中,如何使用假名化技術在國內或跨境通信中保護患者個人私隱的方法。標準中提出了假名化相關的一系列定義[4]:
- 假名化:刪除識別數據集和數據主體之間關聯的過程
- 假名數據:信息接收者無法識別患者真實身份的數據
- 假名標識符:無法明確識別自然人的人類標識符
發展
隨着計算機技術和互聯網的發展,互聯網服務迅速擴張,其對個人身份信息的索取、存儲和應用的訴求也隨着其規模擴大而迅速擴大。由於數據泄露導致的公民信息泄露事件頻發,各國監管機構因此提出了一系列數據保護相關法律法規,其中對 假名化存儲個人身份信息提出了不同的要求。
國家或地區 | 法律法規 | 生效時間 | 描述(原文) | 描述(譯文) |
---|---|---|---|---|
歐盟 | GDPR Art.4 (5)[5] | 2018年5月25日 | 『pseudonymisation』 means the processing of personal data in such a manner that the personal data can no longer be attributed to a specific data subject without the use of additional information, provided that such additional information is kept separately and is subject to technical and organisational measures to ensure that the personal data are not attributed to an identified or identifiable natural person; | 「假名化」指處理個人資料的方式,令資料在缺乏可識別資訊的情況下無法被歸屬於特定自然人,且該些可識別資料須與處理後的資料分開保存,並須遵循組織與技術規範,以確保安全; |
美國加州 | CCPA 1798.140.(aa)[6] | 2018年10月 | (aa) 「Pseudonymize」 or 「Pseudonymization」 means the processing of personal information in a manner that renders the personal information no longer attributable to a specific consumer without the use of additional information, provided that the additional information is kept separately and is subject to technical and organizational measures to ensure that the personal information is not attributed to an identified or identifiable consumer. | |
中國大陸 | GB/T 37964-2019[7] | 2019年8月30日 | 假名化技術是一種使用假名替換直接標識(或其它敏感標記識符)的去標識化技術。假名化技術為每一個人信息主體創建唯一的標識符,以取代原來的直接標識或敏感標識符。 |
在歐盟,假名化是遵守歐盟新出台的《通用數據保護條例》 (GDPR)對個人信息安全存儲要求的一種方式。 [8]通過添加可重新識別個人的信息,可以將假名數據恢復到原始狀態。相反, 假名化是為了防止重新識別數據集內的個人。歐盟委員會通過的實施決定 (EU) 2021/914 第 18 條第 4 模塊腳註 2「要求以某種方式將數據 假名化,使個人不再被任何人識別……並且該過程是不可逆的。」 [9]違反這一要求可能導致互聯網服務商遭受2,000萬歐元或全球營收4%(取較大者)的罰款。
施姆雷斯案判決的影響:如何進行假名化
2020 年,活動人士施姆雷斯向愛爾蘭數據保護機構舉報稱,FaceBook將歐洲個人數據傳輸到其美國總部的做法違反GDPR要求,使得歐洲對個人私隱保護的努力付之一炬。儘管歐盟與美國之間簽署的《數據私隱框架協議》[10]載明美國實體「可以將個人數據傳輸美國」,但在20年歐洲法院的判決中,歐洲法院認為Facebook違反了GDPR[11]。此事發生後,歐盟多次就如何合規安全的向歐盟外傳輸數據提出要求。2021 年 12 月 9 日,歐洲數據保護監督機構 (EDPS) 強調,假名化是遵守施姆雷斯案判決的首要技術補充措施。 [12]不到兩周後,歐盟委員會強調,韓國也需要如同美國一樣遵守假名化要求。 [13]
2021 年 6 月,歐洲數據保護委員會(EDPB) 和歐盟委員會強調,符合 GDPR 的假名化要求是在符合歐洲法院施姆雷斯案裁決下使用部署在非歐盟地區伺服器時持續合法使用歐盟個人數據的最新技術補充措施,這顯著提高了符合 GDPR 要求的假名化的重要性。 [14]根據 GDPR 和最終的 EDPB Schrems II 指南, [15]術語「假名化」要求一種新的受保護的數據「狀態」,從而產生以下受保護的結果:
(1)保護直接、間接、准個人標識符,以及特徵和行為;
(2)為了使得數據在任何地方,包括在使用過程中都能得到保護,保護措施應設置在記錄(數據條目)和數據集級別——而不僅僅是在字段級別
(3)通過在不同時間為各種目的動態分配不同的令牌來產生高熵(隨機)水平,防止通過馬賽克效應進行未經授權的重新識別。
假名化的做法、弱點和與匿名化的區別
假名化對數據攜帶的信息量是有損的——通常這會導致數據信息量減少。因而企業在進行假名化處理中需要謹慎選擇需要假名化處理的數據字段。
選擇對哪些數據字段進行假名化在一定程度上是主觀的。某些看起來不具有識別性的數據一般也被要求進行處理,如出生日期或郵政編碼——因為它們通常可從其他來源獲得,通過組合其他信息使得整條記錄更易關聯到特定個人。然而,將這些不太具識別性的字段進行假名化會消除其大部分分析價值,因此實踐中通常將其替換為更不具識別性的數據——例如出生年份或更大的郵政編碼區域。
那些不太具識別性的數據字段,例如出勤日期,為了不損失統計價值通常不會被假名化。這當然是有風險的,例如,只要預先知道幾個出勤日期,就很容易通過僅選擇具有該日期模式的人來在假名數據集中識別某人的數據。這是假名化的弱點之一——推理攻擊:一個著名的例子是美國在線搜索數據醜聞。 在此事件中,儘管AOL的數據集不包含任何明文個人識別信息,但是其中包含的用戶搜索歷史數據經過分析仍能將假名化存儲的用戶名指向現實世界的個人。
在保證假名數據無法被重新關聯到個人的同時保護假名數據的統計價值需要:
- 完善的信息安全基礎
- 控制分析師、研究人員或其他數據工作者造成私隱泄露的風險
相比完全無法追溯來源的匿名化數據,假名化數據可以追溯到其來源: [16]在匿名化中,所有允許回溯的與個人相關的數據都已被清除。
另見
參考
- ^ General Data Protection Regulation. 4(5). [2024-05-22]. (原始內容存檔於2018-05-21).
- ^ Untraceable electronic mail, return addresses, and digital pseudonyms. dl.acm.org. [2024-05-22]. doi:10.1145/358549.358563. (原始內容存檔於2024-05-22) (英語).
- ^ Pfitzmann, Andreas; Köhntopp, Marit. Anonymity, Unobservability, and Pseudonymity — A Proposal for Terminology. Federrath, Hannes (編). Designing Privacy Enhancing Technologies: International Workshop on Design Issues in Anonymity and Unobservability Berkeley, CA, USA, July 25–26, 2000 Proceedings. Berlin, Heidelberg: Springer. 2001: 1–9. ISBN 978-3-540-44702-3. doi:10.1007/3-540-44702-4_1 (英語).
- ^ 存档副本. www.iso.org. [2024-05-22]. (原始內容存檔於2016-06-17).
- ^ Art. 4 GDPR – Definitions. General Data Protection Regulation (GDPR). [2024-05-22]. (原始內容存檔於2024-06-24) (美國英語).
- ^ Law section. leginfo.legislature.ca.gov. [2024-05-22]. (原始內容存檔於2024-05-24).
- ^ 国家标准|GB/T 37964-2019. openstd.samr.gov.cn. [2024-05-22]. (原始內容存檔於2024-05-22).
- ^ Skiera, Bernd. The impact of the GDPR on the online advertising market. Klaus Miller, Yuxi Jin, Lennart Kraft, René Laub, Julia Schmitt. Frankfurt am Main. 2022. ISBN 978-3-9824173-0-1. OCLC 1303894344.
- ^ Commission Implementing Decision (EU) 2021/914. Official Journal of the European Union. 7 June 2021 [5 January 2024]. (原始內容存檔於2024-06-21).
- ^ DATA PRIVACY FRAMEWORK. [2024-05-22]. (原始內容存檔於2024-06-22).
- ^ Schrems II a summary – all you need to know. GDPR Summary. [2024-05-22]. (原始內容存檔於2024-05-22).
- ^ IPEN webinar 2021: Pseudonymous data: processing personal data while mitigating risks. European Data Protection Supervisor. 9 December 2021 [4 January 2024]. (原始內容存檔於2024-05-27).
- ^ Commission Implementing Decision 2022/254. Official Journal of the European Union. 24 February 2022 [4 January 2024]. (原始內容存檔於2024-05-16).
- ^ Press Release No 91/20 (PDF). Court of Justice of the European Union. 16 July 2020 [4 January 2024]. (原始內容存檔 (PDF)於2024-06-18).
- ^ Recommendations (PDF). European Data Protection Board. 18 June 2021 [5 January 2024]. (原始內容存檔 (PDF)於2024-05-19).
- ^ http://dud.inf.tu-dresden.de/literatur/Anon_Terminology_v0.31.pdf (頁面存檔備份,存於互聯網檔案館) Anonymity, Unlinkability, Undetectability, Unobservability, Pseudonymity, and Identity Management – A Consolidated Proposal for Terminology