SimHash
SimHash是一种局部敏感的散列算法,由Moses Charikar提出。例如,当两个字符串只有细微差别时,它们的Simhash散列值同样会非常接近,这种特征就称为局部敏感。[1]因此,Simhash可用于检查两项内容的相似程度,如文档去重、检测垃圾邮件和近似重复内容[2]、被Google爬虫用于查找近似重复页面等。在2021年,谷歌宣布决定在新发布的FLoC系统中使用该算法。[3]
参考文献
- ^ Bhargava, Aditya. 算法图解. 由袁国忠翻译. 北京: 人民邮电出版社. 2017: 178–179. ISBN 978-7-115-44763-0.
- ^ Otten, Neri Van. SimHash — The Ultimate Guide And How To Get Started Guide In Python. Spot Intelligence. 2023-01-02 [2024-03-30]. (原始内容存档于2024-03-30) (美国英语).
- ^ Cyphers, Bennett. Google’s FLoC Is a Terrible Idea. Electronic Frontier Foundation. 2021-03-03 [2024-03-30]. (原始内容存档于2021-06-26) (英语).