跳转到内容

实体搜索引擎

本页使用了标题或全文手工转换
维基百科,自由的百科全书
本條目屬於網路搜索引擎系列
網路搜索引擎
元搜索引擎
國際性搜索引擎(多语言)
Google
Yahoo! Search
Bing
仅中文搜索引擎
百度
360搜索
搜狗
yam蕃薯藤
其他搜索引擎
DuckDuckGo
Ecosia
Exalead
Naver
Yandex
Alexa Internet
AOL
Ask.com
Qwant英语Qwant
其他链接

實體搜尋引擎Physical search engine)或者稱為線下搜尋引擎Off-line search engine),也稱為物聯網搜尋引擎IoT search engine),實體搜索是一種對應線下實體資訊的檢索系統,也是應用全球資訊網進行搜尋的機制, 搜尋結果類似网络搜索引擎,以條列方式展示結果,亦稱為搜索結果頁 (Search engine results page,SERP) ,實體搜尋引擎以搜尋者指定的方位為中心顯示結果,將其搜索得到的資訊做距離排序,排序距離的規則由近到遠,若資訊是同一距離時,則會加入SEO與服務狀態等因素做排序,這一點不同於网络搜索引擎僅以SEO排序,其顯示的資訊的連結同樣可以連結至網頁、影片、或其他開放的服務資訊。搜尋引擎的搜索資料技術,使用自動化資訊彙整方式達成,一般做法以網路爬蟲 (web crawler)運行演算法得出資訊。實體搜尋引擎對應實體世界實現各類資訊的搜索入口,搜尋機制與互聯網搜尋引擎相似,各類線下服務只需提供Web頁面,不需要額外製作線下搜尋App (例如 UberLyftFoodpanda, ...等Apps); 實體世界的服務與資訊搜索, 不論是定點的資訊, 或是移動的資訊,經由關鍵字搜索便可達到實時搜尋的目的。

發展歷史

1990年Montreal大學學生發明了Archie英语Archie (search engine),這是追溯網路搜尋的最早發展概念,當時全球資訊網還沒有出現,他們整理了FTP站點上所有檔的目錄列表,創建了一個可對檔案名稱進行搜索的資料庫,因此Archie被稱為搜尋引擎的始祖。

1993年Matthew Gray開發了Wanderer[1],Wanderer的技術是第一個Spider Robot,並在Web上搜索索引頁面目錄的技術,而後Jonathon Fletcher創建了JumpStation系統[2],它是世界上第一個具備 抓取、索引和搜索集於一體的搜尋引擎,接著搜尋引擎的另一個重大發展為網路爬蟲(WebCrawler),1994年搜尋引擎開始導入網站全文索引概念,它支援用戶搜索任一網頁中的任一個搜索詞,而不是僅對網頁標題進行索引。

1994年,Carnegie Mellon 大學Michael Mauldin[3]博士成立Lycos,開發以頁面網址追蹤的Robot技術,Infoseek也是同時期的一個重要代表,他們是搜尋引擎史上一個重要的進步。接著, Netherlands軟體工程師 Martijin Koster, 提出Robots Exclusion Standard[4]的 R E S概念,通過 robots.txt 抓取網址頁面,網路資訊自動化搜索自此得到完整的發展架構。

1995年12月AltaVista推出自然語言搜尋的搜尋引擎,具備了基於網頁內容分析,智慧型處理的能力,第一個實現高級搜尋語法(例如:AND、OR、NOT等)。同時期還有inktomiHotBot等搜尋引擎的競爭者。

1996年Larry Page和Sergey Brin[5],為瞭解決搜尋結果的客觀排序問題,建立一個大量連結的資料庫,藉以找出每個網頁的連結會通向什麼網站, 因而決定網站以連結數量排名的「PageRank」機制。1998年10月,Google誕生,它成為了目前世界上最流行的搜尋引擎。

1999年Auto-ID公司Kevin Ashton應用物品編碼RFID技術,最早提出了「物聯網」的概念,而後在2005年國際電信聯盟(ITU)發佈的報告中,將物聯網的覆蓋範圍延伸拓展,目標在實現人類社會與物理系統的整合,物聯網與物理系統開始有了對應概念。

2004年Glasgow大學提出最早的實體搜尋引擎技術概念, 開發開源搜索引擎技術Terrier[6],利用RFID以及聯網裝置對應實體方位的做法, 實現實體物件的搜尋方法, 並期望在2014年實現實體世界的搜尋應用, 但最終此構想沒有如期完成。Snoogle[7]以及St. Joseph Engineering College[8], 也有類似的架構提出實體搜尋引擎技術。

2005年2月在Google部落格上首次公佈Google地圖,它實現了雲端資訊對應線下實體資訊的搜索的系統。Google地圖的服務資訊沒有應用網路爬蟲進行雲端資訊整合,其資訊來源為Open data,以及用戶自行上架的資料,它雖然不是典型的搜尋引擎,但其應用則開啟線下資訊搜尋的開端。Google地圖目前在全球多國開通了「街景」(Street View)服務,使用者可以通過由Google金龜車在街道上拍到的影像檢視街景。2011年10月7日,Google地圖新增了3D鳥瞰功能。

2008年Apple發展並建立AppStore服務機制,行動服務市場的開始爆發,智慧型手機以App做為核心的應用,引爆了移動「互聯網」概念,並開啟了「物聯網」時代,服務型態開始著重在用戶與實體資訊關係,早期的車隊的管理架構,應用App開始走向開放服務市場,發展至今線下普遍以App做為線下搜尋應用例如,Uber、Lyft、Foodpanda等。

2011年7月浙江大學[9]提出以URL結合定點方位, 對應實體物件的Web資訊, 實現實體搜尋引擎方法與架構, 以及2011年12月InTimeGo[10]提出Web資訊結合定點與移動方位的方法,開啟物聯網(IoT)與 Web 融合的概念,這個使用情境稱之為 Web of ThingsWoT)。Web世界的URL可以說是鏈接的基礎,每個物件都可利用特定URL來對應其特有資訊與方位,WoT 概念之所以重要,在於開始有了 Web 實體化的應用概念, 過去 Web 只是物品雲端上的資訊,WoT 讓Web資訊開始對應到真正的實體方位。2016年Google應用此概念, 發表類似iBeacon讀取近端實體資訊的方法, 命名為「The Physical Web」計畫, Google對於「The Physical Web」發展構想, 希望進而實現近端實體搜尋的機制[11]

2011年10月武漢大學首先發表實體搜索爬蟲和資訊抽取研究方法[12],開啟了自動化資訊彙整的實體搜尋引擎創新思維, 但網路爬蟲彙整的實體資訊,除了實體位置還包含各類服務的狀態資訊, 如何制定涵蓋廣泛的服務應用規範與定義, 最終為實體搜尋引擎的資訊整合能力的指標, 對此微軟公司[13]以及中國大陸的電子科技大學[14]東南大學[15]等, 也陸續提出相關的應用規範與定義。

2014年11月Amazon AlexaAmazon智慧型喇叭Echo一同發布。其概念源自於Apple的語音應用, 藉由Siri語音呼求,為實現線下服務搜尋整合入口,並達到物聯網裝置互聯的機制,Amazon Alexa提供一種與App應用服務串接的方法,名為 Alexa Skills Kit (ASK) 的開發包,它是一種開放式的串接介面,實際上是把物聯網相關業者的服務彙整在一起,利用語音呼求的方式,達成在地化的服務搜尋機制,不過這樣的服務串接方案所費不貲,Amazon推出1億美元的Alexa Fund,以鼓勵開發者參與Alexa語音技能的開發,Amazon從創新性、消費者關聯度、與 ASK 的關聯度等角度衡量開發者專案,一旦通過就會提供一筆資金回饋業者。Amazon Alexa雖然並非典型的搜索引擎,但對於線下移動服務搜尋方式,則為第一個實現線下服務搜尋整合入口的架構,其後Google、Microsoft百度阿里巴巴騰訊京東等後進者,也紛紛推出類似架構的線下服務搜尋整合入口。

2017年9月創新工場李開復首先發表了一個新的商業模式: OMOOnline-Merge-Offline)線上線下虛實融合模式[16],OMO 是O2O營銷模式的巨大演進,且預測在10年內完成線上線下一體化,汽車、商店、商場、診所和學校等現實世界的場景和行為即時資料化,自此,資料世界和實體世界將完全整合,線上線下的界限消失,將讓互聯網對實體行業的滲透率提升至100%。李開復認為,未來OMO的新商業浪潮將推動,未來發展線上線下融合的新零售、實體世界的資料化以及實體搜尋等領域,再加上AI技術的輔助,將會締造巨大的藍海商機與願景[17]。OMO驅動潮流之下, 互聯網下一個焦點將朝向新零售服務、線下服務搜尋以及線下大數據發展,也為實體搜尋入口的發展鋪陳一個全新願景。

2019年8月大千搜尋提出定點或移動位置數據的整合規範[18],發布首個自動化資訊彙整的實體搜尋引擎[19],其構想的方法源於大千搜尋創辦人黃柏堯,首先定義「互聯網」與「物聯網」服務模型之差異[20],以釐清「互聯網」與「物聯網」相互之間的混淆概念,應用其「物聯網服務模型」整合實體各類服務資訊與方位,延伸雲端搜尋引擎的技術運作機制,以Web資訊結合Location成為Location Web,實現服務資訊的OMO (Online-Merge-Offline)虛實融合效益,並藉由網路爬蟲自動彙整線下的人/車/物資訊,成就一站式的線下資訊搜尋入口。

2019年10月Gabriel Rene提出“The Spatial Web”概念[21]Spatial Web是一種場域空間虛實融合的技術,每個場域空間可以獨立建構應用,如果要構成實體世界的連續性視角,將面臨不同場域空間的銜接問題,不過基於Web3.0驅動Spatial Web開放系統, 可以為未來場景統合與銜接的發展鋪路。對於實體搜尋引擎應用發展而言,應用Location Web概念,可以解決不同應用服務領域資訊統合問題,而Spatial Web可以將Location Web的資訊呈現方式, 擴展成為對應三維空間的形相與方位。

2020年物聯網領域知名顧問公司SRI Consulting描繪之物聯網技術路線,綜合物聯網發展的型態與目標, 歸納物聯網依據時間軸發展, 可分為四個階段分別為:供應鏈輔助、垂直市場應用、無所不在的定址(Ubiquitous positioning),最後可以達到「The Physical Web」,意即讓物聯網上的每一個智慧型裝置都以URL來標示[22],呼應實體世界的每個物件都可利用特定URL來對應其特有資訊與方位,據此發展趨勢,實體搜尋引擎將更易於獲取實體資訊。

技術與服務差異

搜尋引擎之服務功能差異

實體搜尋引擎承襲了網路搜尋引擎的主要技術架構, 但為了區別搜尋引擎服務功能的世代差異, 以下將之分別稱為「互聯網」搜尋引擎與「物聯網」搜尋引擎。 「互聯網」與「物聯網」的差異在於,互聯網僅將資訊引導至線上,物聯網則是將資訊達成線下線上融合,物聯網其實就是線下線上虛實融合的發展趨勢, 這也相應於創新工場李開復先生所提的OMO (Online-Merge-Offline)服務模式 。物聯網與實體世界服務型態其實完全一致, 物聯網的發展目標, 則是在線上創造一個對應線下實體的世界, 目的在解決人類因地域的資訊限制, 可以藉由線下實體搜尋與大數據服務, 提升周遭資訊的服務效能, 藉以創造更加「直接」「即時」「便利」的生活方式。

實體搜尋引擎具備之特點

線下線上虛實融合的搜尋應用, 目前有了Google 地圖, 為何還是需要發展物聯網搜尋引擎呢? 其實這個癥結在於Google地圖並非搜尋引擎, 最終發展的潛力將不及搜尋引擎 , 如同2000年以前Yellow Page與搜尋引擎的競爭, 最終Yellow Page資料總量不敵搜尋引擎的量級而退場。搜尋引擎可以創造資料總量的優勢, 至少需具備以下三個特點:

  • 搜尋引擎資料來自不同的系統: 資料來自不同的系統, 也就是來自不同的伺服器, 如此可以跨應用跨服務整合, 也進而達成搜尋線下萬物的搜尋入口 , 屆時也不需要額外製作線下搜尋App, 例如 Uber, Foodpanda這類App, 可以直接經由物聯網搜尋引擎, 便可搜尋線下所有服務。
  • Spider Robot資訊收集機制: 創建Robot機制的目的在於, 自動匯集全球資訊 ,比起資料來源於自家建立, 或者自家會員提案, 擁有更為巨大的量級潛力。
  • 優異準確率的搜尋能力: 搜尋產出的結果關聯於Ranking演算技術, 「互聯網」與「物聯網」有其差異, 所以相互間無法直接套用, 「物聯網」需要考量服務距離, 服務狀態等因素, 加入索引與排序的演算機制, 需要重新優化之後, 才能實現滿意的搜尋結果。

而Google 地圖搜尋方式, 依據標題與分類的關鍵字等因素得出結果, 搜尋演算尚屬直覺簡單, 估計仍在發展階段, 然而最關鍵的因素在於, Google 地圖沒有符合前兩個特點的任一項 , 如同Yellow Page搜尋機制, 最終將成為物聯網時代的過渡性搜尋應用。

Web發展的必要性

綜觀現階段線下實體搜尋方式,普遍以App做為線下搜尋應用 (例如,Uber、Foodpanda等) ,事實上App應用架構難以實現跨應用跨服務的整合入口。行動裝置發展初期,因為硬體效能不足的因素,App相比於Web擁有較佳的效能表現,所以PC或行動裝置發展初期, 都是優先發展App應用, 回顧PC的發展史,一開始便先發展App應用, 然後慢慢過渡到Web應用,例如過往在PC玩遊戲, 或查閱字典, 過往都需要安裝App,現在的PC已甚少安裝App的面向來看,行動裝置應不難推測將歷經相同的發展過程。目前主流App設計採用的是資料串接方式,實際上這是一種封閉架構,難以如同開放性的Web具備跨應用跨服務的資訊整合特性,加之用戶端實際上安裝App數目有限,大部分Apps在用戶端沒有市場,根據Adjust近年App應用的統計數據得知,前十排名的App便佔據八成五以上流量,並且高達九成以上的僵屍App [23],這已形成非常嚴重的軟體資源浪費,App應用架構若沒有相應方案改善, 不僅不利於發展資訊共用的任何服務,也不利於發展跨應用的線下服務整合入口,故驅使W3C (World Wide Web Consortium)開始著眼定義物聯網 (Internet of Things)前瞻的應用規範,以Web 或Web of Things [24]WoT英语WoT)方式推動線下服務應用。

参考資料

  1. ^ 1993-06, Matthew Gray Develops the World Wide Web Wanderer.. [2021-02-22]. (原始内容存档于2020-08-07). 
  2. ^ 2013-09-03, Jonathon Fletcher: forgotten father of the search engine. [2021-02-22]. (原始内容存档于2021-02-28). 
  3. ^ 2021-02-21, Lycos founder Mauldin returns to company after 17 years. [2021-02-22]. (原始内容存档于2018-03-03). 
  4. ^ 2013-12-15, What is the Robots Exclusion Standard?. [2021-02-22]. (原始内容存档于2020-10-01). 
  5. ^ 2019-06, Larry Page and Sergey Brin
  6. ^ 2012-06-14, Search Engine Queries Physical World In Real Time. [2021-03-06]. (原始内容存档于2021-01-19). 
  7. ^ 2004-12, Snoogle: A Search Engine for the Physical World
  8. ^ 2017-06, Search Buddy: A Search Engine for Physical Objects. [2021-03-06]. (原始内容存档于2019-10-02). 
  9. ^ 2011-07, What-you-retrieve-is-what-you-see: a preliminary cyber-physical search engine (PDF). [2021-03-23]. (原始内容存档 (PDF)于2020-01-25). 
  10. ^ 2011-12-21, 物件搜尋服務引擎及移動資訊管理系統架構 (PDF). [2021-03-23]. (原始内容存档 (PDF)于2021-01-09). 
  11. ^ 2016-02-19, With The Physical Web, You Become The Search Engine. [2021-03-23]. (原始内容存档于2021-01-27). 
  12. ^ 2011-10, 實體搜索爬蟲和資訊抽取研究方法[失效連結]
  13. ^ 2012-12, 基於實體的搜索和解析
  14. ^ 2014-10, 基於Web的實體資訊提取和搜索研究[失效連結]
  15. ^ 2015-01, 一個面向語義 Web的實體探索系統
  16. ^ 2017-12-12, 李開復暢談OMO時代的出行
  17. ^ 2017-11-30, BAT之後下一個超級公司會從OMO領域中產生
  18. ^ 2019-12-09, 線下服務應用與HTML規範發展[失效連結]
  19. ^ 2019-11-20, 線上線下萬物聯網 「大千搜尋」首創實體搜尋引擎服務. [2021-02-22]. (原始内容存档于2021-01-08). 
  20. ^ 2020-04-21, 解析物聯網的真實商機與發展方向. [2021-04-10]. (原始内容存档于2021-01-09). 
  21. ^ 2020-10-02, An Introduction to The Spatial Web. [2021-04-12]. (原始内容存档于2021-07-05). 
  22. ^ 2020-08-13, APPENDIX F: THE INTERNET OF THINGS (BACKGROUND). [2021-04-10]. (原始内容存档于2021-04-10). 
  23. ^ 2016-09-05, Statista: 90% Of All iOS Apps Are Zombies. [2021-02-22]. (原始内容存档于2021-01-09). 
  24. ^ 2021-02, WEB OF THINGS AT W3C. [2021-02-22]. (原始内容存档于2021-03-09).