網站分析

维基百科,自由的百科全书

網站分析 (Web Analytics) 是種網站訪客行為的研究。於商務應用背景來說,網站分析特別指的是來自某網站蒐集來的資料之使用,以決定網站佈局是否符合商業目標;例如,哪個登陸頁面比較容易刺激顧客購買慾。

這些蒐集來的資料幾乎總是包括網站流量報告,也可能包括電子郵件回應率、直接郵件活動資料、銷售與客戶資料、使用者效能資料如點擊熱點地圖、或者其他自訂需求資訊。這些資料通常與關鍵績效指標比較以得效能資訊,並且可用來改善網站或者行銷活動裡觀眾的反映情況。

目前市面上有許多不同的行銷商皆提供網站分析軟體以及服務

網站分析技術

目前有兩種主要收集網站分析資料的技術手段。第一種方法,即所謂'日誌檔分析──意即讀入伺服器紀錄其所有交易的日誌檔進行處理。第二種方法,加網頁標籤──利用插入JavaScript於每一頁來告知第三方的伺服器某頁被網頁瀏覽器所讀取。


網站伺服器日誌檔分析

市面上各家網頁伺服器自發展初隨時都會紀錄其所有的交易於一個日誌檔裡頭。這種特性不久就被網管意識到可以透過軟體讀取它,以提供網頁流行度的相關資料;從而造成網站日誌分析軟體的興起。

90年代早期,網站統計資料僅是簡單的客戶端對網站伺服器請求 (或者訪問) 的記數值。一開始這是挺合理的方法,因為每個網站通常只有單一個 HTML 檔案。然而,隨著圖形進入 HTML 標準,以及網站擴增至多重 HTML 檔案,這種記數變得沒什麼幫助。最早真正的商用日誌分析器於1994年由 IPRO 發行[1]

90年代中期,兩種計量單位被引入以更準確的估計人類於網站伺服器上的活動總數。它們是網頁點閱數(Page Views) 以及訪問量 (Visits,或者工作階段(Session))。一次的網頁點閱數定義為客戶端對伺服器提出某單一網頁讀取請求,恰好為對某一圖形請求的相反;而一次的訪問量則定義為來自於某一唯一已識別的客戶端對伺服器一連串請求直到閒置一段時間──通常為30分鐘──為止。網頁點閱數與訪問量仍舊在報告上十分常見,不過現今它們被當作是過於簡單的量度。

90年代末期,隨著網路蜘蛛與機器人問世,伴隨著大型企業以及網際網路服務提供商使用代理伺服器動態指定IP位址,鑑別某網站單一訪客變得更困難。對此,日誌分析器以指定Cookie作為追蹤訪問量的對策,並忽略已知的蜘蛛機器人的讀取請求。

網頁快取的廣泛使用也造成日誌分析上的問題。如果某人再度造訪某頁,第二次的讀取請求通常由網頁瀏覽器快取達成,因此網站伺服器端不會接受到此請求。這意味著該訪問者瀏覽過該站的「足跡」丟失。快取與否可於設定網站伺服器時克服,不過這可能導致降低該網站的效能。

加網頁標籤

由於對日誌檔案分析於快取存在下準確性的關注,以及渴望能實現把網站分析當作是種外包的服務,導致第二種資料收集方法:加網頁標籤,或稱網蟲(Web bug) 的出現。

90年代中期,網頁計數器已經普及──這些計數器以包含在網頁中的圖像出現,顯示多少次該圖像被讀取過。而圖像內容就是顯示大約該頁被拜訪次數的數目。90年代晚期,這種做法延伸至包括一個微小不可見圖像,而非可見的。並且,透過 JavaScript,圖像請求的某些關於網頁和訪客的訊息被傳遞到第三方伺服器方。這些資料隨後被網站分析公司處理並產生詳細的統計資料。

網站分析服務也代管指定cookie到使用者的過程。這種方式可以鑑別各個唯一訪客初次以及隨後的拜訪。

隨著Ajax為主解決方案普及,一種利用不可見圖像的替代方案實現了從讀取頁面「回電」伺服器的機制。在這個情況下,當某網頁被網頁瀏覽器讀取,該頁某部分Ajax 代碼將致電回伺服器並遞送有關用戶端的資訊,隨後被送到網站分析公司做彙整。這在某些方面還是有漏洞,因為某些瀏覽器限定哪種XmlHttpRequest物件可與伺服器聯繫。


網站日誌分析與加網頁標籤的比較

網站日誌分析與加網頁標籤兩者都已經很成熟可供有意公司進行網站分析。在許多情況下,同一家網站分析公司甚至同時提供這兩種方法。那問題便回到公司該選用哪種方法。兩種方法各有優缺:

網站日誌分析優點

網站日誌分析較加網頁標籤為優的主要有下列幾點:

  • 網頁伺服器一般已經產生日誌檔案,故原始資料已經存在。而透過加網頁標籤方式蒐集資料網站得做些改變。
  • 網頁伺服器依靠每次網頁需求與回應的處理發生。加網頁標籤依靠訪客網頁瀏覽器幫助。而佔某些比例的瀏覽器可能達不到 (瀏覽器禁用 JavaScript 便是一例)。
  • 蒐集來的資料位於公司自己的伺服器,而且它是標準格式,而不是某種私有格式。這使得該公司日後要換它種分析程式,或者與其他程式整合,以分析過去歷史資料變得容易。加網頁標籤方案可能遭服務商封鎖
  • 日誌檔亦包括來自搜尋引擎蜘蛛的訪問資訊。雖然無法被歸為客戶行為的一部分,這些資料對搜尋引擎最佳化來說很重要。
  • 日誌檔亦包括請求失敗的資訊;加網頁標籤只有紀錄該網頁成功被讀取時的事件。

加網頁標籤優點

加網頁標籤較網站日誌分析為優的主要有下列幾點:

  • 每當網頁載入時 JavaScript 會自動執行。因此對快取顧慮較少。
  • 加入額外資訊到 JavsScript 比較容易。這些稍後可以被遠端伺服器蒐集。舉例來說,訪客的螢幕大小,或者購買的商品單價。而網站日誌分析,網站伺服器無法正常的蒐集到的資訊只可透過改變網址來蒐集到。
  • 加網頁標籤可回報對網站伺服器不發生請求的事件,例如與Flash影片片段間的互動。
  • 加網頁標籤服務管理了指定cookie給訪客的過程;至於日誌分析,伺服器得特別設定才能達成。
  • 加網頁標籤能幫助沒有自己網站伺服器的某些中小公司。


經濟因素

網站日誌分析大部分總是在公司內部進行;加網頁標籤也可以,但它以第三方提供的服務方式更為常見。介於這兩種模式的經濟方面差異亦常為公司考量採用因素。

  • 網站日誌分析傳統包括一次性軟體購買。然而,許多軟體商也採用最大年度網頁瀏覽數為主的、處理額外資訊額外付費的計價方式。
  • 加網頁標籤大部分採月費模式,雖然某些廠商提供安裝加網頁標籤不另收網頁瀏覽數費用的方案 (例如 Google Analytics)。

至於哪種方案比較便宜常常取決於公司內對此道技術專精程度、選擇哪家廠商、欲對網站活動了解程度、欲對資訊型態了解深度、以及個別網站本身對統計資料的種種需求而定。

兩者混用

許多公司目前出品的軟體蒐集資料同時透過日誌檔與加網頁標籤。透過混用方式,它們的看準該方法會產生比二者其一更準確的統計資料。第一個混用解決方案是由 Rufus Evison 於 1998 年提出,並隨後隨著成品上市他成立公司專門處裡日漸準確的混用法[2]

其他方法

其他資料收集方法多多少少有人試,不過達不到廣泛的利用。這些包括整合網站分析程式進網路伺服器,以及透過嗅探介於網頁伺服器與外在世界間的網路流蒐集資料。封包嗅探用於許多最大型的電子商務站點,因為它不需改變網站或者伺服器,並且日常營運無法與之妥協。它亦提供較好的即時或者日誌檔格式資料,並且容易餵資料給資料倉儲與將資料加入客戶關係管理系統與企業資料裡。

加網頁標籤也有另一種方法。除了從使用者方取得資訊,當她或他開啟網頁時,亦可能讓腳本於伺服器端工作:伺服器端先接收使用者資訊後才遞送網頁資料。

關鍵詞定義

在網站分析領域裡,並沒有放諸四海皆同的定義,故業界正努力同意一些相當有用且在某些時候可靠的定義。已對此領域有貢獻的主要團體有 Jicwebs (網路標準工業委員會,Industry Committee for Web Standards) / ABCe (發行量稽核組織電子部,Auditing Bureau of Circulations electronic, 英國與歐洲)、WAA (網站分析協會,美國),至比較小範圍的 IAB (互動廣告局,Interactive Advertising Bureau)。這並不妨礙下面列表的成為有用的指引,只是解釋稍稍會有點模糊而已。WAA 與 ABCe 兩者都提供更多可靠的列表,以供查考。

  • 點擊(Hit) — 一次對來自網頁伺服器上檔案的請求。只有在網站日誌分析才有。網站有多少點擊量通常用來聲稱該站流行度,不過該數目極度的使人誤解並且戲劇性的過度高估其流行度。單一網頁通常包括多重 (通常一打) 個別的檔案。每個檔案隨網頁的下載亦被記入點擊,故點擊量實際是個過度武斷的數字,它反映了個別網頁的複雜度,而非實際上的流行度。訪客總數或者網頁點閱數提供更實際與正確的流行度估計。
  • 網頁點閱數(Page View) — 對某檔案,其檔案型態於日誌分析中定義為網頁,的一次請求。亦定義為加網頁標籤法中腳本被執行一次。在日誌分析中,隨著所有一網頁需求資源 (圖像、.js 、與 .css 檔案) 的讀入,一次網頁點閱率可能產生多次的點擊。
  • 訪問量 (Visits) / 節區(Session) — 來自同樣唯一已識別用戶的一系列的請求並附失效時間。一次訪問預期會包括多重的點擊 (於日誌分析) 與網頁點閱數。
  • 首次訪問 / 首次節區 (First Visit / First Session) — 一次來自從未曾造訪過訪客的訪問。
  • 訪客 / 唯一訪客 (Visitor / Unique Visitor) — 於預定時間區段 (例如:天、週、或月) 唯一已鑑別的對網頁伺服器產生要求 (日誌分析) 或者閱覽網頁 (加網頁標籤) 的客戶端。唯一訪客於時間區段只有計算一次。訪客可以多次拜訪。唯一訪客目前是僅有強制的變量系統在發行量稽核局電子部 (ABCe) 審核利用[3]
  • 重複訪客 (Repeat Visitor) — 某訪客至少有一次先前造訪紀錄。介於現行與最近造訪期間被稱做訪客嶄新度 (visitor recency),它以天計算。
  • 新訪客 (New Visitor) — 某訪客沒有任何先前造訪紀錄。這定義產生相當多的誤解 (參見以下常見迷思一節),並且有時為首次訪問分析所取代。
  • 印象 (Impression) — 一次印象是為每次某廣告載入使用者畫面上。任何時候你看到網站廣告橫幅,那就算一次印象。
  • 單體 (Singletons) — 僅僅某單一網頁被檢閱的訪問數。雖然對變量系統或者其本身部是那麼有用,單體數是各種不同形式「點擊欺騙」的指標,同時它亦常用以計算跳出率;還有在許多情況下用來鑑別自動機 (就是「機器人」)。
  • 跳出率 (Bounce Rate) / %離開率 (%Exit) — 指的是訪客於某頁進入相同網頁離開,期間未拜訪任何其他頁,佔多少造訪的百分比。

網站分析常見迷思

旅館問題

旅館問題一般是網站分析使用者遭遇到的第一個問題。這個術語最早由 Rufus Evison 於電子變量系統高峰會 (Emetric Summit) 其中一次解釋問題中提出。現在已經十分普及用於簡單地描述網站分析問題及其解決方案。

該問題是一個月中裡每日的唯一訪客群累加成該月相同唯一訪客群總數。這個情況出現在沒經驗的使用者對其使用的分析軟體結果產生疑問。實際上它不過是其中公制定義裡簡單的特性。

對此疑問視覺化的方法是,想像一個旅館,該旅館有兩個房間 (房間甲與房間乙):


第一天 第二天 第三天 總計
房間甲 張三 張三 李四 2 位唯一使用者
房間乙 王五 李四 王五 2 位唯一使用者
總計 2 2 2 ?


如表格所示,旅館在三天內每天有兩個唯一使用者。據此加成總合所有天數得到六。

在此時段裡每個房間有兩個唯一使用者。據此加成總合所有房間得到四。

實際上在該段時間裡旅館只有三位訪客。問題出在某人如果待兩晚照每日算人頭一次的話將被計算兩次,然而如果按照整段時間計算的話只被計算一次。任何網站分析軟體將於規定的時段正確的加總這些,因此導致當使用者試著比較總數時,問題就來了。

新訪客 + 重複訪客並不等於全部訪客

另一個網站分析常見的迷思是新訪客與重複訪客加總應該是訪客總數。再一次說,在小規模如果訪客們都個別閱覽情況下事情就變得清楚明瞭,不過這仍舊造成對分析軟體不工作的大量抱怨,因為使用者並不了解變量系統。

這裡的罪犯是新訪客。當你從時間前進的角度考慮一個網站,實際上並沒有新訪客這種東西。如果某訪客於某日第一次拜訪,隨後於同一天回到該網站,這些人實際上於該日同時是新訪客和重複訪客。所以如果我們都把他們看作是個個體,那該歸新訪客重複訪客的哪一類?答案是兩者都是。故變量系統定義在此有瑕疵。

一個新訪客並不是一個個體;它只是網站計量的一個事實而已。為了這個理由,最容易的方法是概念化這問題同一方面為首次訪問 (或者首次區間)。這解決了定義衝突與了解混淆。不會有人把首次訪問數量加到重複訪客數量以得到訪客總數。這變量系統將會有相同數目的新訪客,不過還是不要加進這個辭會更清楚。

回到我們之前的問題,有許多我們選擇個體的首次訪問,亦有來自相同個體的重複訪問。首次訪問量與重複訪問量將會相加成該日的總共訪問量。

網站分析方法

Cookie的問題

在歷史上,加網頁標籤分析解決方案供應商已經使用了第三方的 Cookie,就是 Cookie 是由供應商網域送出而非點閱網站本身的網域。第三方的 cookie 可以處理越過公司內部多重無關網域的訪客,因為 cookie 總是由供應商伺服器處理。

然而,第三方 cookie 在原理上允許穿過不同公司網站追蹤個別使用者,這讓分析供應商能從某些客戶合法授權保留資料的網站活動萃取個人資訊,以幫助該用戶認為他是匿名瀏覽的其他網站做活動分析。雖然網站分析公司否認幹這檔事,其他公司像做網站廣告條幅公司已經這樣做了。對cookie隱私的關注因此導致顯著的少數派使用者屏閉或者刪除第三方的cookie。在2005年,許多報告指出約 28% 的互聯網使用者屏閉第三方 cookie ;並且 22% 刪除 cookie 每月至少一次 [4]

大部分加網頁標籤解決方案供應商現在轉移至提供至少使用第一方cookie (cookie由被訪問網站子網域指定) 的選擇方案。

另一個問題是 cookie 刪除。當網站分析依靠 cookie 來鑑別唯一訪客,統計資料便依靠持續存在的 cookie 作為容納唯一使用者辨識碼的載體。當使用者刪除 cookie 時,他們通常同時刪除第一方與第三方的 cookie。如果這件事在與網站互動的時期發生,使用者將在他們下次互動點被視為首次訪客。沒有持續存在與唯一的訪客識別碼,轉換率、點擊流分析、以及其他隨時間依靠唯一訪客活動的變量系統,不可能正確。

Cookie 常用是因為 IP 位址對使用者而言並不一定是唯一的,並且它可能與很大的一群機器或者代理伺服器分享。其他識別唯一使用者的方法技術上具有挑戰性,並且可追蹤的觀眾有限,或者可視為不可靠的。Cookie 會被選上是因為,排除使用某些科技如間諜軟體之外,它有著門檻最低的共通來源。

於活動追蹤方面,唯一登陸頁與引薦頁間的比較

於大部分網站分析包裡透過外部網站引薦的廣告關係產生活動數量的追蹤報告顯著的比利用登陸頁面來得不準確。

引薦頁是不可靠的資訊來源其原因如下:

  • 它們可能是或可能不是由網頁瀏覽器所提供。
  • 它們可能是或可能不是由網頁伺服器所紀錄。
  • 它們可能被網頁瀏覽器有意的擾亂過,以達成使用者希望匿名瀏覽的目標。
  • 它們可能被重定向扭曲或者隱藏,不管有意或者無意。

參見

參考資料

外部連結

書目:


網站分析工具: