透過高效的實驗方法收集使用者資料,將在使用者行為多樣性、相似性、差異性及設計對使用者影響等方面獲得大量洞察。實際上,實驗是一種與使用者對話的方法,能瞭解使用者的想法。收集實驗資料有助於落實“使用者至上”的理念,並且在打造最佳體驗的前提下進行設計決策。
A/B測試本質上是一種線上實驗。它們的概念幾乎相同,都是設定變數,並與對照組衡量比對。但久而久之,A/B測試形成了自己的一套與現有業務用語更加一致的表述。接著,我們將把業務背景關係中常見的概念與A/B測試專業術語進行對應,並額外介紹其他實用且重要的概念。
作者:Rochelle King, Elizabeth Churchill, Caitlin Tan
如需轉載請聯絡大資料(ID:hzdashuju)
本文將利用一個形象的比喻幫助闡述一些概念與場景。
我們邀請你扮演夏令營的擁有者。每年,你將迎接大約200名兒童,並將與他們一起遠足,開展戶外活動,一同進餐。由於夏令營的規模很大且活動豐富,一些營員的反饋也許不能代表整體營員的感受。
夏令營已運營了一些年頭,每年都有一些老營員光顧,但這畢竟是在做生意,你希望能夠持續吸引更多新成員。夏令營是一個迴圈往複的過程,這也解釋了你為何希望採用新方式來改進夏令營的體驗,進而提升你的業務。
01 線上使用者抽樣
在沖向營地的比喻中,我們探討了應如何分配小屋中的營員以達到測試的標的。這個部分對A/B測試來說極其關鍵。樣本量很大時,即使實驗分配有細小差異,也會幹擾對照條件,導致混亂不可靠的實驗結果。這是為何進行隨機分配的原因。隨機分配使得各組情況基本保持一致。
到目前為止,我們一直在談論不同的條件。比如,實驗組與對照組。A/B測試中,這些條件通常被稱作測試單元。這與我們曾經介紹過的概念相同:測試單元指包含隨機分配樣本的各個體驗組,基於不同的方法產生變化。
1. 使用者佇列與細分
當希望藉助資料更好地瞭解使用者時,面臨的第一個問題是選擇哪些使用者進行資料收集。研究合適的使用者群體非常重要,並將影響研究結果。
使用者群體多種多樣。將使用者透過兩種方式劃分成不同的佇列或進行細分,有助於根據不同的使用者行為或動機獲取不同的洞察。相比將使用者整體當作一個大組,你能夠透過這種方式觀察到更多有價值的資訊。
佇列是一組擁有共同經歷的使用者群體。這種經歷也許是基於時間的(同一時間註冊產品或服務的使用者)或由某些因素造成的(例如,畢業於2015年的學生)。
例如,許多人在1月開始使用你的產品及服務,也許是因為他們在聖誕節購買了手機。與其他時間加入的使用者相比,這些使用者在動機或在其他方面有所差異。回到夏令營的比喻,一組使用者可能代表2016年夏季第一批營員。當時開展的活動型別以及營銷宣傳構建了夏令營的基調與營員的期待。
或者,你也可以基於人口統計因素等更加穩定的特徵(例如,性別、年齡、國籍)或行為特徵(例如,新使用者、高階使用者)將使用者群體細分成不同群組。夏令營的細分方式也許是基於年齡或居住城市,比如紐約。營員的成長地點與年齡都有可能影響他們所熱衷的營地活動型別。
現在,需要意識到,基於不同需求的不同分組對所提供的產品或體驗可能產生不同的反應。
比如,據Coursera前任執行長John Ciancutti所述,線上課程學習網站Coursera在打造產品之初考慮了幾種不同的使用者群體:終身學習者、有經驗的專業人士、缺乏經驗的專業人士。不同使用者的需求不同,他們透過不同方式使用產品,或多或少為Coursera產品買單。
當你思考A/B測試時,選取哪種使用者佇列或細分群體進行測試非常關鍵。集中對單一佇列使用者進行抽樣有助於深入瞭解某特定使用者群體所面臨的特殊問題與需求。
比如,你決定關註其中一組使用者,即2015年第一批加入夏令營的營員,而從其他相似營員中,也許能夠獲得更多有意義的洞察。比如,處於中學階段、擁有相似家庭背景的營員。因為在2015年你只接收中學生,主要是紐約附近的郊區居民。
但假如你只對此使用者佇列進行研究,資料結果將無法適用於其他型別的潛在營員,比如家庭營員(假如改造成了家庭營)、高中營員,或來自西海岸、其他國家的營員,因為他們的資訊沒在初始使用者佇列中體現。
如你所知,A/B測試的樣本將決定哪些洞察可以進行大範圍推廣,所以應推廣那些從有代表性的使用者樣本中得到的洞察。
2. 人口統計資訊
有時,你希望基於更穩定的特徵對使用者進行細分,比如人口統計特徵。以下問題將幫助你確定需要瞭解的資訊型別,以及如何收集此類資訊:
-
可基於使用者收集哪些基礎統計資訊(假設你已透過註冊流程中的問題瞭解了你的使用者,或想透過購買使用者報告瞭解那些尚未成為你的使用者的標的受眾)?
-
居住地點、年齡、性別、種族、身體是否健全,以及收入等資訊會如何影響與新的體驗相關的使用者需求?
-
使用者有哪些行為習慣?時間或地點資訊會對這些行為產生哪些影響?
-
使用者的現有裝置有哪些?
-
使用者的價值觀和產品期望是什麼?
-
使用者對技術、裝置和網際網路的接受度與經驗如何?對於使用新技術或體驗的態度是什麼?
當你試圖瞭解更多使用者資訊時,並非所有這些問題都是相關的,但希望你可以瞭解到,收集的資訊與資料將如何影響你的設計。隨著時間的推移和使用者群體的不斷發展與增長,你需要不斷適應和調整已有經驗。正因如此,瞭解使用者、收集使用者資料將是一個長期而持續的過程。
3. 新使用者與現有使用者
在大多數產品及設計決策中,你可能希望在現有使用者的基礎上,拓展新使用者。資料可以幫助你更多地瞭解現有使用者與未來潛在使用者。從新使用者還是現有使用者中進行抽樣是A/B測試中一個至關重要的考慮因素。
現有使用者是擁有先前產品或服務使用經驗的群體。因為如此,他們才帶著先入為主的觀念想象你的產品或服務。這些已習得的行為會影響他們的思考方式、期待,以及他們如何使用你的產品或服務的新功能,這些都是針對現有使用者進行新功能測試時需要考慮的重要因素。
相比現有使用者,新使用者沒有相關的產品使用經驗。當你試圖拓展業務,你更希望瞭解新使用者,因為他們不會受現有產品體驗的影響。
為了生動闡述新使用者與現有使用者之間的差異,假定你計劃在淡季調整營地佈局,將盥洗室調整到離餐廳更近的位置。之前的佈局如圖2-5所示。
▲圖2-5:舊的佈局圖。老營員已經養成步行至小木屋外側街道,再步行至盥洗室的習慣
位置調整後你會發現,住在3號木屋的老營員步行路程增加了,而新營員選擇了線路更短的直線抵達盥洗室。一切都在情理之中,他們基於已有經驗選擇線路。返營的老營員需學習新的路線,而之前的行為習慣根深蒂固,他們總不由自主地選擇這條道路,無論什麼情況。
相比之下,新營員由於不受盥洗室最初位置與舊有習慣的幹擾,能夠輕易找出抵達盥洗室的最近路線。圖2-6體現了這些行為差異。
▲圖2-6:新老營員前往盥洗室的路線。老營員的已有習慣影響了他們的路線選擇,即使小木屋位置有了變動。新營員不受影響,會選擇一條更接近直線的路線
這類已習得的行為習慣將引起A/B測試偏差,因此要註意,參與測試的使用者是哪種型別。
規劃實驗時間時也要考慮“學習效應”。谷歌的Jon Wiley分享了他的相關經驗。產品體驗調整後,使用者需要一段時間剋服已習得的經驗或行為帶來的幹擾。他說:
當我們進行了一些視覺上或任何明顯的調整時,因為學習效應曲線,我們會採用更長的實驗週期。我們知道,當使用者受到全新介面或設計帶來的衝擊時,會產生難以預料的反應及行為。
幾年前在設計改版時,我們做了一個重大的視覺調整。A/B測試的結果一次次告訴我們,此類改變,需要很長的學習時間。這意味著改動後的最初一段時間,我們的資料指標將非常混亂,之後會趨於穩定。
這是因為,一個人需要花費幾倍時間來適應新的體驗,形成所期望的正常或更好的行為習慣。不同改動對應的適應時間也不同。較小的調整,學習曲線對應的時間更短。
我曾經是2010年搜尋引擎第一次重大視覺調整的首席設計師之一。作為設計師,我對自己的設計非常有信心。然而,指標結果表明,新設計的接受度並不是很好。這讓我完全不能接受。於是我開始尋找其中的問題,與分析師和工程師緊密合作,深入研究這些資料。
因為學習效應,第一件事就是提出問題:“為什麼我們不看看高頻使用者的資料呢?就是那些經常使用谷歌搜尋、大量輸入問題、進行頻繁搜尋的使用者。他們的資料結果如何?”
結果發現,高頻使用者組的資料有很多差異。我們所擔心的幾個部分的資料相對好很多。這是我們得到的第一個線索——也許一切都與學習效應有關。我們決定延長實驗時間。然後發現,相當長一段時間後,低頻使用者和中頻使用者的行為開始逐漸與高頻使用者保持一致。
這是一個非常清晰的案例,Jon積極地定義探索設計方案的衡量過程及結果。當設計師對資料結果感到好奇,這會促使他們更積極地推進瞭解他們試圖影響的使用者潛在行為背後的真實原因。
除了習得的行為習慣效應,你也需要考慮現有使用者及潛在使用者之間人口統計特徵方面的差異。比如,現有使用者相對潛在使用者可能存在統計偏差。
假如你的最初方案強烈吸引著技術群體及年輕受眾,那麼很有可能,現有使用者樣本中年輕使用者及技術使用者的佔比將超過總體的平均水平。那麼你需要好好思考一下,假如你的原始使用者正是一年內你所期望的群體型別,那麼你會繼續以技術群體作為標的使用者,還是希望得到更多主流使用者的青睞,減少技術使用者的份額?
與此類似,當你考慮吸收新使用者時,你認為未來的使用者人口統計特徵是什麼樣的?正如之前提到過,你希望確保你所瞭解的使用者能夠代表未來的潛在使用者。
我們介紹了3個關於A/B測試使用者樣本的註意事項:你希望在實驗結果中得到哪些使用者佇列或細分使用者的資訊,哪些人口統計的考量是互相關聯的,你對哪類使用者更感興趣,新使用者還是現有使用者?
你應當在每一次A/B測試前重新審視這三個問題。同時花些時間考慮前期的使用者抽樣以確保從正確的受眾中收集到合適的洞察,這是A/B測試有效進行的關鍵。
02 指標:A/B測試的因變數
目前為止,我們介紹了一些A/B測試從使用者總體中抽樣的考量事項,同時簡要介紹了測試單元的概念。接下來,我們將回顧一下A/B測試中的因變數。因變數指觀察到的自變數所引起的結果。本節中,我們希望更為具體地瞭解A/B測試中的因變數通常有哪些。
一般來說,度量(measure)指觀察、捕捉與計算得到的資訊。比如,度量可能是網站某個頁面的使用者訪問量,或成功完成某個流程的人數。
度量指標(metric)指一種預設的評估基準,具有一定的商業價值。指標在某種意義上是若干度量比對後的結果,通常類似於比率。使用指標是因為它能夠提供令人信服的資訊,以瞭解業務或設計的健康狀況。採集率、留存率與活躍率都是指標。
指標是A/B測試中的因變數,即你所衡量的、用於判定測試結果的變數。比如,沖向營地中,指標是時間,尤其指從起始位置到營地花費的時間。
通常情況下,指標幫助你度量與量化設計或產品改變產生的影響,因而衡量使用者行為變化導致的成功或失敗。主要透過企業關鍵指標來觀察這些改變。
關鍵指標(key metric)是業務的核心,是希望提升的核心指標,是設計是否成功的判定因素。它應以驅動業務成功的指標為基準——你可以認為它是一種與成功相關的使用者行為的衡量方法。
通常來說,你希望增加一些對業務至關重要的指標(比如使用者留存率或轉化率,即採取預期行動的使用者佔比),那麼這些指標便決定你的設計成功與否。然而在開展測試以及進行結果分析時,你應當考慮如何定義更多新的業務指標。這些指標將資料、設計原則與業務緊密結合在一起。
一個例子來自線上學習平臺Coursera。Coursera採用一種證書驅動的商業樣式,即從使用者完成課程後的證書(資質證書)購買費用中賺錢。關鍵指標之一是售賣的證書數量,或證書購買帶來的收入。
你也許對此表示懷疑且理由充分:Coursera的課程通常以13周為一個週期,衡量設計改動對指標的影響將花費很長時間,這不現實。於是,John Ciancutti詳細闡述了Coursera確定其他指標的過程,這些指標可直接監測使用者行為造成的影響:
Coursera的商業樣式是驅動使用者購買證書,購買的提前是完成課程,所以我們希望使用者進行課程學習,於是劃分了課程模組,使用者完成的課程模組數量與完成度存在一些關聯。在此之前,我們還發現了令人有所啟發的兩件事。
一是:他們是否透過了首次測驗?這很重要。我們可以提前提供教材與課程內容,以便他們更早測驗,因為學習者會得到更多投資。
二是:他們會分兩到三次完成課程。這是出於一種承諾。假如你計劃分兩天戒煙,你會想:“我不打算第三天仍然繼續,雖然兩天完成很困難。但我不想全部的努力付之東流。”
透過這兩種方式,你可以將整體業務標的拆分成幾個部分進行測試,使團隊更快地進行迭代。
假如不能輕鬆確認關鍵指標造成的影響,則可選擇代理指標。這類指標能夠衡量使用者行為,與相關聯的關鍵指標一樣,能夠影響使用者行為。
代理指標比關鍵指標或主導指標更易衡量你已成功改變了使用者行為。為了選擇合適的代理指標,需尋找與關鍵指標密切相關的指標,同時思考,哪些跡象能夠及早暗示使用者已逐漸產生了預期行為。
藉助一些關鍵指標,可以立即得到答案,例如,如果衡量收入,每次課程結束時,你就能確認使用者是否有購買行為。
由此可以發現,A/B測試很大一部分的設計工作量集中在衡量指標的選擇上,即追蹤哪些資料型別,如何進行決策?
你所處的業務領域將影響對業務整體健康程度與成功標準的衡量。業務健康狀況是一個極其複雜的概念,包含由大量不同型別的度量編織成的一條“業務底線”以定義業務的可行性。
類似指標包括工程分析(服務交付與穩健性指標)、業務分析指標(關註於盈虧平衡及商業影響評估)及市場與業務競爭力分析。
最終,無論你關註一組還是多組迥然不同的使用者,當今市場的動態質量表明作為設計師,我們應關註使用者的行為。雖然你的工作可能主要集中在使用者體驗設計上,但它怎樣影響業務狀況的核心指標值得你再三思考。你的工作與其他度量指標的關聯取決於三件事:
-
所處業務型別。
-
收入模型。
-
現有業務的成熟度情況。
你的答案將決定你期望收集的資料型別。
這裡不再深入探討不同因素如何影響所應考慮的指標等問題,但這是一個好的開始,詢問和瞭解你所在的企業使用了哪些指標。時間或金錢相關的指標通常與業務緊密相關。比如,你也許對使用者“參與度”感興趣。
活躍使用者(AU)是使用者參與度的一個基本度量指標,瞭解產品或服務日均或月度使用者使用量。業務報告通常包含日活躍使用者量(DAU)與月活躍使用者量(MAU)的彙總情況,假如業務複雜,這部分資料可能會包含許多不同類別的資訊。對於維基百科而言,日活躍使用者可能指當日貢獻了一篇以上內容的使用者。
據華爾街日報所述,Twitter認定活躍使用者的標準是每月登入一次。對社交平臺而言,活躍使用者指30天內至少登入一次的使用者。對商業平臺而言,一週中至少兩天瀏覽平臺資訊的活躍度即看作成功。對於新聞媒體,每天檢視一次的活躍度就足夠。
作為設計師,最關註的可能就是提供良好的使用者體驗。良好的業務指標應時時把使用者考慮在內。比如,假如你的產品體驗非常糟糕,你將不會期望使用者頻繁使用這種糟糕的產品。
我們支援你不斷質疑那些與良好使用者體驗相悖的指標——停下來並評估是否需要更換指標,如果需要,考慮提供一種更能體現使用者體驗與長期激勵使用者流程的指標。記住,一項成功的業務應始終優先考慮向用戶提供出色的體驗。
03 探察分組差異
當談到實驗基礎時,我們提到,假如要判斷改動是否產生了效果,需先觀察因變數是否有差異。但如何得知這種差異是真正的關鍵?假如第2組超越其他組提前30秒抵達營地,是否足以證明差異的效果,然後購買更多指南針?這是一個統計顯著性問題。
我們希望站在設計角度思考這些統計概念應承擔的角色,以幫助你瞭解並體會具有統計思維的成員在A/B測試中的諸多考慮。我們認為,瞭解一些術語表述將有助於你參與顯著性與功效的相關討論,使你能夠在設計A/B測試以瞭解真實效果時提出問題。
統計顯著性是一種度量結果差異的隨機機率的方法。透過度量測試結果的顯著性,能夠判定觀察到的實驗差異到底源於指標的隨機變化,還是實驗改動產生的有意義的結果。因此需要判定彼此間因果關係的可能性或機率。
儘管通常在測試結束時計算統計顯著性,你依然需要考慮能否在A/B測試的設計流程中進行度量。功效(power)指準確檢測到實驗組與對照組之間真實差異的統計顯著性結果的機率。你期望所設計的測試足以檢測到分組之間真實存在的差異。
不同於統計顯著性計算,功效計算在測試開展前進行。兩者的差異在於:功效預測能否在實驗中觀察到差異,而統計顯著性指出是否在實驗樣本觀察中發現了差異。
你可以把這個想象成,在一個設計不佳的測試中,你戴著一副度數過低不足以矯正視力的鏡片:如果沒有足夠的提示,你甚至難以辨別貓與狗的差異,最終你所看到的一切都將是模糊不清且不可信的。
這兩個概念的細節與功效計算不再詳述。下麵介紹一些用於測試需求的功效的影響因素。
1. 預設差異大小
除了期望瞭解不同分組是否存在差異外,另一個顯而易見的問題是,這些差異有多大?效應值(effect size)指對照組與實驗組之間的差異大小。統計顯著性指明是否存在差異,而效應值量化差異的大小。
科學研究中,效應大通常比效應小更有意義。這對產品設計也同樣適用,由於設計改動能對體驗或關鍵指標產生重大影響,因此堅持實踐效應值大的設計改動能夠獲得更多收益。
在產品設計中,我們將期望觀察到的測試條件與控制條件之間的最小差異定義為最小檢測效應(MDE),以此作為A/B測試的成功標準。MDE取決於一些業務因素,比如,至少多大的指標差異才能引起收益增長。
直觀來說,測試與改動實踐應透過某種方式獲得“回報”,比如透過具有顯著意義的指標改動,這是業務健康發展與成功的關鍵,也是對使用者體驗的巨大提升。你也可以基於之前的A/B測試定義MDE的大小,以往觀測到的效應大小可以作為未來實驗效應值定義的一個參考。
測試的統計功效取決於最小檢測效應。較大的差異更容易被捕捉到。比如,假定部分營員可搭乘計程車去往山頂,則不同分組抵達山頂的時間將產生巨大差異。相較而言,MDE較小時,則需要功效更強的實驗以有效捕捉差異。
2. 抽取充足的樣本量
基於定義的最小檢測效應,你可以定義測試的功效大小。樣本量是影響測試功效的一項因素。
假設1名營員說他們在盥洗室後面看到一隻臭鼬,你比較可能會認為他們把松鼠或浣熊當作了臭鼬。假如5名營員都這樣說呢?你將更加傾向於相信這件事,為他們的安全隱隱擔憂。假如50名營員都這樣說呢?
你將更加堅信附近出現了臭鼬,以至於擔心營員在往返盥洗室的路上再次偶遇它們,而安排營員暫時使用教員盥洗室。
再一個例子。假設許多營員病了,4個分組中每組僅有1名營員參與徒步。也許你能觀察到分組間的差異,但對基於小樣本量進行決策表示懷疑。
假如其中1名營員速度更快,如何確定不是他的身高因素或更強的運動能力引起的?假如每組有40名營員參與徒步,情況又如何?假設所有分組一同徒步,由於樣本量充足,假如第4組最快登頂,你將更有把握就此進行決策。
分組差異的效果將趨同,40人趕超其他120名營員的結果將會比1名營員趕超3人更具說服力。
這種直覺背後的原則在於,樣本量越大,你對響應的結果就越認可。對結果而言,樣本量越大,效應更明顯:假如樣本量較大,即使是時間或幸福感之類的細微差異,也具有很強的說服力。反之,假如僅有一名或若干營員樣本,該結果將不具有說服力。
3. 顯著性水平
P值代表觀察到的隨機因素產生的差異機率。比如,當我們觀察到P值=0.01,說明觀察到的,由隨機因素引起的而非分組有意義的差異引起的差異的機率為1%。P值多小才足夠,這取決於你的期望。
在許多社會實驗領域,比如心理學,任何P值<0.05(5%)都被看作具有統計顯著性,即觀察到的差異不是隨機因素引發的結果。換種說法,即觀察到的資料的效應存在5%的機率是由資料中隨機產生的幹擾。在其他領域,比如物理學,僅當P值<0.000 000 3時才被看作具有統計顯著性。
這個數值對於產品設計,甚至最大的網際網路網站的設計調整而言,都有些不切實際。
A/B測試的一部分設計工作是提前確定測試結果所具有的置信程度。比如,能否接受測試結果5%的錯誤機率?這是絕大多數網際網路團隊的標準置信範圍。10%呢?20%呢?直至達到團隊成員均可接受的程度為止。
放寬置信程度的主要原因是,風險越大,統計功效越小。功效越小說明樣本量越小,意味著實際上可能進行了耗時更短、成本更小的測試,因為有時你需要更快地從少量使用者中獲取資料。
如你所知,A/B測試的設計需權衡具體情況中的各種因素。但是,測試產生的統計資料僅是獲取使用者資訊的其中一個重要環節。針對標的提出充分的假設同樣重要。
關於作者:Rochelle King,Spotify產品設計創意全球副總裁,擅於融合運用設計與資料,並且曾擔任一些技術企業的負責人。
Elizabeth Churchill博士,人機互動(HCI)領域專家,曾在許多矽谷企業中主導以使用者為核心的研究,近專註於設計和開發者工具方面的研究。
Caitlin Tan,Spotify的使用者研究員,畢業於麻省理工學院。
本文摘編自《資料驅動設計:A/B測試提升使用者體驗》,經出版方授權釋出。
延伸閱讀《資料驅動設計》
點選上圖瞭解及購買
轉載請聯絡微信:DoctorData
推薦語:谷歌使用者體驗總監、Spotify設計與使用者體驗全球副總裁聯袂撰寫,設計從業人員有效提升使用者體驗必備參考。