導讀:為了找到物美價廉的美酒,本文作者Kenneth Hansen蒐集了全球最大的酒類網站資訊,用資料分析為自己製作了一份“美酒清單”,希望對正在享受假期的你有所幫助。不要貪杯喲!
01 一分價錢一分貨
作為一個喜歡喝紅酒和咖啡,但同時又作為學生而資金有限的人,我決定用Python和Selenium爬取我最喜歡的網站——Vivino.com,來找到物美價廉的美酒。
Vivino是一個丹麥公司,它的app是下載量最多的酒類app,全球使用者數量超過2600萬。Vivino收錄了數百萬款酒的資訊,是全世界最大的酒類資料庫。
其開發的app也讓我們這種喜歡紅酒但並不像品酒師一樣專業的人們可以方便的找到自己喜歡的酒。使用者拍攝酒瓶上的標簽並上傳就可以立刻從app上看到關於這款酒的資訊、評分、評價等。
Vivino是像我這樣預算有限的“酒鬼”想要找到好酒時必用的app。我從上面爬取了16690瓶酒的資訊。這些酒的價格從10美金到6000美金不等,所以理論上每個人都可以找到他想要的那款酒。而在搜尋好酒的過程中,我不禁好奇:Vivino上的酒的評分高低與什麼有關?要想找到評價很高又很廉價的酒,我應該在哪些產地尋找?這些問題都是我這個專案想要解決的。
我爬取的資料維度包括:酒名、年代、葡萄酒類別、產地、評論數、平均價格、評分(使用者整體評分,分數從0到5)。
這是對爬取的16690瓶酒的資料進行分析後得到的一些統計資料:
我在做描述性分析前,先縮小了價格區間,僅對8.99到500美金間的酒進行分析。這部分資料包括169組觀測值,佔整體資料的1%。
我首先分析了紅葡萄酒、白葡萄酒和起泡酒。
上面的箱線圖可以看出,與白葡萄酒和起泡酒相比,紅葡萄酒的評分中位數稍高一些。評分大多數在3.5到4.0分之間。值得註意的是,儘管有一些異常值,三種酒的評分是符合正態分佈的。另一個有趣的現象是,紅葡萄酒的評分範圍較另兩種酒更廣。
在觀察價格與評分相關性的時候,我發現如下規律。
在我的預期中,是期待觀察到這種相關關係的。每瓶酒的評分分數與價格似乎在某種程度上是相關關係,尤其是紅葡萄酒和起泡酒。從相關係數來看,紅葡萄酒和起泡酒的價格與評分的關係更緊密,相關係數分別為0.68和0.69。而白葡萄酒相對較弱,相關係數為0.57。然而,這種相關性隨著紅葡萄酒的價格高過100美元而逐漸減弱,超過100美元的酒的價格的上漲僅會帶來評分的輕微增長。
02 在75-100美元間挑選頂級紅酒
上面的箱線圖中我們觀察到紅酒的評分割槽間更廣,因此我決定看一下這些資料點圍繞平均評分的分佈範圍(即方差)。我試圖研究紅葡萄酒是否比白葡萄酒評分的方差更大。
H0:紅酒評分值的方差=白酒評分值的方差
H1:紅酒評分值的方差≥白酒評分值的方差
經測試,p值非常低(2.2e-16),零假設被否定,紅酒評分值的方差比白酒高。這一現象的原因,可能有以下幾種因素。
首先,品嘗兩種葡萄酒的最佳溫度環境不同。大概來說,紅酒最好在50到65華氏度(約為10至15.5攝氏度)品嘗,而白葡萄酒在45到50華氏度(約為7.2至10攝氏度)之間。因此白葡萄酒受溫度影響品質的機率要更大。
另外,紅葡萄酒一般在橡木桶裡進行陳釀,白葡萄酒則在不鏽鋼桶中進行發酵。兩種不同的程式導致兩種完全不同的品嘗體驗。紅葡萄酒的口味種類比白葡萄酒大,也因此可能導致評分差異更大。
與之前的散點圖相比,這張圖並沒有什麼新變化。不過,值得指出的是,我們的確有可能以75-100 美元的價格買到頂級評分的紅酒 。
不過,我發現年代更久的酒評分普遍更高。下圖中豎軸的年代並非完全連貫,是因為爬取的資訊中,有些年代並沒有對應的酒。下麵的散點圖中,相關係數為-0.377,也就是說隨著年代靠近,評分在下降。
因此,我們需要檢測這個關係是否足夠顯著。一個有趣的現象是,年代更久的酒,評分的區間更窄,年代越近評分割槽間越廣。這或許也因為,現有的老酒都是那些質量好的酒,因此人們才會儲存下來。而新生產的酒中,質量就參差不齊了。總之,這張圖很直觀地呈現了年代與評價之間的關係。
我也有一個比較意外的發現——那就是美國產的酒均價較低,但同時評分的中位數最高。這也許說明,愛喝酒的人們如果想要花費合理價格購買一款不錯的酒,那麼應該看一看美國產的酒。
03 法國的葡萄酒真的更棒麼?
我經常聽到人們說,法國的葡萄酒最棒。以前我也曾和一位法國人合租,我們也曾討論為何人們認為法國的葡萄酒最好,他也多次嘗試說服我。手握Vivion爬來的資料,我可以檢查一下這些評分資料是否支撐“法國優越性”的說法。
H0:法國產的葡萄酒平均評分=其他地區產的葡萄酒的平均評分
H1: 法國產的葡萄酒平均評分≥ 其他地區產的葡萄酒的平均評分
經過我的測試,從這些爬取的資料中並沒有發現證據顯示法國的葡萄酒評分高於其他地區。
接下來,我希望研究一下,當我們預算有限的時候,應當找產地是哪裡的酒。因此,我將要求進一步具體化:
-
這款酒需要至少獲得過100次點評
-
價格要低於30美金
-
最少的平均得分應在4.1分
上圖證明瞭此前的箱線圖,葡萄酒愛好者想要找到物美價廉的葡萄酒時,應當看一看美國產的酒。
在把玩了一下爬取的資料後,這些有趣的發現讓我對以下這個問題產生興趣:價格和年份能否解釋評分?因此我決定檢測以下這個模型:
評分 = β0 + β1 √價格 + β2 每瓶酒的評論數+ ε
分析在R-studio中進行,我的回歸分析得出以下資料:
這個模型經調整後的R平方為0.5306,鑒於只有價格、年份兩個預測因子,這個值已經很不錯。這個模型說明,紅葡萄酒在Vivino上的評分的基線是3.6分。√價格每增加一個單位,評分將提升0.053,每增加一個評論,評分增長0.000007265,即需要多達137646個評論才能讓評分上升1分。
所以,我得出以下結論:
-
與白葡萄酒和起泡酒相比,紅葡萄酒的評分值中位數稍微更高些;
-
紅葡萄酒、白葡萄酒和起泡酒的價格和評分之間有很強的相關性;
-
年代越久的酒評分值的區間更窄,新酒的評分割槽間更寬;
-
美國產的紅葡萄酒與其他地區產的相比,評分中位數更高;
-
紅葡萄酒與白葡萄酒相比,評分值的方差更大;
-
爬取的資料並未證明法國產的葡萄酒比其他地區評分要高;
-
如果你在尋找30美金以下、評論超過100條的高評分葡萄酒,那麼你應該看看美國產的酒;
-
每瓶酒的評分值有53%可以被價格和評論數來解釋;
-
Selenium作為爬蟲工具比Beautifulsoup和Scrapy慢多了,但Vivino網站的結構(無限翻頁)迫使我只能這樣。
作者:Kenneth Hansen
來源:紐約資料科學(ID:NYCDataScience)
點選文末閱讀原文可以檢視英文版文章
推薦閱讀
日本老爺爺堅持17年用Excel作畫,我可能用了假的Excel···
Q: 你有哪些極品美酒值得推薦?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯絡:baiyu@hzbook.com
更多精彩文章,請在公眾號後臺點選“歷史文章”檢視