如果有10個人關註“體育賽事”
那就有100個人關註“體育明星”
如果有10個人關註羽生結玄能否完成“勾手四周跳”
那就有100個人關註羽生結玄優雅的肉體
八卦的力量是無窮的 !
那麼身為一個在職場打拼、會抓熱點、有技術控的編輯,怎樣做一次不妖艷,不從眾的八卦研究呢?今天我就為大家秀一把新學的技能:用Python完成一次與眾不同的八卦。
本文以奧運資料為導向進行體育明星特點分析,同時也是一個免費的資料技能教程,適合所有資料初學者,具體包括:
1、八卦的資料源哪裡找?——網頁資料爬取
2、體育明星肉體觀看指南——Python資料清洗、分析與簡單建模
3、總結報告——收集和展示資料結論
親測,跟一遍操作就能很快上手。心急的同學可以直接去文末獲取教程~
01
一個頭疼的問題——鮮肉資料哪裡找?
爬取研究主題的網頁資料是一種最常用的資料收集方法。奧運會可說是一個綜合度高,資訊齊全的主題。百度一下,很快能找到相關資訊網站:網易奧運資料庫。
開啟網站原始碼,會發現所有的網站資料都記錄在內:
網易奧運資料庫url:http://info.2016.163.com/athlete/list/
不需要會寫html程式碼,只要能使用ctrl+f找到你需要的資料,並用三方軟體寫指令碼,十分鐘就能獲取所有上一屆奧運會運動員的csv資料:
寫好爬蟲指令碼即可快速獲取運動員從csv資料
當然,本次獲取的資料已經一併打包在文末的教程裡了,不用謝。
02
體育明星肉體比拼——誰是我的菜?
做完必要的資料清洗,接下來要思考的是往什麼方向做研究。說到肉體,身材勻稱的長腿鮮肉的是最容易紅的。哪個專案有最多的潛在網紅?誰是大家都愛欣賞的最美肉體?一番思考後,決定分別用BMI指數、手長、腿身比、年齡來描述身材勻稱、長腿、鮮肉等指標。
呼叫python中的神器庫pandas進行資料載入、清洗和分析,再使用matplotlib庫中的組合圖功能以及seaborn庫中的美化功能,便可以快速美觀地批量出圖:
使用matplotlib庫可以做組合圖表,一鍵存圖,自由度高,在前期視覺化找結論的階段很實用
一項資料研究的開始總會有很多腦洞,對這些小結論進行篩選的過程也是理解資料本身的過程
瞭解了基本情況後,決定按大眾喜好制定以下四條評分規則,最後歸一化處理,分別得出每個專案的運動員總評分評分分佈情況:
1、BMI評估:最接近22,差值絕對值越小分數越高
2、腿長評估:計算與身高的比值,比值越大分數越高
3、手長評估:計算與身高的比值,比值越接近1分值越高
4、年齡評估:年齡越小分數越高
綜合來看,跳水、拳擊、游泳的整體表現比較好,且專案裡均有幾個肉體得分高的人。
那麼究竟是哪些運動員有“最美肉體”,按照同樣的邏輯,我改了幾行程式碼,很快地計算出每個運動員的評分和排名,併進行視覺化:
按照計算得出的“誰是大家都愛欣賞的最美肉體”TOP8運動員:
所以大家可以留心一下,你最喜歡的體育明星上榜了嗎???鐘愛游泳的我當然不會放過國民網紅傅園慧,97年的沈鐸妹子接下來也會是“重點關註物件”。
03
八卦了這麼多——是時候總結一下了
把做過的資料小研究收集起來是個好習慣,方便翻閱。放在ppt檔案容易忘,我通常會把一些結論做成圖表報告放在線上工具inforgram裡,還可以一鍵分享:
複製這個url到瀏覽器就能看到線上報告了:https://infogram.com/–1hnp27xdgyyp6gq
時過境遷,福原愛醬已經嫁為人妻,張繼科也被宇宙景甜給搶走了,當年的CP越來越涼,奧運熱度不再。那麼問題來了,為什麼我還要學習新技能,辛辛苦苦寫下了以上所有程式碼?
因為下一個體育熱點“世界盃”就要來了啊!
把這些程式碼變儲存好變成指令碼,資料的處理過程就儲存下來了,下一次使用就能省下資料清洗、整理、構思的時間,比以前用excel快多了。
磨刀不誤砍柴工,作為新媒體編輯又一篇文章搞定!老闆滿意,主編點頭,不用加班!
以上的這些技能,是我花了一週業餘時間從大鵬老師的免費Python資料分析教程中學習的,你上你也行!所以,如果你想學Python資料程式設計,我強烈建議你參加一次“要動手、有標的、有答疑”的《資料分析師(Python)訓練營》開始學習。參與方法就在下方↓
想要免費加入《Python資料分析師》訓練營的小夥伴,請掃描下方二維碼,就可以加入資料分析師學習QQ群啦!
除了免費參與訓練營外,進入資料分析師學習QQ群後,還可領取一份12G資料分析資料包。組隊對抗惰性,與小夥伴共同進步吧!