這是我學習 Data
Science Research Methods 這門課程的筆記。這門課程的講師是一名教授和資料科學家,可能因為他既有理論背景,又有實踐經驗,所以整個課程聽下來還比較舒服,學到了一些不錯的理論知識。
這門課比較系統地介紹了什麼是研究(Research),有哪幾種型別的研究,它跟一般的資料科學有什麼區別,以及如何去做研究。
研究分為基礎性研究和應用性研究。
研究和分析(資料科學)都是我們解決問題的一種手段,而且比較容易混淆。簡單地說,他們有如下的根本區別
- 分析是已經有資料,而且往往問題已經提出來,你要做的是在資料中找到一些規律,來回答這個問題。
- 研究,從某種程度上包括了分析這個環節。但是,它是要求研究者從頭到尾掌握情況,你遇到了一個現象,然後你要定義問題(這是最核心的不同),然後根據問題的需求去收集資料,然後分析等等。
嚴格意義上來說,做研究會有一個可以遵循的流程如下
- 設定一個問題
- 形成一個理論
- 提出假設
- 設計實驗和測試(包括收集調查表)
- 形成結論,如果必要的情況下,重覆1到4
- 最終結論
在設定問題這個環節,其實很不容易,而且這很可能是區別好的研究人員和一般的研究人員的關鍵能力,從人類行為和心理分析角度來看,有如下的參考準則
- 問題要儘量少(1個,或者最多2個)
- 問題要具體,而不是抽象的
- 探尋問題背後的問題,即你到底為什麼會有這個問題
並非要取得博士學位才能做研究,實際上每個人都可以是一個研究者。例如課程中講了一個案例:某一天你站在自家的樓下,發現天花板上面漏水。你要解決這個問題。你會怎麼定義問題呢?
一旦定義了問題,你會形成一個自己的理論(通常是對問題的詳細描述),然後你需要開始提出假設(有可能會有多個),接下來就是你怎麼驗證和測試你的假設了。這裡面有一個很有意思的環節,就是我們通常會依賴於向潛在的客戶或使用者做調查表來得到一些資料,此時要特別註意學習受訪者的心理規律,以便你能得到真正有用的資料。
- 儘量避免問WHY(為什麼),因為人們通常並不知道,你如果非要問,那麼他們就可能胡亂回答一下(真有意思的觀察)
- 避免問過於複雜的問題。這個其實是第一個原則的延申。
- 避免隱含或明確的傾向。例如你拿了一個新的logo,問別人新的logo是不是比舊的好。
- 如果一個人感覺自己在被監控,他的行為是不一樣。例如你拿著糖果給五個小朋友做調查,並說首先回答完成的前兩位可以獲得糖果等之類。
- 儘量讓受訪者少知道背景,讓他們儘量“幼稚”,避免偏見
- 儘量擴大樣本,樣本越大,可信度越高。
課程中的範例:某個公司開發了一個綠色產品,在前期小範圍調研的時候反饋很好,因為大家都覺得綠色的產品對環境有保護,理應得到更多消費者的青睞。但實際上推向市場後,反應卻平平。研究人員需要解決這個問題。他該怎麼提出問題呢?怎麼去假設和調查呢?
未完待續,敬請關註。這門課程還有很多技術性的內容,例如如何抽樣等。後面消化消化一下給大家再分享。