資料科學實踐中常犯的十二種錯誤-知識星球

如果是初學者，當你參加資料科學專案時，應避免以下十二種常見錯誤。

1沒有檢查你的資料

你需要檢查自己即將收集/使用的資料的量與質。“你的工程中大部分的時間，通常是80%的時間，將用於獲取和清洗資料，”data.world的資料科學家和知識工程師Jonathan Ortiz如是說。“你需要檢查是否記錄好了需要用於分析的資料”

如果你正在記錄與收集資料，可能會記錄錯誤，記錄的方式可能前後不一致，記錄的系統可能會改變 “如果每個月內部都有增量，那麼當你分析資料或構建模型時，就不能使用整月份資料，”Ortiz警告說，因為系統內部已經發生了變化。

TechTarget首席營銷官John Steinert表示，即使你收集的資料正確無誤，但是如果資料量過低或獨立變數過多，那麼也很難用來為B2B市場營銷和銷售等業務領域建立預測模型。“資料量越大、資料科學工具的效果就越好，預測模型就越強大。因為交易利率很低，所以獨立的變數會對交易造成較大影響。不夠大的資料集和複雜的相互作用削弱了預測模型的力量。

解決資料量過少的一種方法是購買像purchase-intent這樣的資料集，只要你能夠找到一個可以應用於你的業務的資料集。另一種方法是使用模擬產生的資料，但Avanade高階資料專家Chintan Shah警告務必要十分謹慎地使用模擬資料。他表示模擬資料可能不會符合我們的假設。”

2沒有理解你的資料

你可能對你的資料集將顯示的結果有預先判斷，但是資料團隊應該在使用資料訓練資料模型之前花些時間仔細研究資料。Ortiz說:“如果你看到一些違反直覺的東西，說明你的假設可能是錯誤的，或者資料是錯誤的。我認為最重要的事情就是研究資料，繪製圖表併進行探索性分析。很多人都匆匆略過這一步，甚至完全忽略。但是實際上你需要瞭解資料是什麼樣子的。如果事先進行一些探索，你就可以更快地確定這些資料是否能根據專業知識和商業敏銳性告訴你合理有用的結果。

3期望過高

Chintan Shah說，對人工智慧的炒作讓太多的人相信只要我們向計算機演演算法扔資料，它就會自己解決所有問題。儘管公司擁有大量的資料，但要將資料轉換成可用的格式，還需要有專門的人力。

只關註公司以前做了什麼只能使做以前的事的效率提高而不能發現新的事物。“你越是隻把過去作為預測未來的依據，你就越不願意去尋找新的途徑，”Steinert說。“即使你用第三方的資料來解決你的產品或服務的需求，它也不能保證你一定能完成這些銷售任務。”他補充稱:“資料模型可以告訴你，一家公司與你提供的服務相匹配，但它不能告訴你該公司現在是否有需求。”

“人們開始對資料科學家進行投資，這些他們以前在各種領域中都從未信任過的人。”Ortiz說:“在他們看來，用資料科學家的觀點來回答問題，用資料來解決難題，並推動決策，這是一件很有希望的事。”Ortiz建議，資料科學家應該從小型專案和快速的成功中證明他們能夠實現標的，從而向組織展現價值。“應該從一個小標的開始，而不要一開始就挑戰技術難題，花一個月之久做一個你認為有巨大價值的大專案。”

4未對新模型進行測試

如果你已經花費了時間和金錢來構建一個資料模型，那麼你希望在任何地方都能使用它來充分提高模型利用率。但是，如果這樣做，就無法衡量這個模型的效果。另一方面，如果使用者不相信模型，他們可能不會使用它，然後你就不能測試它，Steinert說。

那麼解決方案是什麼呢?用一個使用模型的組來確保模型有效，一個不使用它的控制組來對照，Steinert補充道。有一個隨機組去尋找模型成立的場合，而對照組則按原先的情況設計。

5只有標的，沒有假設

尋找可以提供特定改進的資料模型是很誘人的，例如，在48小時內解決80％的客戶案例，或者在一季度內獲得10％的業務增長，但這些指標還不足以應對問題。

“最好先從假設開始“奧爾蒂斯說。“通常你會看到一條曲線或一條線作為整體度量標準，並且你想要移動它。這可能代表一個偉大的商業標的，但很難想象你需要採取哪些措施才能做到這一點。“透過對照組或探索資料來驗證你的假設，即什麼能改善模型。“如果你可以在對照組進行分組測試並且樣本都具有代表性的情況下執行測試，則可以實際確定你使用的方法是否實際影響了你希望其影響的方法。如果你只是在事後檢視資料，那麼從假設開始可以幫助縮小範圍。我需要將這個指標增加10％；我的假設是什麼？可能會影響到什麼？然後我可以對資料中的資料進行探索性分析跟蹤。在你提出的問題和你正在測試的假設中清楚地說明，可以幫助你減少在這個問題上花費的時間。”

6模型已過時

如果你有一個適合你的問題的資料模型，你可能認為你可以一直使用它，但是模型需要更新，並且隨著時間的推移，你可能需要構建另外的模型。Ortiz警告說:“功能會隨著時間而改變。你需要不斷地觀察其有效性並更新你的模型。”

模型過時有很多原因;世界在變化，你的公司也在變化(尤其是當模型被證明有用的時候)。模型不應該被視為靜態的;市場當然不是一成不變的。“如果市場的偏好正在偏離你的舊有模型，它將使你走入歧途。”模型的效能衰退。或者競爭對手從你的市場表現中學習時它就過時了。問題是隨著時間的推移，我們該如何發現新的模型?這就要求我們進行一系列實驗，以發現新的找到模型的機會。

7不監控最終結果

使用控制組的另一部分作用是測量模型的輸出的效果，你需要在整個過程中跟蹤它，或者最終針對錯誤的標的最佳化。

Steinert指出：有的公司使用機器人來提供電話服務，而且不持續檢查機器人是否能夠帶來更高的客戶滿意度，只慶幸減少了人力成本。如果客戶結束合作是因為機器人無法給他們正確的答案，而不是因為解決了他們的問題，那麼客戶滿意度將大幅下降。

8忽略業務專家的作用

如果你認為需要的所有答案都在資料中，而開發人員或資料科學家可以自己找到它們，那就大錯特錯了。你必須要確保瞭解實際業務問題的人參與這項工作中。

Shah解釋說:“雖然一個知識淵博、經驗豐富的資料科學家最終能夠解決手頭的問題，但如果業務專家和資料科學家合作來解決問題，問題就會容易得多。”任何資料科學演演算法的成功都取決於成功的特徵。為了獲得更好的特徵，一個懂行專家總是比一個花哨的演演算法更有價值。

Ortiz建議，開始專案時，甚至在檢視資料之前，要在資料團隊和業務專家之間進行對話，以確保每個人都清楚專案要實現什麼效果。然後，你可以做探索性的資料分析，看看你是否能夠實現它，如果不能，你可能需要用一種新的方式重新表述這個問題，或者採用一個不同的資料源。但這個具體領域的專家應該幫助確定標的是什麼以及專案是否符合標的。

9選擇過於複雜的工具

機器學習的最前沿是令人興奮的，新技術可能非常強大，但它們也可能是多餘的。Shah指出:“也許像邏輯回歸或決策樹這樣的簡單方法就能完成這項工作。” Ortiz對此表示贊同。

人們很容易將大量的計算機資源和複雜的模型用於解決問題。也許我對一個專案的某個方面有著很好的理解，我想測試一個全新的演演算法，這個演演算法可以做的比要求的更多。或者我只是想嘗試一下是否能找到一個簡單的方法來解決這個問題。在使用複雜辦法之前，應該將所有簡單的辦法考慮一遍” Ortiz說道,註意到過擬合更可能發生在像深度學習這樣的複雜演演算法中:過擬合可能使新資料不符合原有模型

你應該與業務專家商量標的然後選擇技術。很多資料科學家關註機器學習，機器學習往往關註的是預測。但不是你面臨的每一個問題都是預測問題。我們需要關註上季度的銷售情況，這可能意味著很多不同的事情。我們是否需要預測新客戶的銷售額，有可能你只需要知道為什麼在上個季度的某一週銷售情況不佳。

10選擇不合適的模型

有很多資料科學和機器學習的例子，你可以從中學習和適應。“資料科學熱度呈指數增長的原因之一是幾乎所有演演算法的開源模型都可用，這使得快速開發模型變得很容易，”Shah解釋說。但是這些模型通常是針對特定的用例開發的。他說，如果你從系統中需要的是不同的功能，那麼最好構建自己的版本。實現自己的資料清理和功能構建過程。他建議道。“它給你更多的控制權。”

11曲解基本概念和基礎原理

當你沒有足夠的資料用於單獨的訓練集時，交叉驗證可幫助你評估預測模型的準確性。對於交叉驗證，你可以分幾次設定資料，使用不同的部分訓練。然後分次測試模型, 以確定是否無論你使用哪部分資料集進行訓練都能獲得相同的精度。但是你不能用它來證明你的模型總是和它的交叉驗證分數一樣準確，Ortiz解釋道。一個可歸納的模型是對新傳入的資料作出精確反應的模型，但交叉驗證永遠無法證明這一點。“因為它只使用你已經擁有的資料，它只是能顯示你的模型的盡可能準確的資料。”

從根本上說，“相關性不是因果關係;看到兩個相關的東西並不意味著一個影響另一個，”他指出。你對資料集進行的探索性繪圖可以讓你瞭解它可以預測什麼，以及哪些資料值不會告訴你任何事情的相關性。如果你正在跟蹤你的電子商務網站上的客戶行為，以預測哪些客戶將傳回，以及何時傳回，記錄他們登入並不會告訴你任何資訊，因為他們已經回到你的站點來做這些事情。登入與傳回有高度的相關性，但將其納入模型是錯誤的。

12低估使用者的理解能力

Ortiz指出，業務使用者可能無法自己進行統計分析，但這並不意味著他們不瞭解錯誤邊際、統計意義和有效性這些指標。通常，當一份分析報告提交給商業團隊時，它最終會變成一張只有一個數字的幻燈片。無論是一個準確的數字、一個估計還是一個預測，誤差範圍是非常重要的。如果在資料分析的基礎上做出商業決策，那麼就要清楚地說明解釋結果來使決策者相信這個系統，不要認為他們在技術上什麼都不懂，無法理解結果。

譯者註1.本文作者為Mary Branscombe，原文標題為《12 data science mistakes to avoid》，URL：https://www.cio.com/article/3271127/data-science/12-data-science-mistakes-to-avoid.html?nsdr=true&page;=2。

2.本文由李昊璟、朝樂門負責翻譯、編輯和釋出。

本文轉自：資料科學DataScience 已獲授權；

END

版權宣告：本號內容部分來自網際網路，轉載請註明原文連結和作者，如有侵權或出處有誤請和我們聯絡。

關聯閱讀：

原創系列文章：

1：從0開始搭建自己的資料運營指標體系（概括篇）

2 ：從0開始搭建自己的資料運營指標體系（定位篇）

3 ：從0開始搭建自己的資料運營體系（業務理解篇）

4 ：資料指標的構建流程與邏輯

5 ：系列：從資料指標到資料運營指標體系

6: 實戰：為自己的公號搭建一個資料運營指標體系