不同的大陸,不同的資料科學
原文: Different continents, different data science
來源: https://www.oreilly.com/ideas/different-continents-different-datascience
導讀:
-
在中國,人們擔心資料的真實性;在歐洲,人們擔心的是儲存和分析;而北美的人們擔心對資料進行處理導致的意外後果。
-
我交談過的北美企業信任他們的資料,也許過於信任了。他們不太擔心利用雲來處理隱私資料,或者某一樁合併是否符合倫理道德。但他們非常擔心依照資料行事的後果。
-
實際上,任何可靠的資料科學計劃都需要擔心真實性、儲存、分析和使用。認知偏見、技術錯誤和不當模型有很多方法可以破壞資料使用的方式。
原文翻譯:
四年來,我在幾個大陸跟人探討了資料科學、機器學習、倫理和法律等方面,物件包括初創公司、大企業、政府、學術機構和非營利組織。在這個過程中呈現出一些特定的樣式。
這是去年的交談地點,而且我並不總是開啟定位服務
在本文中,我將作出一些籠統的歸納總結。每個人都是不同的,每個文化也是獨特的。但在跟同事、朋友和國內外聽眾挖掘這些樣式時,他們表達了相應文化所關心的很多東西。
簡單來說,在中國,人們擔心資料的真實性;在歐洲,人們擔心的是儲存和分析;而北美的人們擔心對資料進行處理導致的意外後果。
我稍微更加深入地挖掘了一下,以下是我對外部因素對以上幾個方面各自有何影響的想法。
資料真實性
如果你不信任你的資料,建立在資料之上的任何東西都只是空中樓閣。我在中國說到精益資料分析或者資料科學和批判性思維的時候,很多提問都是關於確定資料是真是假。
資料分析師可以透過很多方法來驗證資料真實性。其中最令人感興趣的是本福特定律。該定律認為,很多型別的自然資料遵循一條動力曲線。在資料的隨機樣本中,以1開頭的數多於以2開頭的數,以2開頭的數多於以3開頭的數,以此類推。這就像一個魔術戲法,但它在很多著名案例中被用來檢查資料是否造假。
也有可以增強資料可信度的技術,諸如防篡改的感測器等等。
但在一個充斥著假新聞和主觀認定的時代(當我們開始編造真偽莫辨的東西時,這種情況只會變得更糟),去偽存真是現代批判性思維的第一步。
儲存和分析
一場會議上的一位歐洲演講嘉賓談到了資料隱私方面的法律,以及保護資訊不被政府獲取的必要性,哪怕資料由政府儲存。很多聽眾對他的這一觀點提出質疑,正因為歐洲國家彼此緊鄰,才造就了當前的歐洲資料儲存政策。
歐盟釋出了《通用資料保護條例》(GDPR),考慮到大多數大公司的業務遍佈全球,這將在歐洲以外的地方產生廣泛影響。歐盟此舉在某種程度上是為了對科技巨頭施加一些限制。GAFAM(谷歌,亞馬遜、Facebook、蘋果和微軟)都是美國公司,與其實力相近的競爭對手只有百度、阿裡巴巴和騰訊,全是中國公司。如果這些公司的使用者構成一個個國家,其規模在世界上可以排在前列,而歐洲連一個大使館都沒有。有了GDPR,就能迫使這些公司在歐洲提出要求時做出響應。
但同時,GDPR反映了歐洲所關心的問題,即資料應該如何使用,以及我們應該是資料的管理者,而不是反過來讓資料管理我們。最瞭解我們的只能是我們自己。
意外後果
斯隆基金會的丹尼爾·戈洛夫(Daniel Goroff)為美國聯邦政府研究能源助推政策,試圖說服人們減少用電,尤其是在大量使用空調的夏天。
社會科學家知道,可以利用同輩壓力來鼓勵人們的行為。例如,如果你要求某人重覆使用酒店客房裡的毛巾,他們有一定可能會這麼做。但如果你告訴他們,其他客人重覆使用酒店客房裡的毛巾,他們這麼做的可能性會高出25%左右。
把這種方法用於能源節約是可行的,所以公用事業單位向客戶去信,告訴他們在能源節約方面他們相比鄰居做得怎麼樣,稱贊節約行為,指出有待改善的浪費行為。
這是一個重要的經驗教訓:瞭解資料的內容跟利用資料來產生預期結果不是一回事。市場和人是動態的,隨環境變化而改變。當Orbitz把最大程度提高營收的任務交給一個演演算法時,該演演算法向Macbook使用者提供更加昂貴的酒店房間。當亞馬遜根據購買記錄在波士頓推出Prime服務時,其資料模型把少數族裔居住地排除在外。
意外後果很難預料。美國很多法律是根據先例制定,受到法庭案例的影響。這導致產品包裝上出現看起來很可笑的警示(比如洗衣球不可食用)。
責任很重要。我交談過的北美企業信任他們的資料,也許過於信任了。他們不太擔心利用雲來處理隱私資料,或者某一樁合併是否符合倫理道德。
但他們非常擔心依照資料行事的後果。
三位一體
正如我在文章開頭所說,這是對我在多個國家發現的那些樣式的主觀看法。請註意,林林總總的傳聞不能稱之為資料。但我在網上回答了海外和網上聽眾的數百個問題,這個過程促使我問每個國家的人,我的感受是否可以用文化、技術、政治或經濟因素來解釋。
實際上,任何可靠的資料科學計劃都需要擔心真實性、儲存、分析和使用。認知偏見、技術錯誤和不當模型有很多方法可以破壞資料使用的方式。最好的解決之道是在這個過程的各個階段採取批判性思維,無論是哪個國家或者文化。
本次轉自:品覺 微信公眾號(pinjueche.com)
車品覺簡介
暢銷書《決戰大資料》作者;國信優易資料研究院院長;紅杉資本中國基金專家合夥人;浙江大學管理學院客席教授;全國信標委員;資料標準工作組副組長;美麗心靈基金會桑珠利民基金副主席。
原阿裡巴巴集團副總裁,首任阿裡資料委員會會長;現擔任中國資訊協會大資料分會副會長、中國計算機學會大資料專家委員會副主任、粵港資訊化專家委員、中國計算數學學會第九屆理事、清華大學教育指導委員(大資料專案)、浙江大學管理學院客席教授等職。
版權宣告:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯絡。
商務合作|約稿 請加qq:365242293
更多相關知識請回覆:“ 月光寶盒 ”;
資料分析(ID : ecshujufenxi )網際網路科技與資料圈自己的微信,也是WeMedia自媒體聯盟成員之一,WeMedia聯盟改寫5000萬人群。