嗯,以上是統計學課本中對統計學的定義!
但是近日,一位來自谷歌的統計學家卻髮長文表示“統計學很無聊。“
這位統計學家叫Cassie Kozyrkov,目前是Google的首席決策師。在這篇文章中,她提到:“別看我們平時都是在做一些看起來‘高大上’的計算,其實核心都很單調的;另外,資料是很無聊的,人性化的事情才是難點。”
讓我們先普及一些統計學的入門級概念,然後跟著這位統計學家一起,看看她的邏輯證明。
編譯:王緣緣、蔡婕、小七
來源:大資料文摘(ID:BigDataDigest)
原文:medium
01 總體
當一個普通人想到“population”這個詞時,他會想到什麼?人,對嗎?不只是一兩個,而是很多,幾乎是所有的人!在我們的學科中,它更像是所有的事物的集合。總體可以是人、畫素、南瓜、神奇寶貝,或者任何你喜歡的東西。
總體是我們感興趣的所有專案的集合。
先停一下,在總體的確定上是需要花點時間的,因為這是研究的基礎。
規則是這樣的:透過寫下你對總體的描述,你就確定了你的總體是什麼,除此之外沒有任何東西可以影響你的決定。透過進一步閱讀,你就能接受這些術語和相應的限定條件了。
提出你感興趣的總體並沒有聽起來那麼令人望而生畏,請記住,是由你自己來選擇你想要感興趣的事物。沒有錯誤的選擇,只要它是具體和全面的就可以是一個總體。接下來我會講得很詳盡,並且建議以下圖中的樹木作為本文感興趣的總體。
▲如果我的總體是這片森林中的樹木,那麼 它們就代表了我所關心的關於這個決定的一切。我對這些樹感到很興奮。坦白地說,這種興奮是絕對真實的:我非常喜歡這個圖形,因為我在自己的講座中使用它很多年了。請允許我再懷念它一次……當然,飛機上漂浮著一些樹木,從空間上來說是非常合理的。
由於這是我的總體,我應該記住,我並沒有理由從自己的分析中得出我已經從其他森林中的樹木瞭解到的結論。我的發現充其量只適用於這些樹木。最糟糕的是,嗯……我只想說資料科學家的生活中有時候是需要去構建特徵的,不只是描述錶面特徵。
這裡有你看不到的樹嗎?這樣的研究沒意義。它不是我們總體的一部分。挑選任何一棵樹?同樣沒有意義,因為這不是你的整個總體。只有他們同時在一起對我們來說才是有意義的。這就是總體的概念。
02 樣本
來自總體中的任意專案集合的樣本。
樣本是你擁有的資料,而總體是你“希望”擁有的資料。
▲這些橙色樹木集合中的任何一個都是樣本。我希望你們能有一些直覺知道哪個更好。在之後的文章中,我將告訴你如何使樣本成為一個好樣本。我將用這個例子的其餘部分刺激專業人士來證明這一點。
03 觀測值
觀測值是對樣品中單個專案的測量。
▲我們在這個藍色標記的樹上進行的測量是一個觀測值。堅持使用精確語言的人會註意到,“sample”是一組觀察結果的集合名詞。從理論上講,“samples”作為複數並不表示“觀測到的多個值”,而是表示“多個觀測值的集合”。
04 統計資料
啊哈!統計資料!這當然是很重要的,因為我們在研究了這些資料之後命名了我們的學科!
統計資料是透過任意一種方法去獲得樣本資料。
那麼什麼是統計資料?這隻是統計我們擁有的資料的一種方式。是不是很失望,不用失望,事實證明,統計和統計學科是兩碼事。
統計資料的示例:如果我們對樹的高度感興趣,那麼看到所有這些橙色標記樹的平均高度等統計資料就不會感到驚訝。如果你願意,你也可以採用那些樣本樹高,找到最高的前三個,把它們加起來,取對數,加上最低的兩個樹高的差值的平方根,透過這樣的計算加工可以產生另一個統計資料!也許有用,也許不是那麼有用,但也是一個統計資料。
05 如何證明統計學是無聊的
假設我們對樹的平均高度感興趣,對於這個樣本,樹的平均高度恰好是22.5米。這個數字對我們意義嗎?
讓我們回顧一下總體的概念:只對總體的研究是感興趣的。這個樣本是總體嗎?不是。因此,它對我們來說並不重要。我們從一些無聊的樹上取了一些無聊的測量值,然後我們把這些無聊的測量值進行加工計算……從這個過程中得出的結果也很無聊。
所以,我已經向你們證明瞭你們心中一直知道的事實:統計學是無聊的!證明完畢。
06 用詞不當!
統計學家們瘋了嗎?為什麼我們要用一些無聊的數字來命名我們的學科呢?實際上,這是用詞不當。
如今我們對這些術語進行深度剖析,分析的是關於計算統計資料的學科,但統計學不僅僅是研究那些資料,而是要從那些資料中挖掘資訊,從而實現對未知領域的探索,但也有可能這隻是伊卡洛斯式的飛躍,最後得不到任何成果。
我們學科的真實名稱(這個名稱更能體現學科的含義)更加晦澀:統計資料的消化……但這聽起來有點噁心,所以我們把它簡化為平易近人的說法。
讓我來解釋一下。
07 引數
接下來講我們的主角:引數。這個東西太花哨太閃亮。是那種演出結束後會獲得一個花束的角色,它甚至有屬於自己的希臘字母(通常是θ)。你可以將引數看作是總體裡的一個統計量,它是由所有我們感興趣的總體計算得來的,但是通常無法直接獲得。
引數總結了總體特徵。
我們承認這些樹木使我們深感興奮,現在要我總結一下你關心的一切。
▲引數值顯示:所有樹木的真實平均高度恰好是21.1米。
想象一下,這是週六早上,你站在這片森林的空地中間。你還沒測量過任何樹木,但你超想知道這個數字,這是你夢寐以求的一切。
知道引數需要什麼?
你必須精確的測量所有樹!一旦做完了,你會有任何不確定的嗎?不,你擁有了所有的資訊。你可以透過分析繼續計算平均值。因為你的樣本是總體,這樣統計量就是引數。你正在處理的純粹是事實問題。由於擁有準確和完整的資料,因此無需進行複雜的計算。
我碰巧住在紐約市,盡可能遠離樹木。因此,當我面臨像“精確測量所有這些樹木”這樣令人生畏的任務時,惰性就開始了。我真心想知道這個引數,但我反問自己:“我真的需要完全瞭解它還是隻要測量一些樹木?也許我只需對整個畫面進行區域性觀察,以形成對該引數的最佳猜測……這錶面上就足以完成工作要求了。”
當我這麼想的時候,我在用統計學的方式思考!我永遠不會知道答案。我的懶惰意味著我必須放棄獲取事實或確定答案,但希望我最終會得到一些仍然有助於做決策的結果。我仍然可以把它變成一個合理的行動。這就是統計學的精髓。
08 無中生有?
你們當中有些人希望我會說,“有了這個神奇的公式,你就可以將不確定的變成確定!”不,當然不會。沒有任何神奇的東西可以無中生有。
當我們不知道事實時,我們所能希望的是將資料與假設結合起來做出合理的決策。
09 假設
一個假設是描述宇宙可能的樣子,但它不一定是真的。我們需要搞清楚,我們的樣本是否使得之前的假設看上去很荒謬,以此判斷是否要改變我們的想法,但這超出了本篇博文的範圍,在這裡提一下思路。
▲我在這裡說了一些亂七八糟的話,如“所有樹木的真正平均高度不到20米。”這是一個假設。你知道真相(我錯了!)因為你在這個例子中無所不知……但我什麼都不知道。我的陳述是一個完全有效的假設,描述了潛在的真實性。我將會在得到一些資料後才能知道自己的假設是否合理。
10 估計和估計量
如果知道引數,我們就不用做這些了。我們正在尋找事實,但不幸的是事實並不總能獲得準確結果。由於我們無法計算引數,只能使用統計資訊對其進行最佳猜測。
估計是對最佳猜測的一個華麗的表述。
估計只是對引數真實值的最佳猜測的一個華麗表述。這是你的猜測值,而估計量是你用於獲得該數字的公式。
讓我告訴你,你在統計估計方面已經非常了不起。準備好了嗎?
假設你只知道其中一棵樹高23米。你能告訴我對所有樹木的真實平均高度的估計嗎?
23米?對,我也這麼覺得!
如果這是我們唯一的資訊,我們只能猜測23米;如果我們猜測其他任何數字,我們就是在胡謅。23米是我們知道的全部,所以我們只能猜23米。為了得到別的東西,我們必須結合更多的資訊(在這個例子中沒有)或者做出假設……這就又是另外的事情了。
好的,我們做另一個嘗試!假設我們有一個樣本,我們所知道的是它的高度平均為22.5米。現在你最好的猜測是什麼。
22.5米?
根據幾個教科書中的估計方法,包括矩法估計法,極大似然估計法等得到的最後答案和你的直覺是相同的!在現實生活中99%以上的案例表明,只需將你的樣本視為你的總體並隨意使用其中的任何內容即可獲得最佳猜測。你不需要任何特殊課程。棒棒噠,我們完成了!
你總是需要統計學,這是一個謊言;你不需要。如果你只是想得到最好的猜測而獲得靈感,分析是你的最佳選擇。擺脫p值,你不需要不必要的壓力。
相反,你可以選擇按照這些原則生活:越多(相關)資料越好,並且你的直覺非常適合做出最好的猜測,但不知道這些猜測有多準確……所以要保持謙虛。
但是,請不要認為我在抨擊我的學科。我花了十多年的時間致力於統計學,它並不是一門一無是處的學科。
所以,在合適的時候使用統計方法才是有用的,非常有用的。
最後,你什麼時候真的需要統計學呢?Cassie也給出了這張決策圖,拿好不謝?
相關報道:
https://towardsdatascience.com/statistician-proves-that-statistics-are-boring-4fc22c95031b?gi=7fc6199071f
朋友會在“發現-看一看”看到你“在看”的內容