小編邀請您,先思考:
1 什麼是欠擬合?
2 什麼是過擬合?
在資料科學學科中, 過度擬合(overfit)模型被解釋為一個從訓練集(training set)中得到了高方差(variance)和低偏差(bias),導致其在測試資料中得到低泛化(generalization)的模型。
過度擬合的模型具有高方差、低偏差的特點。那麼相反的情況:一個低方差、高偏差的模型又會是什麼樣呢?這被稱作欠擬合。
對資料的過度關註會導致過度擬合,對資料的忽視又會導致欠擬合,那麼我們到底該怎麼辦呢?一定有一個能找到最佳平衡點的辦法!值得慶幸的是,在資料科學中,有一個很好的解決方案,叫作“驗證(Validation)”。最理想的情況是,我們能夠用一個模擬測試集去對模型進行評估,併在真實測試之前對模型進行改進。這個模擬測試集被稱作驗證集(validation set),是模型研發工作中非常關鍵的部分。
資料科學看似複雜,但它其實都是透過一系列基礎的模組搭建而成的。其中的一些概念已經在這篇文章中提到過,它們是:
-
過度擬合:過度依賴於訓練資料
-
欠擬合:無法獲取訓練資料中的存在的關係
-
高方差:一個模型基於訓練資料產生了劇烈的變化
-
高偏差:一個忽視了訓練資料的模型假設
-
過度擬合和欠擬合造成對測試集的低泛化性
-
使用驗證集對模型進行校正可以避免實際過程中造成的欠擬合和過度擬合
資料科學和其它科技領域其實與我們的日常生活息息相關。在一些與現實有關的例子的幫助下,我們可以很好地解釋並理解這些概念。一旦我們瞭解了一個框架,我們就能夠用技術來處理所有的細節,從而解決難題。
文章推薦:
親愛的讀者朋友們,您們有什麼想法,請點選【寫留言】按鈕,寫下您的留言。
資料人網(http://shujuren.org)誠邀各位資料人來平臺分享和傳播優質資料知識。
公眾號推薦:
360區塊鏈,專註於360度分享區塊鏈內容。
閱讀原文,更多精彩!
分享是收穫,傳播是價值!