筆者邀請您,先思考:
1 什麼是有監督學習?
2 如何解決分類問題?
3 信用評分卡和分類問題的關係?
統計與資料挖掘中的分類問題
我必須說,當三歲以上的女孩Amishi宣佈,她只是與我妻子的朋友而不是我交往時,我感到震驚。 分手的原因是我是男孩,女孩只能是女孩的朋友。 她從幼兒園的朋友那裡學到了這種社會規範。 我還記得她幾個月前在她的泳裝和雨傘中為我塑造的方式。 她甚至意識到男孩女孩的差異,現在只是她學會了這個奇怪的社會規範。 這裡的要點是,幼兒可以毫不費力地區分性別。 大自然為我們提供了一個內建的方程式,透過高度的精確性來進行性別分類。 想象一下類似的機制來區分好的和壞的借款人。 你在談論每個銀行家的夢想。
正如我在前面的文章中提到的,記分卡在統計和資料挖掘的分類問題上有其根源。 大多數分類問題的想法是建立一個數學方程來區分二元變數。 這些變數只能採用兩個值,例如
-
男性/女性
-
好壞
-
是/否
-
上帝/魔鬼
-
快樂/悲傷
-
銷售/無銷售
名單可以繼續直到永恆。 大多數商業問題試圖模擬二分法的原因是它很容易理解我們人類。 我們必須認識到,二分法絕不是絕對的,並且對它們有著程度。 例如,我80%好,20%差 – 至少我想相信這一點。 我將保持帕累託的80-20原則遠離這一點,即我的20%不好對我80%的行為負責。
信用記分卡開發 – 問題陳述和抽樣
在信用記分卡的情況下,問題陳述是在好的和壞的借款人之間進行分析。因此,第一個任務是定義一個好的和不好的借款人。對於大多數貸款產品,信用良好和不良以下列方式定義
-
1.良好的貸款:不錯過EMI支付
-
2.不良貸款:連續3次錯過EMI(即90天過期)
此外,為了標記好人或壞人,你需要在很長一段時間內觀察他或她的行為。根據貸款期限的不同,這個時間長度因產品而異。對於房屋貸款,期限為20年,2 – 3年是合理的觀察期。
但是,對於上述定義沒有什麼神聖不可侵犯的,可以由分析師自行決定修改。Roll-rate analysis和vintage analysis是您在構建上述定義時可能需要考慮的兩個分析工具。
信用評分卡抽樣策略
幾年前,我為孟買的一家大型德國航運和貨運公司舉辦了為期一天的統計推斷研討會。在問答環節時,運營副總裁提出了一個棘手的問題,即獲得良好精度的樣本量是多少?他正在尋找一個通用的答案,我希望這很簡單。樣本量取決於相關人群的相似性或同質性程度。例如,你認為如何回答以下兩個問題是一個很好的樣本量?
1.什麼是太平洋的鹽度?
2.宇宙中有另一個智慧生命的星球嗎?
就人口規模而言,宇宙中海洋和行星的數量下降是相似的。由於海洋的鹽度相當穩定,幾滴水足以回答第一個問題。另一方面,第二個問題是黑天鵝問題。你可能需要訪問每一顆行星來統治我們的智慧生命形式的可能性。
對於信用評分卡的開發,樣本量的可接受經驗法則是至少1000條好的和不良貸款的記錄。沒有理由不能建立樣本量較小的記分卡(比如500條記錄)。然而,分析師需要小心謹慎,因為在小資料樣本中隨機性程度越來越高。此外,建議保持樣本視窗盡可能短,即在計分卡開發時保持一個或兩個財政季度。此外,樣品分為兩部分 – 通常70%用於開發,剩餘用於驗證樣品。我們將在本系列的後續章節中詳細討論開發和驗證示例。
註意
在下一篇文章中,我們將討論信用評分卡的變數分類和粗分類的一個重要主題。 下回見。
上一篇:信用評分卡:簡介
下一篇:信用評分卡:變數選擇
作者:Roopam Upadhyay
原文連結:
http://ucanalytics.com/blogs/credit-scorecards-classification-problem-part-2/
版權宣告:作者保留權利,嚴禁修改,轉載請註明原文連結。
資料人網是資料人學習、交流和分享的平臺http://shujuren.org 。專註於從資料中學習到有用知識。
平臺的理念:人人投稿,知識共享;人人分析,洞見驅動;智慧聚合,普惠人人。
您在資料人網平臺,可以1)學習資料知識;2)建立資料部落格;3)認識資料朋友;4)尋找資料工作;5)找到其它與資料相關的乾貨。
我們努力堅持做原創,聚合和分享優質的省時的資料知識!
我們都是資料人,資料是有價值的,堅定不移地實現從資料到商業價值的轉換!
點選閱讀原文,進入資料人網。