筆者邀請您,先思考:
1 信用評分卡如何變數選擇?
2 變數選擇有哪些方法以及如何實現?
“以少勝多”是信用智慧的主要理念,信用風險模型是實現這一標的的手段。 透過使用自動化流程並專註於關鍵資訊,信用決策可以在幾秒鐘內完成 – 並且最終可以透過使決策流程更快而降低運營成本。 更少的問題和快速的信貸決策最終會提高客戶滿意度。 對於貸方來說,這意味著擴大客戶群,吸納風險較小的客戶並增加利潤。
如何實現簡約化以及尋找什麼關鍵資訊? 答案在信用風險建模過程的下一步 – 變數選擇過程中找到。
作為資料準備結果建立的挖掘檢視是一個多維唯一的客戶簽名,**用於發現潛在的預測關係並測試這些關係的強度。 **根據客戶簽名中的特徵建立一套可測試的假設,對客戶簽名進行全面分析是重要的一步。 通常被稱為商業見解,這種分析提供了對客戶行為趨勢的解釋,其目的是指導建模過程。
商業洞察分析的目的是:
-
驗證衍生客戶的資料符合業務理解。例如,洞見分析應該支援業務報表,即債務收入比較高的客戶更有可能違約;
-
為分析模型結果提供基準;
-
塑造建模方法
業務洞見分析透過結合單變數和多變數統計以及不同的資料視覺化技術,利用類似的技術來進行探索性資料分析。典型的技術有相關性,交叉表,分佈,時間序列分析,監督和無監督分割分析。分群是特別重要的,因為它決定何時需要多個評分卡。
基於業務洞察分析結果的變數選擇首先將挖掘檢視劃分為至少兩個不同的分割槽:訓練和測試分割槽。 訓練分割槽用於開發模型,測試分割槽用於評估模型的效能並驗證模型。
圖1.簡化評分卡模型構建過程
變數選擇
變數選擇是在模型訓練期間測試顯著性的候選模型變數的集合。候選模型變數也被稱為自變數,預測變數,屬性,模型因子,協變數,回歸因子,特徵。
變數選擇是一個簡化過程,旨在確定最大增益預測變數(預測準確度)的最小集合。這種方法與資料準備相反,盡可能多的有意義的變數被新增到挖掘檢視中。這些相反的要求是透過最佳化實現的;即在給定約束條件下找到最小選擇偏差。
關鍵標的是找到一組正確的變數,因此評分卡模型不僅能夠根據客戶壞賬的可能性對客戶進行排名,而且還能夠估計他們壞賬的可能性。這通常意味著在預測模型中選擇具有統計意義的變數,並具有一組平衡的預測變數(通常8-15被認為是一個好的平衡點),以收斂到360度的客戶觀點。除了客戶特定的風險特徵外,我們還應考慮納入系統性風險因素來解釋經濟漂移和波動性。
說起來容易做起來難 – 在選擇變數時,存在一些限制。首先,模型通常會包含一些法律,道德或監管規則禁止使用的高度可預測的變數。其次,一些變數可能無法使用,或者在建模或生產階段可能質量較差。此外,可能有一些重要的變數尚未被認為是這樣的,例如,由於有偏倚的人口樣本,或者因為它們的模型效應會因為多重共線性而變得反直覺。最後,企業將永遠有最後的話,並可能堅持只包含商業聲音變數,或要求單調遞增或遞減效應。
所有這些約束都是潛在的偏倚來源,這給資料科學家提供了一個具有挑戰性的任務來減少選擇偏倚。變數選擇過程中的典型預防措施包括:
-
與該領域的專家合作確定重要變數;
-
意識到與資料來源有關的任何問題,可靠性或誤判;
-
清洗資料;
-
使用控制變數來說明禁止變數或特定事件,如經濟偏差。
認識到變數選擇是整個模型構建過程中發生的迭代過程是非常重要的。
-
它透過將挖掘檢視中的變數數量減少到可管理的一組候選變數來開始模型擬合;
-
在模型訓練過程中繼續進行,由於統計意義不明顯,多重共線性,低貢獻或懲罰以避免過度擬合,進一步減少;
-
在模型評估和驗證期間進行; 和
-
在商業批准期間完成,模型的可讀性和可解釋性起著重要作用。
變數選擇在達到“最佳點”後結束 – 意味著在模型精度方面沒有更多的改進。
圖2.變數選擇過程的迭代性質
大量的變數選擇方法是可用的。 隨著機器學習的進步,這個數字一直在不斷增加。 變數選擇技術取決於我們是使用變數減少還是變數消除(過濾),選擇過程是在預測模型內部還是外部進行的; 我們是否使用有監督或無監督的學習; 或者底層方法是否基於特定的嵌入式技術(如交叉驗證)。
表1.信用風險建模中典型的變數選擇方法
圖3.使用雙變數分析的變數選擇
在信用風險建模中,最常用的兩種變數選擇方法是在模型訓練之前基於資訊值進行過濾,以及在邏輯回歸模型訓練期間逐步選擇變數選擇。 儘管兩者都受到了從業者的批評,但重要的是要認識到,沒有理想的方法存在,因為每種變數選擇方法都有其優點和缺點。 使用哪一個以及如何最好地將它們組合起來並不是一件容易解決的任務,並且需要扎實的領域知識,對資料的良好理解以及豐富的建模經驗。
系列之前:信用評分:第3部分 – 資料準備和探索性資料分析
系列之後:信用評分:第5部分 – 評分卡開發
作者:
Natasha Mashanovich,
Senior Data Scientist at World Programming,
UK
原文連結:https://www.worldprogramming.com/blog/credit_scoring_pt4
版權宣告:作者保留權利,嚴禁修改,轉載請註明原文連結。
資料人網是資料人學習、交流和分享的平臺http://shujuren.org 。專註於從資料中學習到有用知識。
平臺的理念:人人投稿,知識共享;人人分析,洞見驅動;智慧聚合,普惠人人。
您在資料人網平臺,可以1)學習資料知識;2)建立資料部落格;3)認識資料朋友;4)尋找資料工作;5)找到其它與資料相關的乾貨。
我們努力堅持做原創,聚合和分享優質的省時的資料知識!
我們都是資料人,資料是有價值的,堅定不移地實現從資料到商業價值的轉換!
加入資料人圈子或者商務合作,請新增筆者微信。
點選閱讀原文,進入資料人網,獲取資料知識。
公眾號推薦:
鏈達君,專註於分享區塊鏈內容。
腳印英語,專註於分享英語口語內容。