筆者邀請您,先思考:
1 如何進行信用評分卡建模?有哪些建模方法?
信用評分:第2部分 – 信用評分卡建模方法
偉大的設計透過簡單化來呈現其豐富性。(M. Cobanli)
作為資料科學家,我的責任是設計和開發一個準確,有用和穩定的信用風險模型。我還需要確保其他資料科學家和業務分析師能夠評估我的模型或重覆相同的步驟並產生相同或類似的結果。
在模型開發過程中,我嘗試從業務中找到答案,以解決一些問題。這些答案有時需要主觀判斷。只要我能記錄我的問題和相應的答案,這種主觀主義就沒有錯。很顯然,如果我不斷將這些問題和答案新增到串列中,那麼就有一個難以遵循的巨大串列的結局的危險。我也可能會以一些重覆的問題或甚至矛盾的答案而終結。
我怎麼能確定:(1)我不會錯過對重要問題的回答; (2)我的模型將成功透過同行評審或審核流程;或(3)我的同事將能夠複製模型結果?
為了滿足以上幾點,我需要:
-
系統步驟 – 方法論 – 我將遵循以確保最佳實踐;
-
一個支援結構 – 理論框架 – 我將開始填補我的答案;
-
對信用風險模型的描述提出了重要的特徵 – 模型設計 – 證明瞭商業利益,例如創造更高的利潤。
一旦我確定了這些重要的元素,我就可以開始在我的理論框架的正確方面填充我的問題,並著手設計和構建模型。 該過程可能如下所示:
-
問題1:我如何從區分“好”客戶和“壞”客戶? 他們是否有支付60,90或180天 – 逾期付款?
-
答案1:這是我的模型設計的一部分。 我會從業務中尋求答案,我會在“操作定義”下記錄它。
-
問題2:當模型預測“壞”/“好”客戶時,結果期應該多久?我應該確定那段時間的日期還是長度?
-
答案2:這也是我的模型設計的一部分。 再次,我需要與業務部門核實他們期望模型預測的結果。 我將在“效能視窗”下提交這個答案。 一旦我確定了定義和結果期,我就可以從我的資料中得出結果變數,這些資料將構成我框架的一部分。
-
問題3:誰應該被納入分析? 我是否需要排除欺詐性客戶或處於“好”和“壞”狀態之間的人?
-
答案3:在我的模型設計中,我需要新增一個包含所有假設的串列,以便我可以要求企業確認。
-
問題4:區分“好”客戶和“壞”客戶的主要特徵是什麼?
-
答案4:這是我理論框架的一部分,特別是識別自變數。 我將進行資料挖掘,以建立客戶特徵與結果變數之間的關係。 例如,“有固定收入的客戶不太可能違約”或“老客戶不太可能違約”。 在科學術語中,每個特徵(如收入或年齡)代表一個假設,使用邏輯回歸等統計方法檢驗其顯著性。 根據統計分析,我可以決定是否在模型中保留這些變數。
等等…
隨後的部分將更詳細地介紹評分卡建模方法。
開發方法論
任何商業,研究或軟體專案都需要合理的方法,通常採用理論或概念框架的形式。框架的目的是描述步驟的順序及其相互作用。這確保了所有重要階段的實施,提供了對專案本身的理解,制定了重要的里程碑並建立了專案利益相關方之間的積極協作。
通常可以採用不止一種既定方法。資料挖掘專案是多個概念框架可用的典型示例。資料挖掘通常涉及用於商業目的的預測模型的開發。資料挖掘專案具有多學科性質,需要從不同角度進行考慮,其中包括:
-
業務 – 用於評估潛在的商業利益
-
資料科學 – 用於建立理論模型
-
軟體開發 – 用於開發可行的軟體解決方案
每個觀點可能需要獨立的方法,但至少需要兩個才能適應上述觀點。兩種流行方法的例子有Agile-scrum和CRISP-DM(用於資料挖掘的跨行業標準過程);前者用於解決業務和軟體開發需求,後者則用於構建商業樣式。
Agile-scrum方法是一種時間框的迭代式軟體開發方法,逐步構建軟體,並具有為業務提供價值的關鍵標的。 該方法促進使用者積極參與,利益相關者之間的有效互動和頻繁交付。 因此,它非常適合資料挖掘專案,這些專案通常在短時間內完成,需要經常更新以應對不斷變化的經濟環境。
CRISP-DM是資料挖掘過程模型的主要行業方法。 它由六個主要相互關聯的階段組成:(1)業務理解,(2)資料理解,(3)資料準備,(4)建模,(5)評估和(6)部署。
圖1.CRISP-DM資料挖掘框架
預測模型的最終標的是滿足特定業務需求,以改善業務和業務流程的效能。 業務和資料理解都是CRISP-DM的關鍵階段。 這兩個階段的結果應該是一個完善的理論框架和模型設計。
理論框架和模型設計
理論框架是一個幫助識別(假設)預測模型(如信用風險模型)中的重要因素及其關係的建模基礎。標的是制定一系列假設,並決定用於測試這些假設的建模方法(如邏輯回歸)。然而,更重要的是要建立重覆/驗證研究結果的方法,以獲得對模型嚴謹性更強的信心。
該框架的主要內容是:(1)如因變數(標準),“信用狀態”,(2)自變數或預測變數,如年齡,居住和就業狀況,收入,銀行賬戶資訊,支付記錄,或壞賬歷史,以及(3)可測試的假設,例如“房主不太可能違約”。
模型設計應遵循研究設計方法學的公認原則,這是資料收集,測量和資料分析的藍圖,因此可以對模型進行可靠性和有效性測試。前者測試模型產生穩定和一致結果的程度,後者測試模型是否真實地代表了我們試圖預測的現象,即“我們構建了正確的事情嗎?”
一個好的模型設計應該記錄以下內容:
-
分析單位(如客戶或產品水平),
-
人口框架(例如,透過貸款申請人)和樣本量,
-
操作性定義(例如,“壞”的定義)和建模假設(例如,排除欺詐性客戶),
-
觀察的時間範圍(例如過去兩年的客戶付款記錄)和表現視窗,即“壞”定義所適用的時間範圍,
-
資料來源和資料收集方法。
圖2.利用歷史資料預測未來結果
觀察和表現視窗的長度取決於正在設計模型的工業部門。例如,在銀行部門,與電信部門相比,這兩個視窗通常較長,因為電信部門頻繁更換產品需要較短的觀察時間和表現視窗。
申請評分卡通常應用於新客戶,並且沒有觀察視窗,因為客戶使用申請時已知的資訊進行評分。諸如信用局資料之類的外部資料主宰這類評分卡的內部資料。行為評分卡具有利用內部資料的觀察視窗,並且傾向於具有比申請評分卡更好的預測能力。
從實施活動開始,可以在整個客戶旅程中應用不同的評分卡,以預測客戶響應營銷活動的可能性。在申請階段,客戶可以針對多種預測模型進行評分,例如信用責任違約的可能性或預測欺詐性客戶。將一系列行為評分卡模型應用於現有客戶,以預測違約機率,以設定信用額度和利率或計劃追加銷售和交叉銷售活動;保留活動投放的機率或預測償還債務金額的可能性或為收集目的“自我治療”的可能性。
信用記分卡模型開發步驟
一旦明確了理論框架和模型設計,我們就可以為CRISP-DM的下一步做好準備。 在不同情況下進行輕微修改後,信用評分卡開發流程的典型步驟如下表所示。
表1.建立標準信用風險評分卡模型的典型步驟
系列之前:信用評分:第1部分:為什麼要進行信用評分?
系列之後:信用評分:第3部分 – 資料準備和探索性資料分析
作者:
Natasha Mashanovich,
Senior Data Scientist at World Programming,
UK
原文連結:https://www.worldprogramming.com/blog/credit_scoring_pt2
版權宣告:作者保留權利,嚴禁修改,轉載請註明原文連結。
資料人網是資料人學習、交流和分享的平臺http://shujuren.org 。專註於從資料中學習到有用知識。
平臺的理念:人人投稿,知識共享;人人分析,洞見驅動;智慧聚合,普惠人人。
您在資料人網平臺,可以1)學習資料知識;2)建立資料部落格;3)認識資料朋友;4)尋找資料工作;5)找到其它與資料相關的乾貨。
我們努力堅持做原創,聚合和分享優質的省時的資料知識!
我們都是資料人,資料是有價值的,堅定不移地實現從資料到商業價值的轉換!
加入資料人圈子或者商務合作,請新增筆者微信。
點選閱讀原文,進入資料人網,獲取資料知識。
公眾號推薦:
鏈達君,專註於分享區塊鏈內容。
腳印英語,專註於分享英語口語內容。