花小卷2010
summaryzhen
風(fēng)控建模是什么?模型分為兩種:1、一刀切,大于這個(gè)閥值的通過,小于這個(gè)閥值的拒絕。2、分級(jí),不確定的人工干預(yù)。一刀切這種模型,首先聲明一點(diǎn),在我的理解,應(yīng)該沒有一家公司有種到,就靠一個(gè)模型就完全判定客戶好壞,給他放款與否,如果有這家公司的存在,請(qǐng)收下我的膝蓋,請(qǐng)大神收我為徒。畢竟我所在的公司不敢這么干。一般這種一刀切的模型是放在很多的策略規(guī)則,反欺詐規(guī)則,各種驗(yàn)證規(guī)則差不多最后一步步驟的模型,模型給客戶一個(gè)評(píng)分,利用評(píng)分劃分一個(gè)閥值,高于閥值的通過(假設(shè)越高分的客戶質(zhì)量越高),低于閥值的拒絕。這時(shí)候還需要提及一點(diǎn)就是,風(fēng)控,全名是風(fēng)險(xiǎn)控制,風(fēng)險(xiǎn)控制的意思就是控制風(fēng)險(xiǎn),但是并非完全沒有風(fēng)險(xiǎn),所以閥值的劃分上,中心思想是:我能讓壞客戶進(jìn)入造成的損失,是可以用好客戶的收益除去人工,數(shù)據(jù),獲客各種雜七雜八的成本覆蓋以外,還可以獲得一個(gè)接受的收益的前提下,我去畫下這個(gè)閥值。這就意味著,閥值的確定并非高于閥值的客戶就一定是好客戶,你要都是好客戶,那你100個(gè)人進(jìn)來,你就取那個(gè)最高分的,那么逾期率肯定低的,但是這樣子你們市場(chǎng)部肯定跟你翻臉,老子拉100個(gè)客戶,你就給一個(gè)過,什么意思,搞我?。榱吮苊膺@種風(fēng)控和市場(chǎng)的斗爭(zhēng),你就需要找到一個(gè)權(quán)衡客戶以及效益的閥值??蛻羯婕暗某杀?(具體數(shù)字需要根據(jù)自己公司的數(shù)據(jù)做調(diào)整。)獲客成本:你們?cè)谠摦a(chǎn)品渠道投放的獲客成本,這估計(jì)要跟市場(chǎng)部詢問,你也可以估算,這不是精算,并非需要精細(xì)到真真切切的具體一個(gè)客戶的獲客成本,大概就可以了,應(yīng)該你的閥值還會(huì)調(diào)整的。資金成本:就是你借出去的錢,是屬于那種渠道的資金,需要支付對(duì)方的利息,這個(gè)可以詢問領(lǐng)導(dǎo)。因?yàn)槊總€(gè)客戶的金額可能不同,無需統(tǒng)計(jì)你這批客戶的放款金額,可以取一個(gè)平均貸款金額再乘以總的放款人數(shù),畢竟你這些客戶都是放款,模型要針對(duì)的是正在申請(qǐng)的客戶。(資金渠道有多個(gè),可以取平均值,或者你想保守一些,平均值取上一些可是可以的。)人力成本:你都一個(gè)閥值確定好壞了,所以這個(gè)人力成本,tan90°啊數(shù)據(jù)成本:每個(gè)客戶都要多多少少接入你一些外部數(shù)據(jù),客戶接入的外部數(shù)據(jù),估算一下外部數(shù)據(jù)的成本。(也可以問下你的領(lǐng)導(dǎo))如果以上的成本數(shù)據(jù)你拿不到,那你就不要做這個(gè)利潤(rùn)最大化的活了。我是說真的,畢竟我不知道你們公司這些信息是否可以告訴你。

花花要減肥
CDA Level Ⅰ:業(yè)務(wù)數(shù)據(jù)分析師CDA Level Ⅱ:建模分析師CDA Level Ⅱ:大數(shù)據(jù)分析師CDA Level Ⅲ:數(shù)據(jù)科學(xué)家
黑糖丸子
約定初始化分箱的個(gè)數(shù)為10。 定義: , 代表箱子。 MAPA 單調(diào)相鄰池化,也稱為最大似然單調(diào)粗分類,該方法可以使得分箱得到的woe與bin呈現(xiàn)單調(diào)上升或單調(diào)下降的關(guān)系。 分箱是一個(gè)很細(xì)的工作,需要豐富的風(fēng)控經(jīng)驗(yàn),在經(jīng)驗(yàn)不足的情況下,可以參考下面的一些注意事項(xiàng)和原則。
釘子生銹了
以下以申請(qǐng)?jiān)u分卡(A卡)建模為例,描述模型開發(fā)的基本流程: 1.數(shù)據(jù)準(zhǔn)備:定義目標(biāo)變量,整合樣本特征;劃分?jǐn)?shù)據(jù)集:訓(xùn)練集、驗(yàn)證集與測(cè)試集,由于金融業(yè)務(wù)中的樣本的積累周期比較長(zhǎng),因此測(cè)試集有必要?jiǎng)澐譃閮煞N,一種為訓(xùn)練集時(shí)間跨度內(nèi),一種為訓(xùn)練集時(shí)間跨度之外,用時(shí)間外的測(cè)試集驗(yàn)證模型特征的穩(wěn)定性。 2.探索性數(shù)據(jù)分析:統(tǒng)計(jì)每個(gè)特征取值的分布;統(tǒng)計(jì)每個(gè)特征的覆蓋率,去掉覆蓋率較低的特征;處理樣本的異常值和缺失值。 3.數(shù)據(jù)預(yù)處理:根據(jù)經(jīng)驗(yàn)對(duì)特征作預(yù)篩選,篩除于目標(biāo)變量無關(guān)的特征;特征分箱;WOE轉(zhuǎn)換。 4.特征選擇:計(jì)算IV值,特征選擇。 5.模型開發(fā):常用邏輯回歸模型進(jìn)行擬合。 6.模型評(píng)估:模型常見的評(píng)估指標(biāo)有AUC,ROC,KS,Gani-chat,Lift-chat,特征穩(wěn)定性的評(píng)估指標(biāo)psi。 7.生成評(píng)分卡。 流程示意圖如下所示: ? ? ? ? 不同的評(píng)分模型需要的數(shù)據(jù)是不同的,在建模之前需要對(duì)對(duì)要解決的問題建立明確的數(shù)學(xué)定義。 1.排除一些特定的建模用戶 ? ? ? ? 用于建模的用戶必須是日常審批中接觸到的用戶,不能是異常情況,比如欺詐等。 2.明確用戶的屬性 ? ? ? ? 用戶的基本屬性,比如學(xué)歷、年齡、收入情況等;征信機(jī)構(gòu)的數(shù)據(jù)和其他外部數(shù)據(jù),比如芝麻分。 3.目標(biāo)變量的確立 ? ? ? ? 評(píng)分模型是利用歷史的數(shù)據(jù)預(yù)測(cè)未來的行為,需要明確定義正負(fù)樣本的標(biāo)簽。不能出現(xiàn)歧義,重疊等。 4.劃分?jǐn)?shù)據(jù)集 ? ? ? ? 通常訓(xùn)練模型需要?jiǎng)澐钟?xùn)練集、驗(yàn)證集與測(cè)試集。信貸業(yè)務(wù)中樣本成熟的經(jīng)歷的時(shí)間比較長(zhǎng),因此測(cè)試集需要時(shí)間內(nèi)和時(shí)間外的數(shù)據(jù),時(shí)間內(nèi)外是相對(duì)訓(xùn)練集的時(shí)間跨度而言,避免經(jīng)過一段時(shí)間后特征波動(dòng)或失效的發(fā)生。 EDA的實(shí)施主要包括: 1.描述性統(tǒng)計(jì) ? ? ? ? 描述性統(tǒng)計(jì)是用一些統(tǒng)計(jì)量來對(duì)變量分析,如:平均值,標(biāo)準(zhǔn)差,最小值,最大值等。 2.統(tǒng)計(jì)每個(gè)變量值的分布、特征覆蓋率及檢驗(yàn)正態(tài)分布 ? ? ? ? 通常使用直方圖繪制變量不同取值的樣本分布,以及變量在樣本中的覆蓋率,篩除樣本中有值特別少的變量。 3.極值的識(shí)別與處理 ? ? ? ? 每個(gè)變量需要設(shè)定一個(gè)正常的取值范圍。對(duì)數(shù)量較少的超出正常范圍的極端值作替換處理,若極端值的數(shù)量超過10%,則說明數(shù)據(jù)的生成機(jī)制不止一個(gè)。 4.缺失值的處理 缺失值機(jī)制 1.特征初篩 ? ? ? ? 根據(jù)業(yè)務(wù)經(jīng)驗(yàn)預(yù)先篩除掉與目標(biāo)變量無關(guān)的變量。 2.特征分箱 1)對(duì)于連續(xù)變量可以使用等頻分箱、等距分箱、卡方分箱與最優(yōu)分箱; 2)對(duì)于離散變量,可以卡方分箱,對(duì)離散變量取值合并分箱。 3.特征編碼 1)特征分箱離散化后可計(jì)算每個(gè)bin的woe值,形成每個(gè)bin的woe編碼 2)one-hot編碼 3)dummy編碼,與one-hot編碼類似 1.計(jì)算IV值與psi值 ? ? ? ? IV(Information Value):信息價(jià)值。IV可以用來衡量自變量的預(yù)測(cè)能力;WOE(Weight of Evidence,證據(jù)權(quán)重)和IV使用來衡量變量的預(yù)測(cè)能力,值越大,表示此變量的預(yù)測(cè)能力越強(qiáng)。PSI可以用來衡量特征的穩(wěn)定性。 ? ? ? ? 在訓(xùn)練模型時(shí),挑選特征是一個(gè)比較復(fù)雜的過程,要考慮的因素有很多,比如,變量的預(yù)測(cè)能力,變量之間的相關(guān)性,變量的簡(jiǎn)單性(容易生成和使用),變量的強(qiáng)壯性(不容易被繞過),變量在業(yè)務(wù)中的可解釋性。其中變量的預(yù)測(cè)能力可以通過IV值衡量。IV的計(jì)算是以WOE為基礎(chǔ)的。 ? ? ? ? 要對(duì)一個(gè)變量進(jìn)行WOE編碼,必須對(duì)變量離散化(分箱),分箱后,第i組的woe值得計(jì)算公式為: 其中, 為這個(gè)組中響應(yīng)客戶(風(fēng)險(xiǎn)模型中為違約客戶,正樣本)的,占總體正樣本的比例, 為負(fù)樣本所占比例, 為該分組中正樣本數(shù)量, 為該組負(fù)樣本數(shù)量, 代表總體樣本中的正負(fù)樣本數(shù)量,WOE實(shí)際代表該分組中的正負(fù)樣本比例的差異,值越大,差異越大,該分組越能區(qū)分正負(fù)樣本。第i組的IV 值為: 整個(gè)變量的IV值為(n個(gè)分組 值得嘉和):2.特征篩選 選擇IV值高,PSI值低,覆蓋率高的特征入模。 1.模型擬合 常用lr邏輯回歸模型進(jìn)行分類。 模型優(yōu)化 根據(jù)p值篩選模型變量,原假設(shè)(變量不重要,與目標(biāo)變量無光),在此假設(shè)基礎(chǔ)上計(jì)算chi-square,若chi-square值大,則p值小,p值<說明變量很重要。 ? ? ? ? 模型擬合之后,需要評(píng)估模型的好壞。好的模型一般要有以下三個(gè)基本要求: 1.精確性。模型在預(yù)測(cè)時(shí),要有一定的精確性;2.穩(wěn)健性。模型必須對(duì)從總體樣本中抽取的所有樣本都有效;3.有意義 以下介紹幾個(gè)常用的評(píng)價(jià)指標(biāo): 1.混淆矩陣 曲線 曲線 指標(biāo) 系數(shù) 提升圖 ? ? ? ? 一個(gè)事件發(fā)生的幾率(Odds),是指該事件發(fā)生的概率與該事件不發(fā)生概率的比值。若一個(gè)客戶違約概率為p,則其正常的概率為1-p,由此可得: 此時(shí),客戶違約的概率p可以表示為: 評(píng)分卡表達(dá)式為: 其中A、B為常數(shù)。由于log函數(shù)在(0→+∞)單調(diào)遞增,所以當(dāng)用戶違約幾率Odds越大時(shí),Score評(píng)分越低。通過給定 : (1)某特定Odds時(shí)的Score值S0; (2)該特定Odds值翻倍時(shí)Score增加值PD0; 通過給定值S0與PD0帶入評(píng)分卡表達(dá)式,可求得A、B。 (未完待續(xù)。。。)
優(yōu)質(zhì)工程師考試問答知識(shí)庫(kù)