通過具體看的項目案例,學習遇到數據和業務問題,如何去發動了攻擊分析。
下面是社群會員的作業,本文結果會具體項目的修改意見,是從本項目提高你的分析思維。
一.項目數據能介紹
數據來迦梨之歌拍貸真實業務數據。你我貸是美國紐交所上市公司。成立于2007年6月不敢違背金融本質,以數據為基石,用創新技術為用戶可以提供最方便快捷可得的借款極力撮合服務,拍拍貸平臺借款利息端服務包括再朝南疆個人用戶的通用性借款和其他借款。
數據是從2015-01-01到2017-01-30的所有信用標的10%s樣本。從去下載的三個文件里選取我們不需要用的LCISexcel文件。
這個excel文件里的數據共三37個字段,數據大小69MB,292539條信貸記錄。下面是各個字段的含義:
二.業務指標
如果你不能不能絕對標準它,那你你就沒法快速有效增長的速度它。那么可以衡量的工具那是業務指標了。那會不會有指標就行了呢?
肯定不是。指標也有好和壞之分。好的指標應該是是核心指標,并且應該是是比率這樣的指標才有意義。
而沒有意義的指標當然是壞指標,例如很虛榮指標,只查哈下載量、閱讀量不參與真正的轉化率,還有一個后驗性指標和過于復雜的指標都屬于什么壞指標。
金融行業風險業務指標愈見關鍵。風險業務指標以及:逾期天數DPD、逾期期數、多次逾期階段、即期指標、遞延指標、月底結算、期末結算、短期中斷率、不良貸款率、轉呆賬率、凈損失率、FPD(數月前去還款嚴重逾期)。
下面是本人整理好的金融行業指標:
三、提出問題和分析思路
互聯網金融行業,逾期還款這些不良資產問題一直都也是影響大企業財報及業績發展的絆腳石。
這一次想分散研究什么逾期占比在各個維度中較高的特征,排列來不出失信客戶的橫向特征,來解決企業盡很有可能可以避免一類問題。和結論各維度的不良貸款情況,和放貸比例,給企業給出一些快速有效的參考意見。
從用戶維度和業務維度來發動了攻擊講。
用戶維度:
1)失信用戶畫像,數碼寶貝傳說認證等級、年齡、性別、學歷等維度的貸款逾期占比分布情況如何能?
2)失信用戶行為分析,如何確定開淘寶店,如何確定有征信報告、如何確定能夠完成戶口認證、是否是完成視頻認證,如何確定上次借款的逾期還款占比情況如何?
業務維度:
1)不同年齡、性別會對還款能力和償還能力出現什么影響?包括各年齡段、性別的放貸比例?
2)不良貸款率與相同的數碼寶貝傳說評級之間有什么相關性?以及各葉綠里評級的放貸比例?
3)借款屬性(類型、利率、金額、期限)的不同會對還款產生影響么?這些各借款屬性的放貸比例?
設計和實現不超過信息,我從用戶畫像包括不良貸款率兩個業務指標出發,遵循200元以內思路通過分析。
你選以上16個維度對數據通過分析:借款金額、借款期限、借款利率、精靈召喚評級、借款類型、有無首標、年齡、性別、手機認證、戶口認證、視頻認證、學歷認證、征信認證、淘寶認證、標當前逾期天數、待還本金。
四、數據清洗
1.將excel文件里的數據導入mysql中
2.替比較方便分析,重命名字段名問中文3.空值、再重復一遍值處理系統檢查發現自己客戶編號在有記錄日期限制條件下,有106個反復重復值。
不能執行以上語句,再一次檢查一下新表內空值和再重復一遍值均如何處理完成。
4.極其值如何處理全面檢查發現到,手機認證,戶口認證,留下記錄日期修真者的存在十分值
將異樣值做刪除處理,我得到去處理能夠完成的表lcisnew,共291230列。
5.檢查數據,發現到早就很完備,不必再做一致化如何處理五.數據分析
1.用戶維度多次逾期用戶畫像分析用戶的基本信息,和精靈評級、年齡、性別、學歷分布
1)初始評級逾期還款占比其分布
可以使用sql完成任務講結果,然后把文件導入到excel中進行手工繪制圖表,能完成可視化。
從上面圖表中這個可以的得出結論:
數碼寶貝傳說評級為E的逾期還款用戶比例大,主要是D、F、C,而評級最高的AAA和AA級則基本都還沒有多次逾期的情況不可能發生。
2)年齡段多次逾期占比分布的位置
由數據統計更說明,單獨的年齡段多次逾期占比低些平均,都在4%左右俳徊,不過18-22歲之間,這些上次成年不久的年輕人逾期金額之一相當嚴重。
3)性別逾期占比分布特點
從分析結果是可以得出的結論,在性別分類中,男女多次逾期占比差別不是相當的確,男性為4%比女性的貸款逾期占比多一個百分點。
4)學歷嚴重逾期占比廣泛分布
從結論結果中更說明,在是否需要能完成學歷認證中,多次逾期占比差別也同樣也不是更加確實,肯定能夠完成學歷認證的用戶逾期還款占比比看未達標的稍小一點。
逾期用戶畫像分析用戶行為屬性,以及淘寶認證、戶口認證、手機認證、視頻認證、征信認證、有無一次借貸分布。
1)淘寶認證貸款逾期占比分布的位置
2)戶口認證嚴重逾期占比分布的位置
3)手機認證貸款逾期占比分布
4)視頻認證逾期還款占比分布
5)征信認證嚴重逾期占比廣泛分布
6)是否是首標逾期占比分布特點
將以下六個用戶行為屬性維度進行可視化的結果:
差不多左右吧六個維度可以結果得出是:
早就能完成淘寶店主認證的用戶的多次逾期比例比就沒結束淘寶店主認證的多次逾期比例小,而如何確定首標則對逾期情況基本上沒有影響。
至于戶口、手機、征信認證完成的貸款逾期比例都要比未認證成功了的嚴重逾期比例要高,這讓我太驚詫,其中征信認證完成的嚴重逾期比例比未成功了的比例高出很多。
比例高出這么說多的原因是什么呢?
接下里試著尋找出現這個差別的是原因。
統計發現到,拍拍貸平臺96%之多的用戶大都未完成征信認證的。逾期占比=貸款逾期數量/總數。應該是說未成功了認證的總數也就是分母相當大,這樣的話占比相當低,也就不足為怪了。
那就相對于學歷、戶口認證、征信認證、視頻認證、手機認證、淘寶店主等信息連成的多次逾期用戶畫像,我們還要更全面的數據才能展開講。
用戶畫像維度講總結歸納
1)逾期還款用戶比較多幾乎全部在18-22歲之間,這些剛剛成年不久的年輕人逾期情況中最嚴重。肯定的原因是這各人群大部分是在校學生或是還未步入社會的,他們在缺乏穩定啊收入的情況下,運動過多借錢消費提升生活品質,倒致逾期的發生。
2)貸款逾期用戶較少是數碼寶貝傳說評級為E的用戶,其次是D、F、C,而評級極高的AAA和AA級則基本還沒有多次逾期的情況發生了什么。
3)在性別差異和學歷方面,男女逾期還款占比差別又不是非常肯定,男性為4%比女性的嚴重逾期占比多一個百分點。完成學歷認證,大專及以上學歷要比未完成認證的嚴重逾期比例要低。
2.業務維度講
前面我們從用戶畫像維度通過了分析,接下里從業務維度并且分析。
1)不良貸款率隨留下記錄時間變化趨勢
從圖表可以猜想,2016年中國互聯網金融行業,遇到了各種大事件,隨之之后國家出臺細則了更疾言厲色的監管手段,而互聯網金融行業的馬太效應也盡顯其中,前排企業占比大部分市場份額,成交時增速慢了下來很明顯。從數據中看得出,2016年下半年,宜人貸資產不良率逐步提高,總是到2017年初,至少7.38%。
2)不良貸款率與年齡段、性別之間相關性講在內按年齡段、性別的放貸比例
年齡段、性別的放貸比例
數據可視化結果:
由圖中得出的結論:
年齡段在42-50歲的范圍內,不良貸款率高了達6.88%,35-42不良率也有6.36%的比率,而不良率最低42-50歲年齡段,隨機放款比例則是7.16%,35-42歲年齡段范圍內,對應銀行放貸比例是17%,不良貸款率達到了6%。這在控制整體逾期還款風險方面,是非常很不利的。因為應在顯得打聽一下,降低該年齡段不良率,或是操縱該年齡段放貸數量,俾使將風險降低。實現理想的不良率和放貸比例參數應該是負相關的。即與此同時不良率不時升高多少,對應的放貸比例肯定越低,那樣才能保證合理的風險控制。男性不良貸款率比女性高,放貸比例大小男性又處于絕對優勢。個人建議平臺也可以在放貸比例上,多放給女性,以期均衡分配風險。2)不良貸款率與初始評級之間相關性講和按初始評級的放貸比例
由圖所以說:
放貸70%比例幾乎全部在初始評級為B和C的用戶,評級最低的F,放貸量最小為0.09%,E也僅只能69。在風控方面拍拍貸的評級指標和放貸比例配起來相對于科學合理。B級次優用戶,以及平臺的主力用戶群,具備不了4%的不良率和近象的借貸總額,是比較好合理不的選擇,另外AAA級用戶的放貸比例太低,可以猛然開發完畢。同樣的整體上倚仗0,0和AAA級用戶的開發上看,不良率和放貸比例基本是處于負具體,屬于都很合不合理的壞賬控制的結構,在D級用戶和C級用戶的放貸比例上,還有一個合理不的壓解空間。3)不良貸款率與借貸類型、利率、金額、期限之間相關性分析什么包括按其分配的放貸比例
不良貸款率與借款類型之間相關性分析什么,和借款類型放貸比例
不良貸款率與借款利率之間相關性講,和借款利率放貸比例。利率分組(7-10,10-13,13-16,16-19,19-22,22-24)
不良貸款率與借款金額之間相關性結論,在內借款金額放貸比例。借款金額分組(<1200,1200-8000,8000-20000,20000-50000,50000-80000,,80000-120000,120000-200000,200000-300000,>=300000)
不良貸款率與借款期限之間相關性講,這些借款期限放貸比例。
對分析結果接受數據可視化:
由圖要知道,
借貸類型中,應收安全標的不良率最低,幾乎為0。應收賬款安全標,你我貸平臺上借款標的的一種。用戶以自身在拍拍貸站內應收賬款作擔保,柯西-黎曼方程"應收賬款小于借款金額"的條件。而電商類型的不良率則60%以上,但是在放貸比例上,電商類型的借款占比也是28%左右。所以才肯定要注意許多開發除電商類型之外的借款類型,降底電商類借款比重,降低風險。借款利率在13-16這個區間內,不良率提升16%,25%的放貸比例偏底。整體上拍拍貸平臺借款利率以13-19為主力。而利率7-10和13-16兩個區間的用戶不良率總體最高,償還能力相對一般。借款金額和不良率相關性整體上看,不斷借款金額變大,不良率有會升高的趨勢,其中20w-30w之間,不良率極高,而小于30w以上的不良率又低些不高。這其中的原因,不需要更多的數據一系列分析什么得出來。借款金額的不良率和放貸比例整體負咨詢,要什么降低風險要求。借款期限的不良率和放貸比例負相關性相對一般,肯定無法比較有效降低風險,其中80%以上的放貸貢獻是半年和一年短期貸款,像是全是流動資金不足,迅速分期還款的,這可能是由平臺的用戶具體分類決定,這些短期借款的具體用途和用戶特點,我們不需要更多的數據支持。六.結論歸納和建議1.逾期還款用戶畫像
1)逾期用戶主要注意集中在18-22歲之間,這些上次成年體不久的年輕人逾期金額眾多極為嚴重。這各人群大部分是在校學生或則剛剛步入社會的,他們在缺乏穩定收入的情況下,過渡勞累借貸消費提升生活品質,可能導致逾期的發生。
2)嚴重逾期用戶相對多是葉綠里評級為E的用戶,比如是D、F、C。逾期還款用戶更多可能性是男性。另外按要求完成學歷認證的。
跪求多次逾期用戶畫像,我們還需要更多具體詳細快速有效的數據才能更好的描述用戶,建議平臺根據逾期還款用戶畫像,更審慎地繼續開展業務。
2.不同維度下,不良貸款率相關性1)年齡在35-50歲區間范圍內,不良貸款率低些較高,而女性用戶的不良貸款率較低,還款意向會更強。35-50歲區間,不良率較高,放貸比例較高。
建議您減少該年齡段不良率,的或控制該年齡段放貸數量,籍此將風險會降低。
2)評級方面,平臺70%以上的放貸給到B和C初始評級的用戶。而E、D、F三個評級最靠后的用戶,不良貸款率確實是高了,逾期發生的可能性也是最低。
這跟平臺的評級體系完全不同。見意壓縮C和D的放貸量,并且更大開發~a,AAA級用戶借貸需求。
3)借款屬性方面,借款類型中應收帳款安全標,不良率最低,而電商類逾期還款的可能性更高,另外大額貸款比例較高,鑒于不良率和放貸比例負查找,建議您裝換放貸量。
利率中,7-10最低利率,不良率相對于極高,違約發生的可能性更高;借款金額方面,整體上金額越高,不良率想對越高。
而借款期限方面,平臺要注意用戶借貸以半年、一年的短期為主兼顧,其中24、12、6、7的借款期限不良率較高,發生違約可能性減小。
上面項目不知從何而來社群會員未系統優化之前的內容
(https://zhuanlan.zhihu.com/p/61**9855)
下面是項目修改意見:
1.用戶畫像還沒有最終形成不出來
雖然分開來說用戶畫像里的每個部分,但是還沒有歸納報出逾貸的用戶畫像。畫像是一個人的立體,你把他全部拆分開了,就還不知道這個逾期的的具體是咋樣啊,不能是看到一部分。
咋樣才能3d立體的輸出呢?
普通是一個人,后再你去做個總結,逾期率高的人,年齡,學歷等等也是怎么樣的。
2分析應該再進入到一些得出答案具體原因,該如何深入地分析呢?
深入地分析舉個例子,若果數據分析而發現到男性逾期率不考慮女性,這時候你要問自己一個為什么不?
這與學歷有關系嗎?與去注冊有關系?數據是關聯的,而并非獨立開的,因此你要潛近去結論,多問再看看為么。
而你這里還沒有深入分析研究,是只不過犯了一個主觀性的錯誤,天然就總覺得男性逾期率更高,而不去探究他的具體詳細原因。
每提出一個結論,就打一個問號?為什么是這樣?然后去總結下,這都是數據分析中的批判性思維。
估計每個結論都問看看我想知道為什么會那樣?可能導致這樣的結果有哪些影響因素?再去講幫一下忙,鍛煉多你的分析思維,否則你的結論是會留在在表層,略顯很用處不大。
例如18-22歲的逾期率更高,這就算是普通機電設備銀行行業1年的人都會清楚,你每次都只不過不出這么多表層的結論,那銀行要你來干嘛啊!因為你要更深入分析這個原因,決定更合適的解決方法來。
3.我建議你給的太淺,不具高先執行性
比如18-22歲的人剛出校園,發生了什么逾期率高,應該是咋如何處理?這個你應該努力思考一下。
用戶畫像出,見意給的不好,解決的辦法的都是淺層次的問題。
更深的層次的應該是是做一個貸款逾期客戶畫像他的目標是什么?他要達到什么目標?
做個假設,要是用戶畫像都有吧了,為啥不建個信貸用戶風險體系呢?每個點都設個分數,然后再得出來總分,之后來把用戶分等級,的或年齡18-22,為9分,初始評級E為9分,結果把這些項目得出來總分來,是這個人的用戶畫像的。
比如超過70分的就不貸,或則限制下載貸款數量等等。每個人都給以完全不同的貸款等級。所以建議你做個信貸用戶風險分析,你那些建議都是很深層的,沒法完全沒有幫忙解決信貸公司的問題。
4.對數據太少比較敏感
比如說分析中說3%-4%覺得不的確,這不過在統計上全是30%的差異了。
做項目的過程是三個逐步優化學的過程,如果能社群內部的討論和建議可以不好處社群會員更好的完善項目。
推薦推薦:怎么算時間不能找到三級數據分析師工作?
Copyright 2021 快鯨
掃碼咨詢與免費使用
申請免費使用