在好例子网,分享、交流、成长!
您当前所在位置:首页Others 开发实例一般编程问题 → 风控建模一等奖

风控建模一等奖

一般编程问题

下载此实例
  • 开发语言:Others
  • 实例大小:3.59M
  • 下载次数:13
  • 浏览次数:138
  • 发布时间:2020-06-23
  • 实例类别:一般编程问题
  • 发 布 人:robot666
  • 文件格式:.zip
  • 所需积分:2
 

实例介绍

【实例简介】
使用拍拍贷数据,建模全过程,从数据预处理开始到最后的模型比较。仅用于交流学习。
队伍介绍 队名“不得仰视本王”,队伍由五个小伙伴组成,我们是在一个类以的比赛(微额借款 用户人品预测大赛)认识的,对数据挖掘竹热爱让我们走到了一起,以下是成员简介: 姓名 学校、学历 比赛经历 匚陈靖」中国科学技术大学研二天泡科学家总分第三,微额借贷用户人品预测大赛季军 朱治亮浙江大学研二淘宝穿衣搭配比赛李军,微额借贷用户人品预测大赛李军 质耀重庆邮电大学研二 微额借贷用户人品预测大赛冠军 匚赵蕊」重庆邮电大学研 微额借贷用户人品预测大赛亚军 黄伟鹏 北京大学研一 微额借贷用户人品预测大赛冠军 解决方案概述 2.1项目介绍与问题分析 拍拍贷“魔镜风控系统”从平均400个数据维度评估厍户当前的信用状态,给每个告款 人打出当前状态的信用分,在此基础上再结合新发标的信息,打出对于每个标约6个月内逾 期率的预沨,为没资人提供关键的决策依据。本次竞赛目标是根据用户历史行为数据来颈测 用户在六来6个月内是否会逾期还款的概率。 问题转换成2分类问题,评估指标为AUC,从 Master, LogInfo, Update Info表中构建 恃征,考虑评估指标为AUC,其本质是排序优化问题,所以我们在模型顶层融合也使用基于 排序优化的 RANK AVG融合方法。 2.2项目总体思路 本文首先从数据清洗开始,介绍我们对缺失值的多维度处、对离群点的剔除方法以及 对字符、空格等的处理;其次进行特征工程,包括对地理位置信息的特征构建、成交玉间特 征、类别特征编码、组合特征构建、 Lpdatelnfo和 Log Info表的特征提取等;再次进行特 征选择,我们采用了 boost, boost的训练过栏即对特征重要性的排序过程;然后处理 类别的不平衡度,由于赛题数据出现了类不平衡的情况,我们采用了代价敏感学习和过采 样两和方法,重点介绍我们所使用的过采样方法;最后一部分是模型设计与分析,我们采用 了二业界广泛应用的逻辑回归模型、数据挖掘比赛大杀器 ghost.,创新性地揆索了 large- scale sⅧm的方法在本赛题二的应用,玟得了不错的效果,此外还介绍了模型融合方 、数据清洗 3.1缺失值的多维度处理 在征信领域,用户信总的完善程度可能会影响该层户的信用评级。一个信息完苦程度为 100%的户比起完善程度为50%的用户,会更加容易官核通过并得到借款。从这一点亡发, 我们对缺失值进行了多维度的分析和处理 按列(属性)统计缺失值个数,进一步得到各列的缺失比率,下图(图1)显示了含有 缺失值的属性和相应的缺失比率 sing rate of Attributes 图1.属性缺失比枣 WeblogInfo_1和 WeblogInfo3的缺失值比率为97%,这两列属性基本不携带有用的信 息,直接剔除。 Uscr Info_11、 Userinfo_12和 Uscr info_13的缺失值比率为63%,这三列属 性是类别型的,可以将缺失值用-1垣充,相当于“是否缺失”当成另一种类别。其他缺失 值比卒较小的数值型属性用中值填充 按行统计每个样本的属性缺矢值个数,将缺失值个数从小到大排序,以序号为横坐标, 缺失值个数为纵坐标,画出如下散点图(图2) test set 160 160 140 14C 120 12C w9mczE 100 40006000 8000 Order Numbe(sort ircreasingly Orde Nt mber(sort increasing ly) 图2.样本属性缺失个数 对比 trainset和 testset上的样本的属性缺失值个数,可以发现其分有基本一致,但是 trainset上出了几个缺失值个数特别多的样本(红框区域内),这几个样本可以认为是 离群点,将其剔除 另外,缺矢值个数可以作为一个特征,衡量用户信息的完善程度。 3.2剔除常变量 原始数据宁有190维数值型特征,通过计算每个数值型特征的标准差,剔除部分变亿很 小的特征,下表(表1)列出的15个特征是标准差接近于0的,我们剔了这15维特征 表1.剔除数值特征标准差 属性 标准差 属性 标准差 属忾 标准差 Webloglnfo_10 0.0707 WeblogInfo_41 0.0212 Webloglnfo_49 0.0071 Webloglnfo_23.0939 WeblogInfo_43 0.0372 Webloglnfo_5200512 Webloglnfo_31.0828 Webloglnfo_44.0166 Webloglnfo_5400946 Webloglnfo_32 0.0834 Webloglnfo_46.0290 WeblogInfo_5500331 Webloglnfo_40.0666 Webloglnfo_47 0.0401 WeblogInfo_5800609 3.3高群点剔除 在样本空间中与其他样本点的一般行为或特征不一致的点称为离群点,考虑到离群点的 异常特征可能是多维度的组合,我们通过分析样本属性的缺矢值个数,剔除了极少量的离群 点(见3.1节) 此外,我们还采用了另外一种简单有效的方法:在原始数捶上训练ⅹ gboost,用得到的 xgb模型输出特征的重要性,取最重要的前20个特征(如图3所示),统计每个栏本在这 20个特征上的缺失值个数,将缺矢值个数大于10的样本作为离群点。 ThrciParty Ifn Period IntrAparty nto Herod ThrcPorty hfo Penod3 ardiParty hfo Period? ThirdParty Info Penod 图3.Xgb特征重要性 通过这个方法,易除了400多个样水。这些样在重要特征上的取值是缺失的,会使得 模型学习变得因难,从这个角度妖说,它们可以看成是离群点,应剔除掉。 3.4其他处理 (1)字符大小写转换 Userupdate Info表宁的 Userupdate Info1字段,属性取值为英文字符,包含了大小写,如 Q"和”qQ",很玥显是同一和取值,我们将所有字符统一转换为小写 (2)空格符处理 Mastor表中 UserInfo9字段的取值包含了空格字符,如“中国移动”和“中国移动” 它们是同一种取值,需要将空格符去除。 (3)城市名处理 Userinfo_8包含有“重庆”、“重庆市”等取僬,它们实际上是同一个城市,需要把 字符中的“市”全部去掉。去掉“市”之后,城市数由600多下降到400多。 四、特征工程 4.1地理位置的处理 对地理位置信(类别型变量)最简单的处理方式是独热编码(one- hot encoding), 但是这样会得到很高维的稀疏特征,影响糢型的学习,我们在独热编码旳基础上,做了特征 选择。下面介绍具体的方法。 赛题数据提供了用户的地挛位置信息,包括7个字段: Userinfo2、 Userinfo4、 UserInfo7、 UserInfo8、 UserInfo I9、 UserInfo20,其中 UserInfo_7和 UserInfo19 是省份信息,其余为城市信息。我们统计了每个省份和城市的违约率,下图以 Userinfo_7 为例 图1.省分违约率可视化 图5可视化了每个省份的违约率,颜色越深代表违约率越大,其中违约率最大的几个省 份或直辖市为四川、湖南、湖北、吉林、天津、山东,如下图所示: 图5.违约深突出省份可视化 因此我们可以构建6个二值特征:“是否为四川省”、“是否为湖南省”...“是否为 山东省”,其取值为或1。其实这相当于对地理位置信息做了独热编码,然后保留其中有 判别性的菜些列。这里 UserInfo_7何含32和取值,编码后可以得到32维的稀疏特征,而 我们只保留其宇的6维 以上我们是通过人工的分析方法去构延二值特征,在处理省份信息时还是匕较直观的, 但是处理城市信息,比如 Userinfo2,包含了33个减市,就没有那么直观了。为了得到 有判别性的二值特征,我们首先对 Userinfo2进行独热编码,得到333维的二值特征,然 后在这333维稀疏特征上训练ⅹgb模型,再根据xgb输出的特征重要性刷选二值痔征,以下 是选取到的部分二值特征(对应的城市):“淮纺市”、“九江市”、“三门峡市”、“汕 头市”、“长春市”、“铁岭市”、“济菊市”、“成都市”、“淄博市”、“牡丹江市”。 按城市等级合并 类别型特征取值个数太多时,独热编码后得到太高维的稀疏特征,除了采用上面提到的 特征选择方法外,我们还使用了合并变量的方法。按照城市等级,将类别变量合并,例如 线城市北京、上海、广州、深圳合并,赋值为1,同样地,二线城市合并为2,三线城市合 并为3 >经纬度特征的引入 以上对地理位置信息的处理,都是基于类别型的,我们另外收集了各个城市的经纬度, 将城市名用经纬度替换,这样就可以将类别型的变量转化为数值型的变量,比如北京市,用 经纬度(39.92,116.46)替换,得到北纬和东经两个数值型特征。加入经纬度后,线下的 cross validation有千分位的提升。 城市特征向量化 我们将城可特征里的城市计数,并取Log,然后等值离散化到610个区间内。以下图 为例,将 serino2这个特征里面的325个城市离散为一个6维向量。向量“100000”表 示该城位于第一个区间。线下的 cross validation有千分位的提升。 Loglui2 num) 6.城市特征离散化 地理位置差异特征 如图8所示,1,2,1,6列郗是城市。那么我们构建一个城市差异的特征,比妇diff_12 表示1,2列的城市是否相同。如此构建 diff l2,diff_14,diff_l6,diff_24,diff26,diff 46这6个城市差异的特征。线下的 cross validation有千分位的提升。 ⊥a Jse⊥nfa2 userinfo4 Userinfo7 Userinfo8 Userinfo19uer⊥nf。20 1C013郴州 1C020惠州 1C033零 1c035深圳 东东东东建东 福建省 10038济 104连云港 远言 港带 1C042德州 1c043青岛 聊拔 东自 聊城市 46深圳 汕 广东 广东省 汕尾市 105所多 工新乡 图7.地理位置差异样例 4.2成交时间特征 按日统计训练集中每天借贷的成交量,正负样本分别统计,得到如下的曲线图8,横 坐标是日期(20131101至20141109),纵坐标是每天的借贷量。蓝色由线是违约的样本每 天的数量(为了对比明显,将数量乘上了2),绿色曲线对应不违约的样本 train set 1200 count o 1000 800 400 2广外从 200 30 350 Date20131101~20141109 图8.每日借贷量统计 可以发现拍拍贷的业务量总体是在埤长的,而违约数量一开始也是缓慢增长,后面基本 保持不变,总体上违约率是平稳甚至下降的。在横坐标300~350对应的日期区间,出现了 些借贷量非鸴大的时间苄点,这些可能隐减着苿些信息,我们尚未挖掘出来。 考虑到违约率跟时间线有关,我们将戒交时间的字段 Listinginfc傲了几种处理,一和 是直接将其当做连续值特征,也就是上图对应的横坐标,另一和是离散化夂理,每10天作 为一个区间,乜就是将日期0`10离散化为1,日期1120离散化为2. 4.3类别特征的处理 除了上面提到的对菜些类别特征进行特殊处理外,其他类别特征都做独热编码。 44组合特征 Xgboost的训练完成后可以输出特征的重要性,我们发现第三方数据特征 ThirdParty Info Period XX”的 feature score比较大(见图3),即判别性比较高, 于是用这部分特征构建了ξ合特征:将特征两两相除得到7000个特征,然后使用 boost 对这7000多个特征单独训练模型,训练完成后得到特征重要性的排序,取其中top500个特 征线下cv能达到0.73+的AUC值。将这500个特征添加到原始特征体系中,线下cv的AC 值从0.777捉高到0.7833。另外,也组合了乘法特征(取对数):10g(x*y),刷选出其中 的270多维,加入到原始特征休系中,单模型cv又提高到、0.785左右。 4.5 Upadte Info表特征 根据提供的修改信息表,我们从中抽取了用户的修改信息特征,比如:修改信息次数, 修改信息时间到成交时间的跨度,每和信息的修改次数等等特征。 46 LogInfo表特征 类似地,我们从登录信息表里提取了用户的登录信息特征,比如登录天数,平均登录间 隔以及每种操作代码的次数等 47排序特征 对原始特征中190维数值型特征接数值从小到大进行排序,得到190维排序特征。排序 特征对异常数据有更强的鲁棒性,使得模型更加稳定,降低过拟合的风险。 五、特征选择 在特征工程部分,我们构建了一系列位置信息相关的特征、组合特征、成交时间特征、 排序特征、类别稀疏侍征、 updateinfo和1 oginfo相关的特征等,所有特征加起来将近1500 维,这么多维特征一方面可能会导致维数灾难,另一方面很容易导致过拟合,需要做降维处 理,降维方法赏用的有如PCA,tSNE等,这类方法的计算复杂度比较高。并且根据以往经 验,在数据挖掘类的匕赛中,PCA或t-SNE效果仨往不好。 除了釆用降维算法之外,也可以通过特征选择来降低特征维度。特征选择的方法很多: 最大信息系数(MIC)、皮尔森相关系数(衡量变量间的线性相关性)、正则化方法(L1, L2)、基于模型的特征排序方法。比较高效的是最后一种,即基于学习模型的特征排序方法, 这种方法有一个好处:模型学习的过程和特征选择的过程是同时进行的,医此我们采用这和 方法,基于 boost来做特征选择, xgboost模型洲练完成后可以输岀特征的重要性(见3.3 图),据此我们可以保留TopN个特征,从而达到特在选择的目的。 【实例截图】
【核心代码】

标签:

实例下载地址

风控建模一等奖

不能下载?内容有错? 点击这里报错 + 投诉 + 提问

好例子网口号:伸出你的我的手 — 分享

网友评论

第 1 楼 wqwqqw 发表于: 2021-05-14 00:17 12
傻吊

支持(0) 盖楼(回复)

发表评论

(您的评论需要经过审核才能显示)

查看所有1条评论>>

小贴士

感谢您为本站写下的评论,您的评论对其它用户来说具有重要的参考价值,所以请认真填写。

  • 类似“顶”、“沙发”之类没有营养的文字,对勤劳贡献的楼主来说是令人沮丧的反馈信息。
  • 相信您也不想看到一排文字/表情墙,所以请不要反馈意义不大的重复字符,也请尽量不要纯表情的回复。
  • 提问之前请再仔细看一遍楼主的说明,或许是您遗漏了。
  • 请勿到处挖坑绊人、招贴广告。既占空间让人厌烦,又没人会搭理,于人于己都无利。

关于好例子网

本站旨在为广大IT学习爱好者提供一个非营利性互相学习交流分享平台。本站所有资源都可以被免费获取学习研究。本站资源来自网友分享,对搜索内容的合法性不具有预见性、识别性、控制性,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,平台无法对用户传输的作品、信息、内容的权属或合法性、安全性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论平台是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二与二十三条之规定,若资源存在侵权或相关问题请联系本站客服人员,点此联系我们。关于更多版权及免责申明参见 版权及免责申明

;
报警