目录

​编辑

模型架构

数据

数据准备

数据描述


模型架构

在明确问题定义,确定样本的选择和划分后,基本任务已经定义清晰。对于如何更好地预
测任务目标,我们需要先从宏观上考虑模型的架构。

从数据源维度考虑,模型架构分为单一模型架构和多子模型融合架构。单一模型架构是指不区分数据源,将所有数据源特征放在一起进行建模,输出最终模型多子模型融合架构是指将不同维度的数据源划分为若干集合,先建立子模型,再将子模型进行二次融合,生成最终模型。

模型架构除可以从数据源维度进行划分以外,还可以:

  • (1)从目标逾期标签定义或表现期长短的角度,分别建立DPD10逾期模型、DPD60逾期模型、长表现期子模型和短表现期子模型等;
  • (2)结合客群细分,建立基于不同细分客群的子模型,再进行二次融合;
  • (3)采用不同算法建立不同子模型,再进行二次融合。

哪种模型架构最优?在一些实验条件下,虽然某种方案看似比其他方案更好,但在实际业务中未必会有同样的结果。在业务场景中,我们面对的可变条件太多,数据量的大小、模型调参方法的差异和特征维度的差异都可能导致实验结果出现偏差。在同等条件下奉行奥卡姆剃刀原则——“如无必要,勿增实体”,即采用简单的方案。

当然,建议根据不同的业务条件选择合适的方案。例如,由于数据源收集起始时间不同,造成特征时间范围本身无法对齐,因此,采用分数据源建模的方案就值得我们尝试。当然,在有资源的情况下,依然建议对多种可能方案进行尝试,选择最优结果。

数据

数据准备

数据准备是指构造完整的建模数据集,数据集的每一列为一个特征。风控模型中的特征是根据预测目标的粒度,基于底层的原始数据,通过汇总等方式加工而成的。由于底层数据的不同,特征一般会分为不同的模块,每个特征模块包含若干特征。

在数据准备阶段,我们需要将可用的特征模块逐一按照样本选择的范围和每个样本的观测点计算出对应的特征。通常,我们将事后再计算以前某个时间点的特征的行为称为“回溯”。特别地,我们需要确保特征数据是观测点时刻可以获取的当时状态,这样才能确保模型在将来应用时也能获取同样的特征

当原始数据已经被更改,无法追溯到当时的状态时,特征就不能“回溯”,也就无法使用这类特征。例如,客户申请了多次,但是只保存最新的收入数据,这样就无法获取前几次申请时的收入数据,因此,前几次的收入数据无法回溯。如果遇到这种情况,那么我们只能在线上实时地计算特征并保存,待积累到足够的量之后,在后续建模过程中再使用。

特征无法“回溯”而造成特征值中蕴含观测点之后的信息,这称为“特征穿越”或“信息泄露”。这种问题导致的后果通常是特征效果和模型效果异常好,但真实应用后并不能得到相同的效果。“特征穿越”问题应该在数据准备阶段尽力排除。

排查“特征穿越”问题有以下3种方法。

  • (1)回溯数据与线上实时计算数据的一致性检查。
  • (2)单个变量与预测标签的效果指标分析。例如,申请评分模型中的IV>0.5,通常比较可疑,很可能有“特征穿越”问题。
  • (3)单个样本特征计算逻辑分析。

数据描述

数据描述即探索性数据分析(Exploratory Data Analysis,EDA),是指对特征进行统计分析,统计每个特征的缺失率、唯一值个数、最大值、最小值、平均值和趋势性变化等指标,使模型开发人员对数据集有清晰、细致的了解。在分析这些统计指标时,模型开发人员应结合实际业务背景,多问几个“为什么”,确认特征分布的合理性,排除数据质量问题。数据描述的目的是了解特征分布,确认数据质量。在得到所有特征的统计指标后,我们首先需要确认数据质量,分析每个指标值是否合理,而非直接进行数据清洗。例如,我们需要判断各特征的缺失率是否正常、各特征值分布是否符合预期。

数据问题通常包括两类。一类是由于非正常因素导致的异常,如系统故障导致的数据缺失。例如,在某次建模数据统计描述过程中,发现设备指纹信息中字段A的缺失率为78%,而正常情况下的缺失率应为40%~50%。通过进一步分析,我们发现,某时间点之后的字段A全部缺失,原因是系统升级后产生了故障。

另一类是业务调整导致的异常。业务调整对某些特征是有影响的,会造成特征分布偏移。例如,埋点数据和产品的业务逻辑息息相关,产品改版升级时,可能会删除某些埋点,导致依赖该理点的特征出现异常。对于这类特征,我们需要时刻关注业务调整和产品变动带来的影响。上述示例提醒我们,在进行数据分析时,要多问几个“为什么”,而不是直接进行缺失值填充等数据预处理。

print('天天开心哦')