载入中....
设为首页 收藏本站 联系我们 网站地图
论文网
您现在的位置: 免费毕业论文网 >> 计算机论文 >> 计算机应用 >> 正文
搜索: 论文

数据挖掘在银行个人客户信用等级分类中的应用分析

更新时间 2009-12-21 11:44:20 点击数:

数据挖掘在银行个人客户信用等级分类中的应用分析
黄 觅(北京理工大学管理经济学院,北京100081)
摘 要:从银行客户信用等级分类入手,分析了客户价值和分类的重要性,并对某商业银行客户信用等级分类指标体系研究,采用粗糙集数据挖掘理论知识,为银行客户信用等级分类提供决策支持.
关键词:客户分类;数据挖掘;粗糙集
中图分类号:F830.49  文献标识码:A 文章编号:1672-3198(2009)22-0173-03
0 前言
基于IT技术的电子商务正在改变着社会经济中各个行业的传统经营模式。在激烈的行业竞争中,要求企业的核心经营理念从“以产品为中心”转向“以客户为中心”。客户关系管理(CRM)为这个问题提供了解决方案。客户关系管理的最终目的即是最大化客户价值,并对客户进行分类。伴随着银行业的发展,个人信贷逐渐成为银行中的一个重要的盈利点。信用卡,房贷,车贷等各种个人商业贷款得到普及,银行个人客户也逐渐呈现出多元化,细分化的特点。银行要提高利润率,控制风险,必须主动进行客户信用评价和贷款申请分类,从而采取差异化的市场营销和客户服务策略.
1 基本概念
对于数据挖掘(DM,datamining),一种比较公认的定义是W.J.Frawley,G.Piatetsky-Shapiro等人提出的:数据挖掘就是从大型数据库中的数据中提取人们感兴趣的知识。这些知识是隐含的,事业位置的潜在有用信息,提取的知识表现为概念(concepts),规则(rules),规律(regulari-ties),模式(patterns)等形式。而更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中找模式的决策支持过程。它是一个利用各种工具在海量数据中发现模型和数据间关系的过程。数据挖掘技术把人们对数据的应用,从低层次的末端查询提高到为决策层提供支持.
在国内,从1993年开始,一些基金和企业开始自主数据挖掘和知识发现的研究。当前数据挖掘和知识发现研究方兴未艾。数据挖掘算法和技术可概括地分为下面六种使用类型.
关联发现-典型例子是市场菜篮子分析,此分析与一组产品相关联。通过挖掘事务数据可派生关联规则,利用此规则可以了解客户的行为.
聚类分析,分类,神经网路,规则发现和决策,顺序模式和顺序序列.
2 利用数据挖掘技术进行分类步骤和方法选用
传统上客户细分的依据是客户的统计学特征(社会个人信息,交易记录等),分类是数据挖掘领域中的一类重要问题。许多挖掘问题本质上可以等价地转化为分类问题.
分类可以描述如下:大量的样本构成输入数据集,即训练集。每个样本又多个属性,其中属性及可以是连续属性,也可以是离散属性。其中有一个属性被称为类别属性,用来标明该样本所属的类别。本次研究中关心的是,到底有哪些属性,它们是怎样决定了一个个人贷款申请是高风险的还是低风险的.
一旦此模型建立就可以划分一个新的风险类别.
数据分类是一个两步过程:第一步,建立一个模型,描述预定的数据类集或概念集。通过分析由属性描述的数据库元组来构造模型。假定每个元组属于一个预定义的类,由一个称为类标号属性的属性确定.
第二步,使用模型进行分类。首先评估模型的预测准确率。这些样本随机选取,并独立于训练样本.
客户细分是一种科学的分析方法,它把客户分成一些客户群,在客户群中,客户的消费特征(资产等特征)一些决策性属性值非常类似。而在群与群之间,群与群相互独立,特征差异较大。银行可以对不同的客户信用值进行测评,分类,从而控制信贷风险。基于数据挖掘的客户分类是数据挖掘技术是数据挖掘技术和银行业丰富客户数据资源的完美结合,其特点是充分利用银行内部数据,细分维度多,因此可以帮助银行多层面、多角度地了解客户的差异和资产状况,从而对客户的信用等级进行分类.
3 实例分析
现在某一商业银行正在准备对信息系统进行改革,并且准备对个人贷款用户采取发放贷款证的方法,即只有通过信用审核的个人(家庭)才能获得贷款证,有资质申请贷款。以此为例,本文通过调研,通过选择简化分类属性,采用粗糙集等数据挖掘方法在为客户分类提供决策支持.
3.1 指标评价统计数据表
根据银行内已有的专家知识库中的专家评价规则,为了简化起见,本文将影响客户价值评价的因素的状况只分为两档,具体见表1。接下来就以这11组数据来说明这些指标评价规则的获取.
3.2 属性约简
上表中,论域U={1,2,3,4,5,6,7,8,9,10},条件属性C={个人年收入,家庭人均年收入,家庭负债率,固定资产,其他易变现资产,工作稳定情况,社会关系,信用度,年龄,婚姻状况},决策属性D={分类结果}。为了方便起见,在条件属性中用1代表好(或高或稳定),用0代表差(或低或不稳定),在决策属性中,用1代表分类A,0代表分类B。将各条件属性分别用1,2,3,4,5,6,7,8,9,10来代替,决策属性用X来代替,就得到数字化的表,如表2所示.
这样,条件属性C={1,2,3,4,5,6,7,8,9,10},决策属性D={X}.
接下来,再对表2进行属性约简.
从约简结果得到,属性2,3,4,7,8,9,10去掉后,都并没有改变系统的分类能力,所以是冗余属性。而属性1,5,6去掉后,系统地分类能力发生了改变,所以是核属性。将冗余属性去掉,约简得到表3.
首先采用CAAI算法,对决策数属性进行度量.
针对表3,论域U={1,2,3,4,5},条件属性C={1,5,6},决策属性D={X}。没有不相容的规则,采用CAAI算法继续处理.
首先计算各条件属性的重要性.
Posc(D)={1,2,3,4,5}针对条件属性1:U/ind(C-1)={(1,5),(2),(3),(4)};Posc-1(D)={2,3,4};Γc-1(D)=card(Posc-1(D))/card(U)=3/5SGF(1,C,D)=Γc(D)-Γc-1(D)=1-3/5=2/5同理,针对条件属性5,6,可分别得出:Γc-5(D)=3/5SGF(5,C,D)=2/5Γc-6(D)=3/5SGF(6,C,D)=2/5由此看出,条件属性中属性1,5,6同等重要。因为各个属性的重要性相同,可以根据信息增益的大小作为属性选择度量,从而对属性进行分类。根据表3中类别属性的取值,分为两类,C1,C2,m=3。样本数据集S中,C1类所对应的子集R1中原组个数为r1=1,C2类子集R2元组个数为r2=4.
集合S关于分类的期望信息量为:I(r1,r2)=I(1,4)=-15log215-45log245≈0.722同理计算每个属性的熵值,得出:E(1)=35×(-13log213-23log223)+25×(-22log222-02log202)≈0.551Gain(1)=I(r1,r2)-E(1)≈0.171同样得出:E(5)=E(6)=35×(-13log213-23log223)+25×(-22log222-02log202)≈0.551Gain(5)=Gain(6)=Gain(1)这时候由于属性值分类出现特殊性,无法通过常规的属性选择度量方法确定决策树.
通过对现有客户信息进一步调查,抽取500个有效完整数据,形成训练集。对属性1、5、6和客户的还款记录进行训练分析,采用贝叶斯分类方法计算,得出:P(属性1=1|还款记录良好)≈92.73%P(属性5=1|还款记录良好)≈88.4%P(属性6=1|还款记录良好)≈85.3%故在此例中选择属性1作为根节点,当属性1为0时,它的分类集合中的决策属性为一类,就停止选择属性。对于另一类,继续选择属性分类。以此类推,得到整个决策树,如下图所示.
图1   提取规则,得到规则集,如下表所示.
表4   分项序号  IFTHEN1属性1=0X=02属性1=1&属性5=0X=03属性1=1&属性5=1&属性6=0X=04属性1=1&属性5=1&属性6=1X=1  这样,通过基于粗糙集的数据挖掘技术和针对特殊问题采取的数理统计理论,挖掘出了对我们有用的客户分类评价规则,以后再进行客户信用分类评价选择以及专家库改进完善时,可以直接将申请贷款客户的各个方面的情况与规则相匹配,并将之作为决策的参考依据。可初步判定客户是否有资质获得贷款,保证风险控制。对于在规则提取应用之前已获得贷款的客户,银行也可导入相关数据,重新评估。对于信用等级为B类的客户,可以重点跟踪,及时催缴利息贷款,降低信用风险.
4 结论
本文利用数据挖掘方法,对某商业银行历史客户信息汇总整理并进行了分析,找出了这些银行在对客户进行信用评级时的一些共有的评价规则,这些规则的得出可以在银行对未来新系统的设计实施中提供有效的决策支持.
参考文献
[1]Pitt,B.andD.Kirchen,ApplicationsofDataMiningTechniquestoLoadProfiling,inProc.IEEEPICA,SantaClara,CA,
May,1999.
[2]Chicco,G,Napoli,R.,Postulache,P.,Scutariu,M.AndToaderC.,CustomerCharacterizationOptionsforImprovingthe
TariffOffer,IEEETransactionsonPowerSystems,Vol.18,No1,Feb-ruary,pp.381-387,2003.
[3]MehmerKantardzic著,闪四清译.数据挖掘-概念、模型、方法和算法[M].北京:清华大学出版社,2003:171-217.
[4]于研.信用风险的测定与管理[M].上海:上海财经大学出版社,2003:189-228.
[5]王聪生.资产管理系统在发电企业的应用[J].电力信息化,2004,2(11).
[6]邓乃扬,田英杰.数据挖掘中的新方法———支持向量机[M].北京:科学出版社,2004.
[7]侯惠芳,刘素华.基于支持向量机的商业银行信用风险评估[J].
计算机工程与应用,2004,40(31):176-192.
[8]艾迪·凯德著,王松奇译.银行风险管理[M].北京:中国金融出版社,2004:79-97.
[9]胡光杰.数据挖掘在供应商评价中的应用[D].安徽大学硕士学位论文,2006. 返回栏目页:计算机应用论文

设为主页】【收藏论文】【保存论文】【打印论文】【回到顶部】【关闭此页