论文部分内容阅读
金融营销受到金融企业的高度关注。随着金融领域信息化技术应用的飞速发展,包括网上银行业务的开展,以及数据仓库等技术的应用,如何应用包括个性化推荐在内的数据挖掘技术解决金融营销问题,已成为当前的一个研究热点。金融营销的核心问题之一就是根据客户的特点,提供符合其个性化需求的金融产品与服务。在金融领域,随着技术与金融业务的迅猛发展,金融产品类型繁多,金融客户历史交易信息等数据量也在急剧增长,客户可能需要花费大量的时间来寻找自己感兴趣的产品。作为解决信息过载问题而产生的一种信息服务技术,个性化推荐系统根据客户的历史行为数据构建兴趣模型,并向其推荐可能感兴趣的信息。同样,该技术也可以引入金融领域以实现金融产品的推荐。推荐方法是推荐系统的核心,目前研究最多的是基于内容的推荐系统、基于协同过滤的推荐系统。本文将从基于内容和基于协同过滤的两个角度分别对金融营销的个性化推荐方法展开研究。基于内容的金融产品个性化推荐中,内容对应于客户购买的产品信息。基于协同过滤的个性化推荐中,产品的推荐是根据与其有相似兴趣客户对产品的购买情况作出的。为了实现基于内容的个性化推荐,本文根据序列数据项所关联的权重性质不同,提出基于均值约束的序列模式挖掘方法,以及针对变值数据的序列模式挖掘方法。为了实现基于协同过滤的个性化推荐,本文提出了基于客户细分的个性化推荐,以及考虑兴趣漂移情况下的个性化推荐方法。论文的主要工作和创新点如下:(1)针对基于内容的个性化推荐中,推荐的金融产品需要满足客户收益要求等约束的问题,研究了基于均值约束的序列模式挖掘方法。为推荐符合客户个性化需求的产品,往往会关注客户购买金融产品的模式,尤其是客户贡献度或者客户收益较高的那些金融产品购买序列模式。为此,我们将客户购买产品,即序列数据中的项(item),视为基于内容的个性化推荐中的“内容”,以根据内容相似性(即行为模式相似性)为客户推荐金融产品。同时,利用均值约束表达序列模式需要满足的客户贡献度、或者客户收益等的要求。本文针对均值约束的特性提出了满足度的概念,并基于满足度设计了相应的剪枝策略。在此基础上,设计了基于均值约束的序列模式挖掘算法MPAC。在IBM标准数据生成平台上产生的数据集的实验结果表明,本文提出的剪枝策略是有效的,同时提出的MPAC算法具有良好的性能。(2)针对基于内容的个性化推荐中,所推荐产品所关联的是变值的问题,研究了适于变值数据的序列模式挖掘方法。在金融产品推荐中,如购买的数量或者购买时间不同所得收益不同。现有的各种算法均不涉及对变值序列数据库的处理。为此,本文首先提出一种针对变值单项的聚集约束ACV(Aggregate Constraint with Varying value items),用于表示序列模式的聚集特征所需满足的约束。其次,设计了一种利用ACV约束对无用序列模式修剪的算法,以迭代方式将初始序列数据库划分为若干序列信息向量,并挖掘满足给定ACV约束的序列模式。在合成数据集和实际数据集上的实验结果表明,本文算法的剪枝策略减少了所需检测的候选序列模式,从而提高了挖掘效率。(3)针对基于协同过滤的个性化推荐需要识别出与其有相似兴趣客户的问题,研究了基于社团挖掘的金融客户细分方法。针对传统分类方法在解决客户细分时存在的问题,本文提出基于社团挖掘的客户细分方法。该方法既可以通过客户特征相似性,也可以通过行为相似性,建立客户社会网络结构,并针对该网络挖掘得到对应不同客户群体的社团。在标准数据以及金融客户数据上的实验结果表明,本文提出的方法是有效的。(4)在客户细分基础上,研究在每个客户群中分别进行关联分析,实现基于协同过滤的个性化推荐的方法。关联规则挖掘是解决推荐问题的传统方法之一。然而,金融客户成千上万,每天都可能产生大量的交易数据,由此形成的客户交易数据库规模庞大。如果对其直接进行关联分析,不仅需要过高的时空代价,更主要的是在差异很大的客户群体中直接挖掘关联规则,得到的关联规则缺乏针对性,从而大大降低交叉销售和个性化服务的实施效果。为了解决该问题,本文提出一种基于客户细分金融产品个性化推荐方法。该方法首先根据客户的兴趣和行为特征,将金融客户细分成代表不同兴趣偏好的多个客户群体,然后在各客户群体中分别进行关联分析。该方法不仅能有效降低关联规则挖掘所需的时空代价,而且使得挖掘得到的关联规则更具针对性,从而可有效提高交叉销售和个性化推荐的效果。(5)针对金融客户对产品兴趣发生变化从而影响推荐效果的问题,研究了考虑兴趣漂移的个性化推荐方法。众所周知,在实际应用中,由于受到各种因素的影响,金融客户的投资兴趣可能会随时间推移而不断变化,即客户兴趣发生了漂移。为此,本文提出一种考虑客户兴趣漂移的图结构推荐算法。该算法首先映射每个客户的评分序列到兴趣序列,并通过兴趣序列对评分项加权。其次,利用基于资源分配的二部图投影算法构建项之间的关联图。最后,利用兴趣加权的评分项构造客户的特征向量并通过在项关联图上进行带重启动的随机游走产生推荐序列。通过在Movielens数据集上与其它一些同类算法的比较验证了算法的有效性。