论文部分内容阅读
消费者是商品交易中很重要的一环,对于商家而言,消费者的数据是至关重要的。消费者数据对于商家丰富产品类别、提高服务质量等商业决策提供了数据支持,因此如何从海量的消费者数据中挖掘重要的价值,对信息时代的今天有着特别重要的现实意义。消费者数据中的交易商品名称为小于30个字的中文短文本,中文短文本分类技术的研究尚未达到成熟阶段,因此如何对短文本更准确的分类是本文的研究重点。本文首先梳理了国内外文本分类的研究综述以及文本分类的整个过程。然后,针对某某宝的交易商品名称具有的特征稀疏、类别多样,样本高度不均衡等特点,首先将交易商品名称进行规则分类,符合规则分类条件的直接得到分类结果,然后将剩下的文本采用机器学习的方法进行分类。基于机器学习的文本分类中,将回归模型中特征变量选择方法Lasso(套索模型)应用于分类模型的特征选择当中,分类器采用SVM(支持向量机),将"Lasso+SVM"方法与一般常用的三种方法进行分类结果对比。研究结果表明,采用规则分类与改进后的机器学习分类相结合的文本分类方法的准确率、召回率以及F1值都达到了很高的水平,其中,改进的文本分类方法"Lasso+SVM"的分类效果优于一般常用的方法。接下来研究了分类后的某某宝交易数据的两个应用场景。场景一:智能推荐,利用改进后的文本分类方法,将一段时间内用户的某某宝交易商品名称作为预测样本进行文本分类,得到用户的交易类别,结合其它数据构建出买家的用户画像,然后针对不同特征的人物画像推算出消费者下一步的消费行为,从而向其智能的推荐消费品及服务,可以用于帮助企业或者卖家提高营销效率、减少运营成本。场景二:P2P平台风险控制,从上述交易类别中挑选出用户某某宝的转账数据,利用该数据建立转账关系网络,用来判断客户与他人是否有经济联系;利用通话数据,建立了关系网络,用来判断客户与他人是否有生活联系。将两种关系网络结合起来形成风控关系圈,发掘未来可能存在风险的客户,为P2P平台贷款风险控制提供支持。本文的创新点,一是针对消费者的交易商品名称的文本数据的特点,本文采用规则分类与机器学习分类相结合的文本分类方法对其进行分类,并在机器学习分类过程中采用了 "lasso+SVM"的文本分类方式,为文本分类提出了新方法。二是将消费者交易数据中的转账数据(包括交易商品名称和交易双方)与通话数据相结合,构建出风控关系圈,为P2P平台的风险控制提供一种新思路。