短文本分类技术及其场景应用研究

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:jxhxf0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
消费者是商品交易中很重要的一环,对于商家而言,消费者的数据是至关重要的。消费者数据对于商家丰富产品类别、提高服务质量等商业决策提供了数据支持,因此如何从海量的消费者数据中挖掘重要的价值,对信息时代的今天有着特别重要的现实意义。消费者数据中的交易商品名称为小于30个字的中文短文本,中文短文本分类技术的研究尚未达到成熟阶段,因此如何对短文本更准确的分类是本文的研究重点。本文首先梳理了国内外文本分类的研究综述以及文本分类的整个过程。然后,针对某某宝的交易商品名称具有的特征稀疏、类别多样,样本高度不均衡等特点,首先将交易商品名称进行规则分类,符合规则分类条件的直接得到分类结果,然后将剩下的文本采用机器学习的方法进行分类。基于机器学习的文本分类中,将回归模型中特征变量选择方法Lasso(套索模型)应用于分类模型的特征选择当中,分类器采用SVM(支持向量机),将"Lasso+SVM"方法与一般常用的三种方法进行分类结果对比。研究结果表明,采用规则分类与改进后的机器学习分类相结合的文本分类方法的准确率、召回率以及F1值都达到了很高的水平,其中,改进的文本分类方法"Lasso+SVM"的分类效果优于一般常用的方法。接下来研究了分类后的某某宝交易数据的两个应用场景。场景一:智能推荐,利用改进后的文本分类方法,将一段时间内用户的某某宝交易商品名称作为预测样本进行文本分类,得到用户的交易类别,结合其它数据构建出买家的用户画像,然后针对不同特征的人物画像推算出消费者下一步的消费行为,从而向其智能的推荐消费品及服务,可以用于帮助企业或者卖家提高营销效率、减少运营成本。场景二:P2P平台风险控制,从上述交易类别中挑选出用户某某宝的转账数据,利用该数据建立转账关系网络,用来判断客户与他人是否有经济联系;利用通话数据,建立了关系网络,用来判断客户与他人是否有生活联系。将两种关系网络结合起来形成风控关系圈,发掘未来可能存在风险的客户,为P2P平台贷款风险控制提供支持。本文的创新点,一是针对消费者的交易商品名称的文本数据的特点,本文采用规则分类与机器学习分类相结合的文本分类方法对其进行分类,并在机器学习分类过程中采用了 "lasso+SVM"的文本分类方式,为文本分类提出了新方法。二是将消费者交易数据中的转账数据(包括交易商品名称和交易双方)与通话数据相结合,构建出风控关系圈,为P2P平台的风险控制提供一种新思路。
其他文献
当代社会走进了信息化时代,所以在信息存储设备方面的需求也越来越高,要求速度快、容量大、成本低且性能好。光盘作为存储信息的代表性载体,受到广大人群的使用。本文简单论
在信息化时代背景下,微课以及翻转课堂等新型教学模式应运而生。经贸专业的教学地位也越来越受到重视。因此,在新时代背景下,充分发挥微课及翻转课堂等新型教学模式的作用和
贵阳新天光电科技有限公司生产的JD25-D数字式万能测长仪是一种用于绝对测量和相对测量的长度汁量仪器。
9月1日《人民日报》转发中共中共《关于改革开放和发展社会主义市场经济条件下军队思想政治建设若干问题的决定》,强调充分发挥政治工作生命线作用,指出其精神适用于全党的思
数字化校园建设与完善,智能手机的普及让学生利用手机通过网络学习提供了保障。现在企业需要应用型高级人才,对大学生的英语知识的应用能力有一定的要求,学生学习英语的目标
目的探讨孕妇尿砷水平与妊娠期糖尿病的相关性。方法选择2017年2月至2018年1月在我院进行产检的孕妇244例进行研究。对孕妇尿砷水平进行检测并对数据进行孕妇社会人口信息采
本文以应用型本科学生的能力培养为导向,逐步推进高等数学课程教学内容的"三结合";以案例教学法为"一主线",推进本科高等数学教学方法研究;以突出能力与素质为目标,促进课程考核
环境资源是可持续发展的基础,是社会生产力的主要因素,迅速准确地查清生态环境实时动态,掌握其发展趋势并提出相应的保护措施,对于国民经济正处于高速发展时期的发展中国家至关重
近年来,随着劳动力市场的发展,我国劳动关系经历着深刻的变化,目前我国已进入由个别劳动关系调整向集体劳动关系调整的转型阶段,在劳动关系集体化转型过程中,存在制度体系不