中文短文本聚合模型研究

来源 :软件学报 | 被引量 : 0次 | 上传用户：mawenbo111

【摘要】

：

中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联，同时要避免匹配不属于同一对象的短文本信息，这项研究对于多源异构的短文本数据资源整合具有重要

【作者】

：

刘震陈晶郑建宾华锦芝肖淋峰

【机构】

：

电子科技大学计算机科学与工程学院互联网科学中心,中国银联股份有限公司电子支付研究院,电子科技大学大数据研究中心

【出处】

：

软件学报

【发表日期】

：

2017年10期

【关键词】

：

中文短文本聚合模型文本相似度广义Jaro—Winkler算法快速匹配精细匹配 Chinese short text aggregation mode

【基金项目】

：

国家自然科学基金（61300018）,中国银联-电子科技大学-金融大数据研究项目

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联，同时要避免匹配不属于同一对象的短文本信息，这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义．提出了一种有效的中文短文本聚合模型，通过快速匹配和精细匹配两个关键步骤可以大幅度降低匹配的候选对数量，并保证匹配的精度．针对传统短文本相似度算法的不足，提出了一种新颖的广义Jaro—Winkler相似度算法，并从理论上分析了该算法的参数特性．通过对不同数据集上的商户信息数据进行聚合实验，结果表明，新算法与传统算法相比，在匹配准

其他文献

开展专业技能竞赛的认识与实践

中等职业学校开展专业技能竞赛，对加强学生专业技能的训练和动手能力的培养，促进学生综合素质和教学质量的提高，无疑会起到很好的作用，就像各个学校每年一度的校运会一样，是完全切

期刊

专业技能竞赛中等职业学校教学质量动手能力培养目标

浅谈高层建筑防火工程设计

高层建筑的消防安全一直是消防工作的一个重点和难点之一，本文分析了现代高层建筑火灾的特点，并针对其提出了高层建筑防火设计的几点思考。

期刊

高层建筑防火设计

对我市开展专业技能竞赛的认识与实践

本文结合湖南省长沙市积极开展中职学生专业技能竞赛的实践,具体介绍了长沙市开展中职学生专业技能竞赛的做法和经验.

期刊