中文短文本聚合模型研究

来源 :软件学报 | 被引量 : 0次 | 上传用户:mawenbo111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通过快速匹配和精细匹配两个关键步骤可以大幅度降低匹配的候选对数量,并保证匹配的精度.针对传统短文本相似度算法的不足,提出了一种新颖的广义Jaro—Winkler相似度算法,并从理论上分析了该算法的参数特性.通过对不同数据集上的商户信息数据进行聚合实验,结果表明,新算法与传统算法相比,在匹配准
其他文献
中等职业学校开展专业技能竞赛,对加强学生专业技能的训练和动手能力的培养,促进学生综合素质和教学质量的提高,无疑会起到很好的作用,就像各个学校每年一度的校运会一样,是完全切
高层建筑的消防安全一直是消防工作的一个重点和难点之一,本文分析了现代高层建筑火灾的特点,并针对其提出了高层建筑防火设计的几点思考。
本文结合湖南省长沙市积极开展中职学生专业技能竞赛的实践,具体介绍了长沙市开展中职学生专业技能竞赛的做法和经验.
要提高计算机上机操作课的教学效率,就要有明确的训练目标、选择恰当的教学方法、精心组织课堂教学,还应注意培养学生的自学能力,并合理安排练习时间。
近年来,我国高等职业教育虽然有了长足发展,但由于高等职业教育历史短、经验不足,在高职院校品牌打造过程中存在种种认识与行为误区,也正是这些误区,直接导致了高职教育品牌
基于CAN总线技术提出一种改造现有的以RS485为通信模式的变电站综合自动化系统的方案,使改造过的变电站综合自动化系统能够独立组建先进的CAN网络,具有现场总线的优点,同时能够具有与现场总线CANBUS直接接口的能力。
环境风险识别是建设项目环境影响评价的一项重要内容。本文以某厂钾肥生产项目为例,对建设项目环境风险评价中的风险识别进行了初步探讨。
基于最小集覆盖理论的拥塞链路推理算法,仅对共享瓶颈链路进行推理,当拥塞路径存在多条链路拥塞时,算法的推理性能急剧下降.针对该问题,提出一种基于贝叶斯最大后验(Bayesian
在移动通信教学中运用ADS仿真软件能够加深学生对理论课的理解,进行实验更快捷、方便、灵活,帮助学生解决实际电路设计中的难点.有助于提高学生的设计能力。