多阶段混合属性的景点实体解析研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:hackxingxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体解析是一个非常传统的研究方向,近年来又逐渐成为研究热点,基于领域的实体解析正是其热点之一。与通用实体解析不同的是,基于领域的实体解析需要全面地分析和捕获领域数据的特征,并充分地加以利用。通用实体解析方法通常是在单一阶段内一次性匹配特征数据来完成实体解析,这一方面会造成不同特征数据的相互干扰,另一方面也不利于有针对性地利用不同的特征数据,从而影响实体解析的精确度。因此,本文在旅游信息领域背景下,在对领域无关和基于领域实体解析文献综述的基础上,提出了一种基于多阶段混合属性的景点实体解析方法。本方法在不同旅游数据源中,在景点的不同属性中充分提取景点的特征信息,通过多个阶段设计相应算法多次利用相关特征信息,最终实现景点实体解析。其中,景点的不同属性包括景点名、景点所在地,以及景点简介等。实体解析分为两个阶段,第一阶段是利用景点简介中的名词信息,对不同旅游网站中的景点进行聚类;第二阶段是在聚类结果基础上,利用景点名和景点简介中的人名地名相似度信息,进行桶装算法实现实体解析。本论文创新点如下:(1).解决了基于旅游景点实体解析的问题;(2).提出了基于多阶段混合属性的景点完全实体消解框架,在不同阶段有针对性地利用实体属性的有效信息;(3).提出了一种景点名景点简介混合的景点相似度度量方法;(4).提出了一种基于最远初始中心点和轮廓系数评价函数的k-means聚类优化算法;(5).改造了一种桶装解析算法;(6).在真实旅游景点数据集上进行了大量对比实验。
其他文献
构建医疗机构分工协作机制是加快推进我国分级诊疗制度建设、提升医疗卫生资源利用效率和促进基本医疗卫生服务公平、可及的重要举措,也是党和国家深化医药卫生体制改革、保障
随着近年来机器学习和人工智能算法的快速发展,一些新的预测技术被运用到经济管理的实际研究中。支持向量机(SVM)是在统计学习理论基础上发展起来的一种新的模式识别方法,是