基于概率主题模型的游记文本知识挖掘

来源 :天津大学 | 被引量 : 0次 | 上传用户:bhf0520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络技术的发展促使人们热衷于在互联网上分享旅行经历,游记文本是一种主要形式。游记中蕴含着地点代表性知识(景观、风格、特色活动等),对旅行规划有很大参考价值。但由于游记中噪声多、视角多、缺乏目的地推荐和视觉信息等局限,导致这些知识难以靠人工方式获得。本文研究如何从游记文本中自动挖掘出这些知识并加以利用,为此提出了一种新的概率主题模型——地点-主题(LT)模型,用于从游记中挖掘两种主题,即刻画地点特色的局部主题和表示游记中常见语义的全局主题,并用局部主题表示各地点,以把握地点代表性知识和地点间相似度。基于该模型,我们结合旅行规划的情境实现了三种应用:(1)目的地推荐——向用户推荐与给定目的地相似、或是与给定旅行意图相关的目的地;(2)目的地概述——利用标签和相关游记摘录概括给定目的地的特色;(3)游记可视化——提取给定游记的重要内容并搭配相关图片。基于中英文两个游记数据集(分别包含9.4万和10万篇游记),运用客观量化和问卷调查等实验方法进行了实验和评估,结果验证了所提出方法的有效性。
其他文献
弹上信息传输是地面与高速运动目标进行通信的系统,对保密抗干扰、通信的实时性、通信的质量有着严格要求,并存在严重的多普勒调制,广泛用于航天、航空、导弹等领域。本文根
宽带数字接收机是高精度宽带雷达接收系统的重要部分。本文针对宽带雷达信号的诸多优点,利用软件无线电中信道化接收的概念,实现全波段的宽带数字接收机,为宽带信号数字化技术发
本文是对基于无人机图像传输的π/4-DQPSK的全数字调制解调技术的研究,利用π/4-DQPSK数字调制和基带差分解调技术实现数字信号的传输。π/4-DQPSK是QPSK改进方式,它是一种线
本文介绍了国内外扭振检测技术的发展与现状,在此基础上分析了一种用软件实现轴系扭振检测的方法,该方法是基于希尔伯特变换解调原理。扭振检测模块的设计以DSP处理器为核心,
随着网络技术的不断发展,越来越多的人们希望通过网络寻找到他们感兴趣的东西,如音乐、图片等。人们的这种需求对多媒体检索提出了新的要求。音乐检索是继图像检索之后在基于
由于毫米波具有较好的穿透性,利用被动毫米波成像技术对隐藏在衣物下的危险物品(枪支、刀具、炸药等)进行识别、定位成为安检领域的又一研究热点。但是目前毫米波图像存在着
手语是聋哑人日常生活的主要语言,同时也是他们和正常人交流的主要方式之一。而大多数正常人并未经过专业的手语培训,使得聋哑人无法同其进行无障碍地交流。为了解决这个问题
语音是人类最便捷和自然的交流工具之 ,一方面它消除了人与人之间交流的距离隔阂,另一方面它也提高了人与机器之间交互的效率。然而,现实环境中无处不在的噪声也不同程度地影
连续相位调制(Continuous Phase Modulation,CPM)是一类包络恒定、相位连续变化的调制方式。由于包络恒定,CPM对信号幅度变化不敏感,所以尤其适合于采用高效非线性放大器的通信
卫星通信的重要性不言而喻,但卫星通信也面临着一些现实挑战,如路径损耗大、传播时延长。传统的通信机制如前向纠错(Forward Error Correction, FEC)和自动反馈重传(Automati