微博搜索话题词用户意图识别系统的设计与实现

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:l4992324
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新浪微博是中文社交圈里使用非常广泛的一个平台,每天都有大量的人使用新浪微博,搜索自己感兴趣的微博,但是有时候人们搜索的意图和返回的微博所表达的意图却不一样,在移动互联网时代,搜索引擎占据了用户日常上网中的许多时间,对人们的影响很大,因此如何正确识别用户的搜索意图,使用户获得更好的搜索结果是一个非常重要的问题。微博搜索话题词用户意图识别任务本质上属于短文本分类任务,短文本分类任务的难点在于短文本无法提供足够的信息,加上短文本存在多歧义的特点,所以要找出短文本真正所属的类别就变得十分困难。本文设计的微博搜索话题词用户意图识别系统针对短文本信息量的不足的问题设计搜索词扩展方案,针对短文本搜索存在多歧义的难点使用主题模型从用户的搜索日志中发掘用户的个性偏好并融入到用户的搜索中,结合基于神经网络的文本分类算法进行用户搜索意图识别,设计了能够提高微博搜索话题词用户意图识别准确率的系统,本系统采用Python编程语言,使用了模块化设计方案,本系统主要包括文本预处理模块、搜索文本扩展模块、主题模型生成模块、用户搜索个性化表征生成模块、用户搜索意图识别模块五大功能模块。作者独立设计并实现了这五个模块:(1)文本预处理模块:包括训练数据的加载、文本分词、文本去噪、词向量的训练与保存等功能。(2)主题模型生成模块:包括LDA(Latent Dirichlet Allocation)主题模型的训练、LDA模型的比较与保存、用户搜索日志主题分布生成等功能。(3)搜索文本扩展模块:包括局部敏感哈希表的建立、扩展候选词选取、扩展候选词过滤等功能。(4)用户搜索个性化表征生成模块:包括向量化LDA模型的主题、压缩法用户搜索个性化表征生成、展开法用户搜索个性化表征生成等功能。(5)用户搜索意图识别模块:包括用户搜索意图识别模型的训练和保存、用户搜索意图识别等功能。系统测试结果表明本文设计的微博搜索话题词用户意图识别系统使得用户搜索意图被识别的准确度从一开始的74%提升到了85.4%,达到了系统设计的预期效果。
其他文献
为探讨木薯块根淀粉含量不同的品种不同生育时期内源激素的变化,以‘华南124’和‘辐选01’2个块根淀粉含量不同的木薯品种为材料,分别对其不同生长发育时期的块根、茎杆及叶
就近几年的发展趋势来看,我们国家对于事业单位进行企业化的管理,采取绩效管理能够对事业单位中绩效不彰的情况产生一定的正面影响,然而因为非盈利的特点以及角色缺位,会导致
自然语言理解是人机对话系统的核心组成部分,意图识别是实现自然语言理解的关键技术之一。随着人机对话系统的不断发展,越来越多的对话机器人产品走进人们的生活中,但是人机
目的:建立卫生专项经费支出绩效评价指标体系,以提高卫生专项资金的使用效益,为形成一个具有良好反馈功能和工作导向性的专项预算和绩效评价机制提供依据。方法:运用文献复习法和
1临床资料患者,女,35岁,农民,右小腿包块3年.患者自幼轻度跛行,有右小腿疼痛史.3年前无意中发现右小腿后侧有一包块,初起如枣大,行穿刺治疗后包块增大较快.2002年11月以血管
最近十几年以来,国有企业改革成绩斐然,国有企业的实力毋庸置疑。不过限制国有企业发展的一些深层次的集团管控原因逐步暴露出来:第一是先天不足,一些集团由“长兄为父”被提
目的:运用网络药理学分析方法,挖掘补肾益智方干预MCI可能的靶点和通路,通过动物实验进行验证,探讨补肾益智方干预MCI的作用和机制。方法:(1)网络药理学:利用中药系统药理学
平衡计分卡在企业管理过程中取得一定的成效,在大型的上市公司当中得到了推广。利用平衡计分卡,有机结合了发展战略和绩效,这样一来,事业单位对平衡计分卡的关注就会更加密切
二十一世纪以来,随着人类社会的发展与进步,环境问题已经成为阻碍当今社会发展的一项重大问题,尤其是与人类的生存呼吸息息相关的气体污染问题,严重影响了人类的健康生活。因
商业贿赂罪从97刑法制定伊始,即附随于公职贿赂罪,缺乏独立的地位,《刑法修正案六》并没有解决该问题,而从本质上看,它却是解决商业贿赂犯罪之首要。商业贿赂罪是侵犯公平竞争市场