基于语义上下文的互联网金融搜索引擎研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:planet0371
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是用户最常用的信息查询工具之一。随着用户对搜索结果准确性要求的提升,基于关键词匹配和排序算法的传统搜索引擎暴露出搜索结果与用户需求语义关联性低的问题,无法"理解"用户查询意图与网页内容的内在联系。因此,为了更好地解决由语义关联性低引起的搜索效果差的问题,本文提出了基于语义上下文的搜索引擎模型。首先,本文利用主题模型建立非结构化文档与潜在主题向量的映射关系,并结合词项权重模型优化了传统搜索引擎的索引空间。接下来,根据文档生成模型对优化词项后的语料库进行语言建模,通过主题模型和神经网络语言模型分别对搜索关键词的语义和上下文进行扩展。然后,对传统搜索引擎使用关键词的搜索方法进行拓展,并对扩展后的语义上下文进行搜索。最后,结合文档相关性排序模型,基于带权语义上下文进行文档相关度计算并排序,返回搜索结果。本文通过在互联网金融新闻类非结构化数据集上的实验,与传统搜索引擎在索引空间、搜索结果、搜索性能等方面进行了对比分析。结果表明,基于语义上下文搜索引擎索引空间更小,且能提供更准确的搜索服务。
其他文献
开发新型循环流化床反应器始终是流态化领域研究的热点。本文首先简介了循环流态化的基本原理以及床层内部流体动力学特性,然后从装置构型、操作工况、流动特性以及应用前景
微观环境因素对电力企业的影响,尤其是用户、竞争者对企业发展的影响巨大。用户、竞争者对电力企业发展和营销对策有着多方面的影响,为此,电力企业营销活动即要适应环境又要
在国民经济中具有调节经济、信用创造、信用中介、金融服务等重要作用的商业银行有一项重要业务,即个人理财。随着我国经济、社会、文化等多方面要素的变化,个人理财市场近年
许多老师在教学中,不是在上课就是在批改作业,既耗体力又耗脑力。若要解放学生,解放自己,应在作业的设计讲解中找到一条适合自己和学生的捷径,留出更多的时间来备课,提高自身
为探讨定量CT肺密度测定的影响因素,对54例正常人在50%肺活量(VC)时螺旋CT扫描全肺,其中40例在10%VC、90%VC,23例在50%VC呼吸水平于隆突层、隆突上下各5 cm处行高分辨CT(HRCT)扫描,用
[目的]探讨金元医家李东垣的奠基之作《内外伤辨惑论》的辨惑本质以及内伤与外感病的相关性。[方法]通过对《内外伤辨惑论》立论背景的研究,分析该论中主要的十三辨,进而思考
今年9月,溪洛渡水电站荣获“菲迪克2016年工程项目杰出奖”。这一有着国际工程咨询行业“诺贝尔奖”之称的殊荣,代表着业界对溪洛渡水电站、对中国水电的高度认可和充分肯定
通过对厚度、板形和张力这三个自动控制目标量的分析,表明可以用厚度实现最简单、最有效的控制。厚度的控制主要由负荷分配和AGC系统来实现的。厚度自动控制最好的方法是DAGC
环境污染问题需要针对污染问题做好对应的预防,同时也需要针对已经产生的污染做有效的治理。在绿色化学技术的处理下,可以有效的达到污染源的零排放,降低污染率,让污染治理从
<正>一、概述单排四点接触球转盘轴承是一种能够同时承受较大轴向负荷、径向负荷和倾覆力矩等综合载荷,集支承、旋转、传动、固定等多种功能于一身的特殊结构的大型轴承。被