金融新闻检索系统中新闻相关性分类研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lianlianforever
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上金融信息的供给量和需求量的大幅度提升,如何准确满足用户对金融信息的需求成为一个亟待解决的问题。金融相关网站提供信息服务主要通过两种方式:人工编辑和基于通用搜索引擎的相关新闻检索。这两种方法分别存在着信息覆盖面不广和返回结果精度低的问题,难以满足用户的个性化需求。因此,面向金融领域的垂直搜索技术的研究便成为了一个紧要的问题。本文专注于金融信息检索系统中新闻相关性分类的研究,针对金融新闻的领域相关性分类以及金融新闻的产品(特定的股票,基金等)相关性分类问题提出了解决方法。(1)金融新闻领域相关性分类。本研究将金融新闻与金融领域的相关性度量问题,也称为重要性判断问题,看成是一个单类分类问题,并引入单类分类的方法解决该问题。基于单类分类的金融新闻重要性判断的方法,只对金融领域的重要新闻进行建模,使用在训练集合上建立的模型为待定金融新闻计算一个相关度,并依据前期预设的门限值进行金融新闻重要性判断。本文的研究对比了三种典型的单类分类算法,Rocchio算法,K-means算法和单类SVM算法在人工标注的语料集合中的性能,并分析了特征数目和门限值对于算法性能的影响。实验结果表明,K-Means算法具有最佳的性能,在测试集合中在召回率维持在95%时,查准率高达80%以上。(2)金融新闻产品相关性分类。本研究将金融新闻与金融产品的相关性排序问题简化为相关和不相关两个类别的分类问题。针对金融新闻在发布金融产品相关信息时展现的篇章结构特点,本文从标题,正文,相关段落,相关句子以及网页链接五个部分着手提取特征,除了关键字出现频率等通用特征外,更创新性的提出了行业相关度,金融领域相关度,数字信息占新闻文本比重和金融新闻类别等与金融领域密切相关的特征。同时,鉴于金融新闻的特征量大,而传统的信息检索模型解决大规模特征能力有限,本文引入学习排序的方法综合处理以上特征,以解决金融新闻产品相关性分类的问题。实验结果表明,采用学习排序的点式方法(point-wise approach)训练的分类模型,在指定语料集合上的性能相比基于语言模型的分类模型以及两个基本的检索模型(标题关键字匹配和全文关键字匹配)有明显优势。本文的研究已经成功应用到海天园金融新闻检索系统中。
其他文献
当前,容错计算已经在很多领域取得成绩如:微型机、航天、航空、舰船等专用微型容错机的普遍应用。然而,新的计算模式的发展,为容错提出了新的挑战。高性能容错计算机可以预测
随着数字信号处理技术和嵌入式技术的快速发展,数字信号处理芯片(简称DSP芯片或DSP)在通信、自动化等多个领域中的应用越来越广泛。DSP芯片应用的不断增长以及应用系统复杂性
优惠券是商家的一种重要促销手段,优惠券分为纸质优惠券、电子优惠券二种。目前比较传统也是使用最广的是纸质优惠券,主要通过人工散发,是一种粗放式的宣传手段,效率低下。随着互
目前主流的编码标准的压缩性能比以往的任何标准都提高了一倍以上。但是在网络带宽受限情况下,这些视频编码技术仍旧难以达到令人满意的效果。因此如何在网络带宽受限情况下
时间序列数据普遍存在于生活中各个方面的应用领域中。一般的,时间序列数据是一个包含时间戳及数值的有序序列。近年来随着传感网络等技术的发展,在金融、医疗、交通、环境监
随着新一代测序技术的发展和千人基因组计划的进行,越来越多的个人基因组序列已经被检测出来,个人基因组的数据也在飞速增长,数据量非常庞大。如何完成对个人基因组数据的收
为了更好发展服务业,需要一个优良的服务系统提供依据。所谓服务系统可以看作是一种社会化的技术系统,是服务的提供者与需求者之间按照特定的协议、通过交互以满足某一特定顾
随着网络技术的迅速发展,P2P网络技术得到了广泛的应用。P2P技术不断发展的同时,各种P2P业务应用产生的网络流量成为网络带宽的最大消费者,占用网络绝大部分资源,给管理和控制P2P
进入后基因时代,利用计算模型模拟几体心脏的生理活动,研究心脏的作用机制已成为一个新兴的热门研究领域。研究者利用计算模型,模拟从离子通道到几体心脏的生理活动,建立了心肌细
基于内容的多媒体检索目前是多媒体检索中的研究热点。其中在音乐检索中,哼唱检索是基于内容的检索方式之一,同时也是最为直接的音乐检索方式。哼唱检索由三大模块组成,即哼