论文部分内容阅读
随着互联网上金融信息的供给量和需求量的大幅度提升,如何准确满足用户对金融信息的需求成为一个亟待解决的问题。金融相关网站提供信息服务主要通过两种方式:人工编辑和基于通用搜索引擎的相关新闻检索。这两种方法分别存在着信息覆盖面不广和返回结果精度低的问题,难以满足用户的个性化需求。因此,面向金融领域的垂直搜索技术的研究便成为了一个紧要的问题。本文专注于金融信息检索系统中新闻相关性分类的研究,针对金融新闻的领域相关性分类以及金融新闻的产品(特定的股票,基金等)相关性分类问题提出了解决方法。(1)金融新闻领域相关性分类。本研究将金融新闻与金融领域的相关性度量问题,也称为重要性判断问题,看成是一个单类分类问题,并引入单类分类的方法解决该问题。基于单类分类的金融新闻重要性判断的方法,只对金融领域的重要新闻进行建模,使用在训练集合上建立的模型为待定金融新闻计算一个相关度,并依据前期预设的门限值进行金融新闻重要性判断。本文的研究对比了三种典型的单类分类算法,Rocchio算法,K-means算法和单类SVM算法在人工标注的语料集合中的性能,并分析了特征数目和门限值对于算法性能的影响。实验结果表明,K-Means算法具有最佳的性能,在测试集合中在召回率维持在95%时,查准率高达80%以上。(2)金融新闻产品相关性分类。本研究将金融新闻与金融产品的相关性排序问题简化为相关和不相关两个类别的分类问题。针对金融新闻在发布金融产品相关信息时展现的篇章结构特点,本文从标题,正文,相关段落,相关句子以及网页链接五个部分着手提取特征,除了关键字出现频率等通用特征外,更创新性的提出了行业相关度,金融领域相关度,数字信息占新闻文本比重和金融新闻类别等与金融领域密切相关的特征。同时,鉴于金融新闻的特征量大,而传统的信息检索模型解决大规模特征能力有限,本文引入学习排序的方法综合处理以上特征,以解决金融新闻产品相关性分类的问题。实验结果表明,采用学习排序的点式方法(point-wise approach)训练的分类模型,在指定语料集合上的性能相比基于语言模型的分类模型以及两个基本的检索模型(标题关键字匹配和全文关键字匹配)有明显优势。本文的研究已经成功应用到海天园金融新闻检索系统中。