论文部分内容阅读
随着信息科学的进步与互联网信息资源爆炸性的增长,搜索引擎已经成为互联网最重要的应用之一。面对浩瀚的网络资源,通用的搜索引擎存在信息量大、查询不准确、深度不够等问题,因而垂直搜索引擎应运而生,它具有“专、精、深”的特点,并且具有行业色彩,能够对某一特定领域、特定人群或特定需求提供有价值的信息和相关服务。本课题专注于金融主题垂直搜索引擎的研究与实现,通过技术研究建立金融主题的垂直搜索引擎,从海量的信息资源中筛选出满足用户需求的金融信息。本文讨论和研究搜索引擎和垂直搜索引擎的相关原理、技术和实现过程,在此基础上,利用开源的Heritrix爬虫工具包、Lucene全文检索工具包、HtmlParser解析工具包和ICTCLAS分词系统实现金融主题垂直搜索引擎的网页抓取模块、预处理模块、索引模块和查询模块四个核心模块。该搜索引擎在网页抓取模块中建立金融主题词库,根据适用于主题判别的向量空间算法,修改Heritrix爬虫工具包使其支持超链接的过滤;在预处理模块中利用HtmlParsel解析工具包结合统计学对网页文件进行去噪;在索引模块中修改Lucene全文检索工具包使其支持ICTCLAS分词系统,利用Lucene对网页内容进行分词和建立倒排索引,提高了搜索引擎的查询的效率和准确率;在查询模块中利用ICTCLAS分词系统和Lucene全文检索工具包,使查询结果符合用户的需求。实验结果表明金融主题的垂直搜索引擎能够较好满足用户对金融主题信息的需求。