论文部分内容阅读
税务领域业务背景复杂,办税系统层级较深不便记忆和查找、信息政策多样导致信息检索不便;现有通用搜索引擎搜索结果数量多、查准率低、权威性不足,且存在竞价排名和网页作弊的现象;网页排序算法PageRank存在主题漂移、偏重旧网页和权威性不足的问题,且由于只对链接打分,不能对网页内容做出评价。针对以上问题提出一种基于改进PageRank算法的税务垂直搜索引擎。目标是提供具有主题性和权威性的税务搜索,在准确理解用户搜索意图的基础上实现精准查询,提供方便快捷的办税模块入口以及信息检索功能。本文的主要工作包括:(1)研究与改进网页排序算法。研究PageRank和HITS算法的原理,比较两者的优势与不足后选择PageRank算法作为基础,在三方面进行了改进:针对网站权威性不足引入权威度因子;针对新网页的评分浮不上来的特征融入时间评估因子;针对主题漂移问题融入了基于空间向量模型的网页内容相关度计算方法。实验表明改进算法能有效改善主题漂移问题、提升网页新鲜度和权威性。(2)中文分词的研究与实现。综合考虑编程语言、集成难度、功能丰富性、词库是否可扩展等方面后,选取Ictclas中文分词器辅助网页内容以及搜索文本的解析。使用分词器对税务问答语料分词,构建税务主题词库。(3)信息抓取模块。预设初始抓取库,结合空间向量模型计算待抓取网页与主题词库的相似度以及改进算法对待抓取网页进行评分。从超链接和主题词库两方面对抓取网页进行主题约束,在信息源控制了搜索内容的质量。(4)基于Nutch和Solr实现税务的垂直搜索引擎。对抓取内容的建立索引过程中引入改进算法的评分来影响boost评分机制。实验结果表明,改进算法在税务垂直搜索引擎中应用效果较好。随着网页数量的增加,改进算法主题相关性占比下降更缓慢且始终优于原始算法;改进算法的查准率高于原始算法15%左右,前15条结果查准率达到72%;改进后的搜索结果的权威性和新鲜度也都有显著提升。