论文部分内容阅读
随着近年来电子商务、社会化网络、移动互联网以及智能化技术的发展,互联网上的信息呈现出爆炸性增长的态势,通用搜索引擎的检索结果出现出多、杂、乱的现象。并且用户对搜索引擎的要求也不再局限于仅为其提供相关的网页,而是期望搜索引擎能够给出某领域的深层次知识。然而,世界几大通用搜索引擎巨头无法涵盖如此众多领域内的搜索市场。因此,在未来中小型机构提供的领域化、专业化的垂直搜索服务必将有很大的应用价值。中小型金融机构受其经济能力和搜索方面技术实力的限制,其信息检索服务还停留在提供存储在数据库中的结构化信息的落后阶段。因此,如何利用现有的技术框架提升中小型机构提供高质量垂直搜索服务的能力是亟待解决的问题。本文提出了使用Hadoop开源分布式存储计算平台基于Nutch插件机制构建中小型机构垂直搜索引擎的技术方案。本文详细介绍了Hadoop平台相关技术的原理和优势,对Nutch插件机制进行了着重研究,分析了目前常见的领域聚焦算法和常见的中文分词组件的特点,介绍了常见的网页特征词提取算法。设计并实现了基于Nutch插件机制的金融领域聚焦爬虫和离线的关键词相关词语发现模块。利用3台PC机搭建了一个完整的能提供金融领域信息检索服务的微型搜索引擎。实验结果证明,该方案具备一定的可行性和实际的应用价值。