基于Lucene的主题搜索引擎的研究与实现

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:ReganCai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,信息量正以指数规律急剧增长,互联网已经成为人类获取信息的主要途径。信息量的爆炸性增长,使得“信息迷航”和“信息过载”问题日益严重,增加了用户在海量的数据中准确获取理想信息的难度。百度、谷歌等通用搜索引擎在一定程度上解决了这个问题,然而随着用户需求的精细化和专业化,这些通用搜索引擎的“不专业”信息,已经不能使用户满意。随着信息社会的深度发展,这种矛盾也在被不断激化,于是提出了在特定领域进行深度数据挖掘的理论,主题搜索引擎的研究应运而生。  主题搜索引擎是一种针对特定主题的专业搜索引擎,它只关心它所限定的主题信息,聚焦于某一领域的深度数据挖掘。旨在满足特定领域专业化检索需求,相比通用搜索引擎可以获取更详细、更全面、更即时的信息。  本课题就主题搜索引擎的核心技术进行了全面剖析,在此基础上,提出自己的解决方案。本课题的研究内容可以分为如下五个部分:  (1)分析通用搜索引擎的结构、工作流程;  (2)研究主题爬行技术,提出基于网页主题信息语义分析和网页链接分析相结合的主题分析算法;  (3)分析当前的中文分词技术,为索引建立提供理论依据;  (4)研究Lucene全文检索框架技术,以此作为开发工具包;  (5)以上述研究为理论依据构建自己的主题搜索引擎,并对结果进行分析,为算法改进提供事实依据。实验结果表明,改进的主题算法具有较高的采集效率和主题区分度,符合预期目标。
其他文献
网络管理是控制一个复杂的计算机网络,使得它能安全、高效地完成所承担的工作任务。计算机网络良好的性能在很大程度上依靠于高效的网络管理。对于任何计算机网络,网络管理系统
蓝牙技术作为一个全球统一的无线通信标准,在于建立通用的低功耗,低成本无线电空中接口及其控制软件的公开标准,使不同厂家的便携式设备在没有电缆相互连接的情况下,能在近距
目前,被业界称为计算机IT技术的第三次革命的Web Services技术已经逐步显露出巨大商业机会,软件业因此正在酝酿一场巨变。这将是自从WWW问世以来这个产业所面临的一次最大规模
很多企业在实施ERP系统后无论是在管理,还是在产品的质量、资源的利用率等方面都有了一定的进步。然而,随着外部条件的改变,经济全球化的进一步深化以及ERP本身的缺陷,使得ERP的
本文基于主动数据库技术的基本思想并结合面向对象的思想对主动数据库的知识模型和执行模型进行了研究及设计。重点研究了主动规则和执行模型。 在主动规则中,本文在对主动
为了在服务器端解决垃圾邮件泛滥的问题,安全邮件网关得到了迅猛发展。但它们都存在着一系列的缺陷,例如没有真正面向用户以及垃圾邮件过滤效果欠佳等。本文提出并设计的个性
由于因特网技术的高速发展和用户的迅速扩大,网络正前所未有的影响着人类社会的各个方面,网络安全也成为各国共同关心的焦点。 随着Internet的迅猛发展,网络黑客入侵者的手段
虚拟现实技术是计算机图形学、人工智能、计算机网络、信息处理等技术综合发展的产物。虚拟现实技术在机械行业有广泛的应用前景。面向装配的设计是当前研究的一个热点。
在各个行业,软件扮演着越来越重要的角色,同时软件项目在实施过程中所涌现出来的问题也变得越来越严重.由于不成熟的软件实施过程导致项目失败的情况经常发生.软件项目的实施
软件系统的分析和设计是软件生命周期中最关键的环节,一个成功的软件系统必然建立在良好的分析和设计基础之上。九十年代以来,面向对象已经成为软件工程领域的主流技术。统一建