基于Lucene的无线城市站内全文搜索系统的设计与实现

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:ygl360
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网以及无线接入技术的迅猛发展,无线城市为市民、企业和政府提供了共享无线信息平台的可能性,随时随地随需的获取无线网络服务已成为现代生活和办公的一个非常重要的方面,无线城市作为新科技社会发展的产物,将极大的影响人们的生活和工作,推动经济社会的进一步发展。无线城市协调统一各类信息资源,整合各类业务和应用,为用户提供了在具有海量信息和应用的互联网查找信息资源的便利平台,但是纵观已经试点运营的各省市无线城市综合门户网站,却缺少能够让用户在海量信息应用中快捷找到所需资源的全文搜索入口,不能满足用户深入、快速、准确的查询需求,已有的无线城市站内搜索功能只是对站内的新闻资讯进行检索,并不符合全文搜索的概念。基于上述背景,本文提出一个无线城市站内全文搜索系统的设计和实现方案,帮助无线城市用户快速准确地在海量的信息资讯和应用资源中找到自已需要的信息或者应用入口。针对无线城市作为城市综合门户平台的特点,包含的信息资讯新闻等非常广泛,本文在基于关键字全文搜索的基础上对搜索结果进行优化,把搜索结果基于应用和信息资讯自动分类,使得用户通过简单的关键字搜索,可以快捷进入查找的业务应用或者查看包含关键字的具体内容,进而可以极大提高无线城市用户群的使用体验,进一步提高各行各业的生产效率。本文构建的全文搜索系统是对全文搜索引擎Lucene的二次开发,通过调研目前已上线无线城市的情况,总结现有无线城市站内全文搜索系统的缺点,提出本文的设计目标并完成系统总体结构设计,在此基础上分模块进行详细需求分析和功能分析给出功能流程图和实现过程;针对无线城市面向领域广泛新词出现频率高的特点,在对已有中文分词算法研究的基础上,将机械分词与统计分词相结合,提出一种引入动态词库更新的中文分词架构;改进Lucene建立索引的过程,实现配置化建立索引的机制;设计实现了索引增量更新,以保证索引库和无线城市业务数据库的同步和一致性;搜索过程中利用Term Vector中的信息设计实现搜索结果的自动分类;系统展现部分最终提供给用户一个简洁并具有良好用户体验的搜索界面,通过搜索词联想功能对用户的搜索进行相关提示。最后,论文对基于Lucene构建的无线城市站内全文搜索系统的运行效果给出整体运行结果,对完成的研究工作进行总结,并提出无线城市下一步发展的方向和系统的改进目标。
其他文献
伴随着计算机技术的持续发展以及在各领域的广泛应用,计算机系统已经成为信息处理的主要工具,大量的涉密信息通过它来进行处理。然而,计算机及其外部设备工作时会通过电磁辐射发
云计算的“托管”服务模式,使云服务用户脱离了对应用程序和数据的直接控制。用户担心部署在云端的应用程序和数据会被篡改和窃取,而云服务提供商同样担心用户部署的内容会对
Windows操作系统为开发计算机—电话集成通信应用程序提供了稳定而健壮的平台和丰富的应用程序接口.以TAPI(电话应用程序接口)为核心,结合MAPI(消息应用程序接口),SAPI(语音
该文论述了以下的内容:第一章绪论简要说明了轨道和钢轨焊接的一般知识,并着重分析了钢轨焊接中热影响区对钢轨接头的危害.第二章介绍了金属学与热处理方面的一般理论,分析了
该课题采用面向对象的编程语言Visual Basic 5.0进行MIS系统瓣开发.采用层次化的视窗作为用户直观地访问信息的手段,以使得界面更加友好;利用VB5.0内置的Microsoft Jet数据库
同态加密是密码学中一个长期的公开问题,在外包存储和外包计算中具有广泛的应用前景。从2009年以来,陆续出现了几类基于格和整数的同态加密模型(半同态或全同态)。代数同态加密是
现场编程实现方式是将各种消防控制设备的控制时序和联动关系归纳为几种固定逻辑模型,并以特定的数据格式定义形成协议,最终根据实际工程的要求,通过计算机现场输入联动关系
复合式火灾探测报警目前世界范围内火灾探测报警领域最受人瞩目的研究方向之一.该论文的主要内容是公安部"复合式感烟感温火灾探测报警系统SX4000"的科研项目中的一部分-火灾
云计算数据中心内运行的多种多样的应用对网络的高带宽和低延时等性能提出了越来越高的要求。数据中心网络的流调度技术对数据流的传输进行调度,其目标是减少数据流平均完成时
该文主要介绍了在Windows95环境下,利用最新集成开发工具Visual C++5.0研制开发了应用于从德国引引进的ERGO-OXYSCREEN运动肺功能测试仪上的自动分析诊断系统.该系统的开发将