基于文本挖掘的轻量级搜索引擎

被引量 : 0次 | 上传用户：king4978

【摘要】

：

互联网的信息总量在人类进入互联网时代后出现了爆炸式的增长,一般的跨国互联网的公司每天的数据吞吐量都在几十PB,如何有效的利用这些信息资源日益成为人们关注和研究的焦点

【作者】

：

刘超

【发表日期】

：

2015年期

【关键词】

：

Linux 搜索引擎 TCP 多线程 Redis

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网的信息总量在人类进入互联网时代后出现了爆炸式的增长,一般的跨国互联网的公司每天的数据吞吐量都在几十PB,如何有效的利用这些信息资源日益成为人们关注和研究的焦点。互联网的信息的数据格式也从web2.0时代可以呈现了多样化的发展,有视频,音频,链接和图像等等。如何在面对着这些海量信息时候,很好的利用这些信息,并且挖掘出对自己有用的资料或者信息是互联网IT公司所面临的重大问题,因此,一个性能优越可以承担数亿网名的访问量的的搜索引擎就显得非常必要。搜索引擎就是为了解决这样的难题应用而生。通过网络爬虫获取大量的相关资料和信息,采用机器学习或者数据挖掘的算法进行数据挖掘,进一步分类和提取,将用户最想要的搜索信息返回给用户。搜索引擎作为互联网发展至关重要的一种应用,已经成为互联网各个领域的制高点,搜索引擎领域也是互联网应用中不多见的以核心技术为其命脉的领域。当今时代比较成功的商业搜索引擎是美国的Google搜索引擎,其次紧随其后是最大的中文搜索引擎中国的百度公司。美国微软公司和雅虎合作推出的必应搜索引擎也在美国占据了30%的市场份额,目前中国奇虎公司在中国的市场份额仅次于百度,也是一个异军突起的新生搜索引擎,上述的搜索引擎基本构成了主流的成功的并且成熟的商业搜索引擎。目前主流搜索引擎主要使用的Memcache缓存系统已经出现了性能瓶颈,一些公司几千台的Memcached集群很常见Memcached和redis都基于内存,Memcached偏向cache,Redis更多扮演数据库的角色,支持更丰富的数据类型；论到单个核上的性能,在单条数据不大的情况下,Redis会更好。因为Redis是单线程的,只能使用一个核。而Memcached是多线程的,所以对一个实例来说,性能上肯定是Redis占优势。Redis和Memcached不同的地方在于前者并没有选择libevent。libevent为了迎合通用性造成代码庞大(目前Redis代码还不到libevent的1/3)及牺牲了在特定平台的不少性能。Redis用libevent中两个文件修改实现了自己的epoll event loop。所以本论文采用的Redis更多扮演的是数据库的功能,其自带数据持久化。在小型数据量和单线程模式的效率是远远领先于传统的数据库系统Memcached内存对象缓存系统。本论文的引擎属于目录式的搜索引擎,重点着力解决上述缓存和性能优化问题。主要用于为某中小学教育资源网站提供资源搜索服务。从架构设计模式到底层细节各个层次优化如下：(1) 系统架构层面,采用TCP传输协议和Epoll多路转接。传统的搜索引擎基于POSIX平台的服务器采用UDP传输协议和poll的I/O多路转接,连接不稳定,传输数据不可靠,系统层面因为poll多次执行系统态到内核态的拷贝,资源消耗巨大。而本论文的连接可靠稳定,监听轮询大大降低了服务器负载。从架构执行层面要优于传统的搜索引擎。(2)改进了距离编辑算法,并且应用到中文中,使得用户搜索词纠错机制可以实现中文文本纠错,进行纠错及联想推荐,提供候选词集,降低用户学习成本和提高用户的工作效率,而传统的搜索引擎没有提供纠错候选项和纠错功能。(3) 改进了传统的索引技术,提出了内存磁盘协同并行索引改进算法,可以迅速精准定位到网页库中的用户查询文档,同时在文本挖掘的过程中计算网页文档关联度上提高了效率,也节省了内存消耗。(4) 处理用户历史查询记录缓存时采用Redis这种基于内存可持久化,日志型的数据库取代传统的Memcached分布式高速缓存系统,提升缓存的处理效率。(5)采用Hash Map,处理数据库,相对于传统的Map,数据的存储和查找时间消耗大大降低。实验数据主要采用复旦大学语料库。实验测试方法为横向纵向对比测试,最后实验测试结果显示：单次服务平均时间从5ms以上缩短到不到1ms,实际性能提升近100倍。

其他文献

苏轼记体散文三种句法特征的英译研究

本文选取了苏轼记体散文中的七篇名作《喜雨亭记》、《凌虚台记》、《超然台记》、《放鹤亭记》、《赤壁赋》、《后赤壁赋》和《石钟山记》,以句法的文体功能为研究依据,探讨

学位

记体散文句法功能疑问句连动句骈句英译

斜拉桥索梁锚固区局部分析

近年来,斜拉桥发展十分迅速,国内外多座斜拉桥的跨径己进入特大跨径范围内。斜拉桥索梁锚固结构受力集中、构造复杂,是斜拉索连接主梁的重要结构,其受力状态是衡量桥梁结构工

学位

斜拉桥钢锚箱混凝土锚固块混合单元模型力学特性

新庄选煤厂装车部分改造实践

本文分析新庄选煤厂为降低块煤火车发运的限下率,减少职工的劳动强度,对产品车间装车仓机头进行改造,以及改造后的一些显著效果。

期刊

选煤厂安息角蠕动破碎率降低

上海市轨道交通10号线工程设计管理

轨道交通工程是一项具有投资规模大、建设周期长、涉及面广、专业技术强且复杂等特点的综合性系统工程。以上几个基本特点显示了在工程建设中设计管理工作的难度和重要性。文

期刊

轨道交通工程设计管理设计总体管理

延边地区经济增长中的人力资本要素研究

随着科技的发展,整个社会已然步入了知识经济时代。在激烈的全球化竞争中,知识是决定一个地区能否在竞争中存活的关键。这种知识与技能形成了一种特定的资本,即人力资本。人

学位

延边地区经济增长人力资本对策建议

吉林省汽车产业国际竞争力SWOT分析

吉林省汽车产业作为支柱性产业,对吉林省经济发展做出了巨大的贡献。本文通过SWOT分析法,对吉林省汽车产业的内部优劣势和外部环境进行综合分析,以便更好促进汽车产业的发展,

期刊

汽车产业国际竞争力SWOT

假设检验中p值的灵活运用

给出假设检验中p值的定义以及双边检验p值与单边检验p值的关系,介绍了利用p值将三种检验同时进行的方法及意义,最后给出应用实例.

期刊

假设检验p值拒绝域

老年人双腔生理性心脏起搏的临床分析

目的　分析双腔生理性心脏起搏治疗老年人缓慢心律失常 ,改善心功能及生活质量的临床效果。方法　 1 998～ 2 0 0 1年为老年人植入双腔生理性心脏起搏器 39例 ,起搏器 DDD型 2

期刊

老年人生理性心脏起搏心功能

荞麦中具有醌还原酶诱导活性的化合物的分离鉴定及活性研究

荞麦属于蓼科(Polygonaceae)荞麦属(Fagopyrum)植物,是一种联合国粮农组织公认的药食同源作物。我国是荞麦的发源国和主产国,种质资源丰富、栽培历史悠久、分布地域辽阔。荞

学位

荞麦二相酶癌症化学预防醌还原酶诱导活性

枸杞多糖的神经保护作用-“以眼为鉴”

枸杞子是一种药食同源的天然植物果实,中医学认为枸杞子具有养肝肾、明目的功用。其干果水提物中,枸杞多糖(LBP)是主要活性成分,体外细胞培养证明LBP可以对抗谷氨酸/β淀粉样

期刊

枸杞多糖视网膜退行性疾病神经保护

基于文本挖掘的轻量级搜索引擎

其他学术论文