面向专利主题的分布式搜索引擎的研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:misswj2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对专利信息的应用在科研和专利业务的诸多方面起着重要作用,快速,准确地检索专利信息可以大大提高研究效率、降低经费投入、提高技术研发和专利工作质量。技术决策机构、企业、大学、研究机构以及专利代理、专利审查和专利诉讼机构在开展专利战略、专利研发工作中离不开专利信息。本文针对全球各大专利机构(美国,欧洲,世界,中国,日本,韩国,台湾)的专利信息构建搜索引擎。本系统由Spider,索引器,分析器,检索器,任务管理器五部分组成,涉及的关键技术:Spider,负载均衡,排序,并行处理模型,缓存机制等。由于搜索引擎处理的专利信息数据量十分庞大,而且每年还以惊人的速度增长,搜索引擎设计成分布式并行处理的系统同时用若干机器协同计算处理, 分布式并行的方法可以取得更好的性价比; 处理效能; 安全性; 扩展性。本文论述构建一种基于分布式并行计算技术的Web搜索引擎模型架构。采用分布式并行编程模式,选用了任务分发和SPMD模式。采用功能分解、迭代分解、几何分解相结合的分解技术。在并行编程中线程是流行的模型,在并行计算上采用Java Thread和Thread Group的编程模型。消息传递对分布式的并行编程是有效的,在分布式计算的消息传递上采用Java的Socket通信方式。
其他文献
信息技术改变了企业传统的运作方式,在过去的十年间,大量的工作流管理技术被应用于企业实际运作。如Staffware、IBM MQSeries和COSA等工作流管理系统为企业流程管理提供了强有
缓冲区溢出攻击是相当普遍并对系统具有致命威胁的一种攻击手段。它危害性大,隐蔽性强,堆溢出是缓冲区溢出最常用的手段之一。应用程序本身代码的不完善是缓冲区溢出的根源,而编
随着网络应用的迅猛发展,网络的安全问题也显得越来越突出。传统的网络入侵检测技术的局限性越来越明显,已经不能适应网络新攻击层出不穷和数据量日益增大的趋势。数据挖掘能
两条曲线间的重合检测是求交算法中的一个重要环节,同时也是提高求交算法稳定性的关键步骤之一。低次(如3,4,5次)Bézier曲线在计算机辅助几何设计(CAGD)中有着的广泛应用。在实
本文主要研究了中文命名实体识别及其关系抽取,设计和实现了一个能识别和抽取人名、地名和机构名的系统CNEE,并通过SRV算法实现了个人主页中的人名和E-mail 的抽取。CNEE 先
随着企业需求的不断扩展以及网络技术的迅猛发展,企业应用开发变得越来越慎重,越来越复杂。为了能够在竞争中处于有利的地位,采用合理的企业应用架构和新技术就成为企业能否有效
二十世纪后期,生物电子学快速兴起,极大地改变了传统医学仪器的研制模式。集成毛细管电泳芯片(ICEC),是生物学、医学、化学、电子学、计算机以及自动化等学科交叉的产物,其在医学
随着“信息大爆炸”时代的到来,应对海量数据的存储和处理问题的云存储技术作为云计算的重要延伸被提出。由于云存储中的存储节点众多,必然会出现存储节点不可得的情况。为确保
本文主要研究了软件需求规格说明的一种验证方法——定理证明技术,研究开发PVS-Z定理证明原型系统。该系统能够对Z规格说明的定理进行证明,从而实现对规格说明的验证。首先,在PV
在真实感图像绘制的研究中有两个主要的发展方向。其一是提高绘制的真实感,真实地再现各种复杂的光照场景。另一个就是在图像质量与计算量之间取得平衡,用尽可能少的计算量得