【摘 要】
:
相比较传统的集中式的信息检索技术而言,对等计算(P2P)信息检索技术具有成本低、容错性好、可扩展性强等优点,可充分挖掘网络资源,并可提供个性化的网络服务。在面向文档资源
论文部分内容阅读
相比较传统的集中式的信息检索技术而言,对等计算(P2P)信息检索技术具有成本低、容错性好、可扩展性强等优点,可充分挖掘网络资源,并可提供个性化的网络服务。在面向文档资源的P2P信息检索技术中,分词是一个重要的环节。分词是信息处理的基础和先决条件。传统的机械分词已经取得了巨大的成功,但是就中文文档资源而言,仍然存在着明显的不足:无法准确定位算法所需的词长,并且因此引发分词准确性和效率之间的矛盾;无法有效排除中文分词歧义的问题等。基于上述的考虑,针对传统分词算法中的上述问题,改变传统的通过关系型词库进行分词的思维,设计了新的基于树状词库的中文分词的算法,并在基于P2P技术的文档信息检索中取得了较好的应用。引入了树状词库的概念,将词库里的词按照树状结构组合,使得遍历过程中分词的匹配效率呈线性,不仅有效地解决了词长的问题,而且同时也保证了分词的效率。针对中文分词歧义问题,结合树形结构的词典,采用了分支处理和动态规划的解决办法,提高了分词的效率。在中文分词的基础上,详细研究了Lucene全文检索引擎工具包,设计了一套基于Lucene的全文检索解决方案。采用了以词为对象建立索引的方式,在实验中获得了较好的效果。
其他文献
作为我国工业自动化领域第一个拥有自主知识产权并被国际电工委员会(IEC)认可的国际标准,EPA (Ethernet for Plant Automation)已经作为第十四类型被列入现场总线国际标准IEC
随着计算机技术的飞速发展,当前的计算机系统对于存储容量的要求逐步提高,存储系统逐步向磁盘虚拟存储的方向发展。磁盘虚拟存储技术作为一种面向磁盘的虚拟化技术,向用户屏
伴随着Internet网络规模的飞速增长,在计算密集型和数据密集型应用领域,传统的分布式计算和并行处理技术已不能满足高性能分布式处理和分布式海量存储管理的需求,于是网格技
随着大数据时代的的来临,如何高效地处理海量数据已经是各行各业都要面对的一个无法回避的问题。为了避免在海量数据面前出现“信息孤岛”的窘境,开发一个部署简单、计算能力
现有的资源定位机制定位模式单一,定位延迟没有保证,在可扩展性和可维护性方面存在不足,并且在资源查找过程中,消息洪泛带来的网络开销大,不适合大规模的复杂网络应用。针对
随着互联网的普及和发展,产生了许多新的应用,其中许多是高带宽需求的,如视频会议、视频点播、股市行情发布等。组播技术就是顺应这种网络应用的需要而产生的。组播技术因其
模糊查询在现实生活中非常普遍,在很多应用场合中,用户需要某些属性的目标值,但是不需要这些值的精确匹配。这些查询的结果就是一系列最符合所要求属性值的“Top-k”元组。网
随着电信业务的迅速发展,网络基础设施的建设工程日益增加,工程项目种类日益繁多,施工条件日益复杂。同时,传统的工程项目管理主要基于人工管理模式,导致项目管理效率低下,管理部门
随着机构改革的深化和现代化信息技术的发展,原有的政府办公模式已经不能适应日益增长的事务处理和信息共享等方面的要求,政府部门纷纷构建电子政务系统。政府业务过程的自动化