大规模中文搜索引擎的研究与设计

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:raggae
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的普通,WWW已经成为一个巨大的信息库,而由于其本身所具有的开放性、动态性和异构性,造成了信息检索的困难,因此搜索引擎就成为了人们有效检索网上信息的必备工具.该文研究了大规模中文搜索引擎所涉及的大规模存储、中文分词、网页排序、自动分类等主要技术,重点研究了基于链接的网页排序算法在中文搜索引擎中的应用,比较和分析了PageRank和HITS算法,构造并设计了基于HITS的网页分类搜索系统,以及基于PageRank的大规模中文搜索引擎.
其他文献
针对过去数十年中软件生产率偏低的问题,人们提出了许多解决方案.软件复用通过避免软件开发中的重复劳动以提高生产率,是一种现实可行的解决方案.软件复用的主流是产品复用,
软件复用被认为是一种有效的解决软件危机的方法。构件信息系统是促进软构件复用的核心机制之一。传统的构件信息系统,其复用范围往往局限于一个公司或开发小组之间,缺乏大规模
《四川日报》的特约通讯员中,唯一的一位县委书记,就是大巴山脉巫溪县委的易继魁同志。易继魁同志是新闻业余爱好者。解放以来就是报 Among the special correspondents of
科学计算可视化是运用计算机图形学和图象处理技术以及人机交互技术,将科学计算过程中产生的数据及计算结果转换为图形或图象在屏幕上显示出来,并进行交互处理的理论、方法和技
基因调控网络是整个系统生物学中的基础和核心,通过基因调控网络的重构,人们可以认识生物系统内部的运行机理,揭开生命奥秘的本质。在本文中,我们基于约束性布尔网络模型提出了一
高更的艺术具有一种难以理解的神秘性,他逃避现代文明,陶醉于对原始人神秘生活的兴趣.他在原始的野蛮和文明的理性之间苦苦挣扎,并以苦难为代价,从艺术中去表现他的原始神秘
数据仓库是一个有利于查询和分析的,并集成了大量信息的数据库.数据首先从多个异地构的数据源中被提取出来,然后通过过和转换,最后将存储在数据仓库中以供联机分析处理(OLAP)
我无意于争执杂文与时评的区分,而更愿意把它们统统归于表达。面朝未来,我们必须承认,表达正面临着窘境。我们只谈技术性窘境,非技术的因素说到底 I do not intend to disti
作者在对第一代视频编码技术深入研究的基础上,对MPEC4视频编码器中的纹理编码解码算法的设计和实现进行了探讨.以VisualC++6.0为开发工具,以PC机为平台,以MPEG4协议为标准,
该文在分析IP电话实用技术的基础上,强调指出要在不提供服务质量(QoS)保证的无连接型IP网络中获得高质量的实时音频传输,需要一个统一、高效的协议标准,同时必须妥善解决延迟