面向领域的中文搜索引擎若干关键技术研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:benben1906
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向领域的搜索引擎已成为为信息检索领域的一个重要研究课题。虽然该领域已经取得许多研究成果,但目前相应的系统应用和检索效果却并不乐观。本文就面向领域的搜索引擎的若干问题,包括爬取算法、文本关键词提取和文本分类,进行了较深入研究。Web信息采集是搜索引擎的基础,也是一个核心组成部分。本文讲解了Web爬取的基本原理和策略,并对常用的Web爬取算法进行了深入的分析。最后提出了改进的基于Shark算法的新算法。关键词提取是文本处理的一个重要环节。本文以朴素贝叶斯定理为基础,以文本中词语的传统权重、第一次出现位置、出现位置的样本标准差为特征项,构建了关键词提取的朴素贝叶斯模型。实验结果表明,相对于传统的基于权重的关键词提取算法,该算法具有较高的准确度。另外,本文针对特征项取值离散化对模型的不利影响,对该算法做了修正,重新调整了上述三个特征项在模型中的相对重要性,从而进一步提高了算法的准确度。文本分类是某些搜索引擎中对Web文本进行组织、实现高效检索的一项关键技术。本文改进了传统的朴素贝叶斯分类模型,考虑进了文本长度和文本结构两个影响因素,修正了分类模型的计算公式,同时在特征项选择算法中,综合考虑了频度、集中度、分散度三项指标,使得选出的特征项更为合理,从而使分类结果在精确度、召回率和F-Measure值方面均获得了一定程度的提高。
其他文献
本课题的研究利用现场可编程门阵列( FPGA , Field Programmable Gate Array )集成度高,体积小,低功耗,高可靠性,可以在线调试等特点,和VHDL语言层次化的程序设计方法,设计灵
随着电子技术的发展,现代战争已由陆、海、空的三维立体战发展到陆、海、空、天、电磁多维的网络中心战。网络中心战通过传感器、决策制定者和射手的网络化,获取共享感知,增加指
供应链通过价值增值过程和分销渠道控制从供应商的供应商到用户的用户的整个过程,它始于供应的源点,终于消费的终点。采购过程是供应链中的重要活动。在采购过程中如何选择合适
Linked Data的发展带动了各领域以RDF格式开放领域知识库,由此带来了如何高效组织和管理海量RDF数据的问题。目前,基于关系数据库或NoSQL图数据库的存储模型,都不同程度地暴露了
本文分析了Win32异步I/O的基本模式,利用异步I/O非阻塞的特点,提出了在一个线程内并发完成多个异步I/O的方法。在此基础上,为了更好地实现任务的分工,本文提出了多线程的异步I/O
移动通信系统的保密性对于军用和民用来说都是必须具备的基本特性之一,在高度机密的情况下更是如此。但是,在现有商用移动通信系统(包括2G、2.5G和3G)中都没有实现端到端保密通信
本文简要介绍了加氢技术在石油化工中的作用和国内外加氢装置的现状和发展趋势,以及加氢催化评价装置的工艺流程和技术特点。同时分析了Fisher-Rosemount公司的MicroPROVOX控制系统在石油化工科学研究院加氢催化剂评价装置中应用状况和存在的问题,通过介绍当前国外先进的控制系统的技术特点和发展趋势,并根据实际情况和用户的需求,提出并实施了符合当前计算机技术发展潮流,同时又经济可行的系统提升
水射流技术是一项近年来迅速崛起的新技术、新工艺,它具有许多传统切割技术所不具有的优势。近年来随着大型化、智能化、专用化装备的发展,使得水射流技术的应用领域不断的扩
本文致力于研究轻量级的、独立于架构的、能与企业已有系统进行快速集成的电子标签中间件系统。 首先,讲述了研究背景,电子标签中间件的发展现状,以及本论文的研究目标,意义和
月球车作为一个具有一定智能的自主机器人必须能够在复杂月面环境下移动并完成各种任务,因此安全导航是月球车必须具备的功能。为了完成月球车的安全导航,必须依靠月球车所携带