专业搜索引擎的研究与设计

被引量 : 0次 | 上传用户:wang1224
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何满足人们对快速、准确而全面获取信息的要求,已经成为摆在人们面前的一大难题。搜索引擎的出现可以帮助用户在网络上方便地查找到自己需要的信息。但是目前的搜素引擎由于存在网页覆盖率低、索引不及时和返回结果不精确等缺点,因而难以满足专业用户(如某一领域的科技工作人员)对信息的需求。 本文主要的研究工作是针对搜索引擎的一个发展方向——专业搜索引擎,进行理论研究分析和具体设计。在专业搜索引擎的信息采集方面,为获取最优搜索路径,本文采用非贪婪的IpageRank策略指引网络蜘蛛动态调整下载方向,优先下载可能包含有相关主题内容的页面,有效的实现搜索引擎的专用化。在信息检索的相关性方面,本文采取的方法是基于网页内容和结构的向量空间模型算法。针对用户搜索关健字的模糊性及搜索返回结果的不精确性问题,本文应用本体论通过概念来执行搜索,同时通过使用链接文档及相关的概念来进行过滤及排序。 本文设计的系统还在线提供二种数据挖掘技术,关联规则和聚类,让使用者方便地探索并且浏览搜索出来的文件。 本文的主要工作如下: 1.分析了搜索引擎国内外目前的研究现状及发展趋势,探讨了专业搜索引擎目前主要存在的问题及现行专业搜索引擎所采用的搜索策略主要存在的缺陷。 2.针对中文分词中歧义字段的切分问题,着重研究了交集型歧义字段的切分,并提出相应的分类解决方法。 3.针对专业搜索引擎网络蜘蛛搜索路径的选择策略问题,提出了非贪婪的IpageRank搜索策略,并采用改进的VSM向量模型法对网页进行进一步的相关性过滤。 4.针对用户搜索关健字的模糊性及搜索返回结果的不精确性问题,我们提出基于本体论的排序算法,利用搜索词的本体语义来确定及排序相关的Web文档,以此来改进在文本检索中出现的同义,岐义及上下文敏感等问题。
其他文献
我国福利分房向货币分房的改革,政府以加大基础建设投入拉动经济发展的宏观调控,催生了我国以房地产业为主的建筑市场的蓬勃发展,与此不相适应的是,建筑企业的发展却处于低水
<正>目的 :严重感染性休克期间常出现重度心肌抑制。虽然曾有报道称,使用静脉-动脉体外膜肺氧合(ECMO)治疗严重感染性休克儿童效果良好,但我们对于成年患者的治疗效果仍知之
初读20世纪游记散文,似乎多为山水多为情趣,少了一分寄托,多了一分休闲。细读之下却不尽然。本文重在阐释游记散文所体现出的一种深度追求,对社会人生与宇宙万物的深度关怀和
文章综合了国内外资料,介绍了工业上用海水作为冷却水的有关冷却器材质,腐蚀影响因素和防蚀措施,并就海水冷却器的防腐技术的应用作了介绍。
随着现代企业制度的建立和产权市场的不断发展,人们日益清楚地认识到,在市场经济的条件下,作为商品生产者的企业本身也是一种商品,可以在市场上进行估价和买卖。现代资本市场的迅
在影响养猪生产效益的诸多因素中,种猪生产性能起主导作用。我国目前较大规模瘦肉型种猪场超过200个,各个猪场采用"闭锁繁育"与"半开放的闭锁繁育"体系,育种工作各自为政,育
目的:基于氨基酸谱变化特征探讨调理脾胃灸疗改善血液透析患者蛋白质能量消耗(PEW)的效应机制。方法:选择血液透析PEW患者30例作为PEW血液透析组,采用随机数字表法分为对照组
本文以2009年和2010年中粮华夏长城葡萄酿酒有限公司昌黎地区五个特定小产区赤霞珠为研究材料,综合考虑各小产区的不同气候条件和土壤状况两大类因素,研究该地区赤霞珠主要理
构建适应当前高等教育发展需要的课堂教学评价体系及评价方法有着重要意义,高校应对课堂教学进行全面评价,体现质与量结合、个性和差异结合、主体参与、动态发展等多元化特点
我国以“厂网分开,竞价上网,打破垄断,引入竞争”为重要内容的电力体制改革,自2002年3月经国务院批准实施以来,已分别组建了国家电网公司、南方电网公司和中国华能、中国大唐、中