基于属性的元搜索引擎的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:pplhome
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的迅速发展,在浩如大海的网络信息中,找到需要的信息,越来越费时费力。如何快速有效地找到有用信息成为当务之急,搜索引擎孕育而生,成为当今网络中最重要的服务之一。搜索引擎虽然解决了查找信息的困难,但它的服务并不让人满意,返回的查询结果准确率太低。  本文提出了一个属性过滤的方法,基于该方法实现了一个元搜索引擎。该搜索引擎在传统的基于关键词搜索引擎基础上,增加了一个属性描述,分类器利用该属性,对搜索结果进行过滤,即把关键词搜索结果分成两类,一类是与属性相关,一类与属性不相关,过滤掉不相关的结果。提高了搜索准确率。实验证明,取得了一定的效果。为了突出属性过滤的效果,降低系统复杂度,设计了一个元搜索引擎,而不是机器人搜索引擎。  本课题涉及的关键技术主要有两方面:中文分词和分类算法。本文分析了基于词典的分词算法和无词典的分词算法的优缺点,并结合本系统的特点,决定选用基于词典的分词算法。并结合基于词典分词算法中的正向匹配和逆向匹配,提出了一种结合权重的正向逆向相结合的最大匹配算法。该算法结合了正向匹配和逆向匹配的优点,同时考虑了权重的因素,降低了分词错误率。分类算法则采用比较简单的线性分类器。有效降低了系统的复杂度。  本文开发的属性元搜索引擎,已在实验室中进行了测试,取得了较好的效果。
其他文献
随着大规模集成电路的飞速发展和广泛应用,其设计手段的进展缓慢成为技术发展中急需解决的瓶颈问题,迫切要求IC-CAD工具自动设计系统进入更高的层次。而系统功率的增加以及能源
实时信号的处理消费了全世界大部分的计算能力。可编程并行处理越来越多地应用到广泛多样的信号处理中(例如科学计算、视频处理、无线电、医疗、通讯、译码、雷达、声纳和成
随着Internet重要性的日益提高和网络结构的日益复杂,越来越有必要对网络中的流量情况进行深入的了解、分析,以利于发现网络瓶颈,优化网络配置,并进一步发现网络中可能存在的潜在
在全球化的趋势下,教育教学的地位日趋重要,传统的教育教学方式由于其局限性已经无法满足现阶段不断提高的课程学习需求。本文通过对各个高校和培训机构中网络化课程的建设所
随着分布式数据库系统发展,传统的C/S访问模式会对数据库服务器产生瓶颈效应,因此引入移动agent进行分布式数据库访问系统设计,这样可以减少对网络带宽的依赖。另外随着移动设备
中间业务属于新兴的银行业务,主要是为客户提供多种金融服务。银行开办中间业务既可以树立良好的公众形象,也可以取得可观的经济效益,它是银行发展的重要发展方向。随着中间业务
物体表征和识别是模仿人类视知觉能力的一个重要课题,但任务艰难。为了取得更好的效果,我们需要从人类的视知觉机制上有所借鉴。人类视知觉是源自于数亿年的进化而产生的复杂
随着Internet的飞速发展,人们越来越多地感受到它带来的好处,但是Internet所面临的安全状况日益复杂。目前,网络蠕虫已经成为了互联网的首要安全威胁之一,蠕虫的爆发经济损失
最近二十年来,图像和视频压缩取得了很大的进步。就压缩效率来说,最新的JPEG2000和MPEG-4 H.264/AVC大大的超过了它们的前几代标准。然而众所周知,任何判断标准都没有视觉质
最大独立集(Maximum Independent Set,MIS)问题是图论中的经典组合优化问题,是NP完备的。分布式环境(如:传感器网络)中的MIS算法的优化对分布式系统的效率和稳定性都有重要意