论文部分内容阅读
随着网络的迅速发展,在浩如大海的网络信息中,找到需要的信息,越来越费时费力。如何快速有效地找到有用信息成为当务之急,搜索引擎孕育而生,成为当今网络中最重要的服务之一。搜索引擎虽然解决了查找信息的困难,但它的服务并不让人满意,返回的查询结果准确率太低。 本文提出了一个属性过滤的方法,基于该方法实现了一个元搜索引擎。该搜索引擎在传统的基于关键词搜索引擎基础上,增加了一个属性描述,分类器利用该属性,对搜索结果进行过滤,即把关键词搜索结果分成两类,一类是与属性相关,一类与属性不相关,过滤掉不相关的结果。提高了搜索准确率。实验证明,取得了一定的效果。为了突出属性过滤的效果,降低系统复杂度,设计了一个元搜索引擎,而不是机器人搜索引擎。 本课题涉及的关键技术主要有两方面:中文分词和分类算法。本文分析了基于词典的分词算法和无词典的分词算法的优缺点,并结合本系统的特点,决定选用基于词典的分词算法。并结合基于词典分词算法中的正向匹配和逆向匹配,提出了一种结合权重的正向逆向相结合的最大匹配算法。该算法结合了正向匹配和逆向匹配的优点,同时考虑了权重的因素,降低了分词错误率。分类算法则采用比较简单的线性分类器。有效降低了系统的复杂度。 本文开发的属性元搜索引擎,已在实验室中进行了测试,取得了较好的效果。