论文部分内容阅读
随着网络信息内容的迅速增长以及信息环境的越趋复杂,现有的以覆盖所有网页为目标的搜索引擎正面临着严峻的挑战。首先,网页数量呈现出指数级的爆炸性增长趋势,搜索引擎无法索引所有的页面,即使是目前全球最大的搜索引擎Google,其索引的页面数量也仅占Web总量的40%左右。其次,Web信息资源是动态变化的,而这种变化使得搜索引擎对于用户的返回结果中有相当比例是过时的甚至是打不开的网页。再次,由于Internet上的信息过于庞杂,往往让用户对五花八门扑面而来的各种信息而无所适从,不知道如何去获取自己需要的信息,陷入了“信息过载”和“资源迷向”的困境。针对上述问题,作者全面的回顾了主题爬行和本体论的研究历史,系统深入地分析了主题爬行算法和本体原理,从而总结归纳了现有主题爬行的缺陷与不足,并在此基础上重点研究了基于本体的主题爬行技术,及实现此技术过程中涉及到的相应问题。本文首先提出了基于本体的主题爬行框架,该框架的优点在于我们不但利用关键字,在爬行算法的设计中还依靠概念和关系等高层次的背景知识来对比搜索网页的文本。这种方法能够很容易达到一个直接的主题。其次,对主题爬行中的关键技术之一网页分类进行了深入研究,提出了基于本体特征提取的PU分类方法,该方法通过两次遍历文档,实现了降维和形成文本向量,再通过CoTraining的学习方式和Affinity Propogation聚类算法使PU文本在正例较少时,提高了PU分类器的性能,并得到了实验验证。再次,利用网页中的视觉信息、标签信息、链接信息和本体概念信息等对网页进行内容分块,在具体的网页分块过程中还提出了一些启发式规则来控制分块的精度和粒度。实验表明,这种分块主题爬行能够解决多主题问题,可以有效的避免主题漂移现象,在一定程度上能解决了灰色隧道穿越问题。同时,我们还首次提出了采用关联规则解决黑色隧道的穿越,该思想也在试验中得到了可行性的验证。最后,我们将前面的思想用于科技文献检索方面,并提出了基于认知心理学、信息传播与遗忘规律的特点构建特定用户兴趣的主题爬行,我们根据用户的检索习惯,跟踪用户的行为模式,通过机器学习方法学习和训练特定用户模型,实现面向特定用户的推荐、过滤等个性化服务。作者结合国家自然科学基金和吉林省科技发展计划项目的研究,给出了具体的实践。理论分析和实验证明上述方法的实用性及可靠性。