基于本体的主题爬行技术研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:babaxsj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息内容的迅速增长以及信息环境的越趋复杂,现有的以覆盖所有网页为目标的搜索引擎正面临着严峻的挑战。首先,网页数量呈现出指数级的爆炸性增长趋势,搜索引擎无法索引所有的页面,即使是目前全球最大的搜索引擎Google,其索引的页面数量也仅占Web总量的40%左右。其次,Web信息资源是动态变化的,而这种变化使得搜索引擎对于用户的返回结果中有相当比例是过时的甚至是打不开的网页。再次,由于Internet上的信息过于庞杂,往往让用户对五花八门扑面而来的各种信息而无所适从,不知道如何去获取自己需要的信息,陷入了“信息过载”和“资源迷向”的困境。针对上述问题,作者全面的回顾了主题爬行和本体论的研究历史,系统深入地分析了主题爬行算法和本体原理,从而总结归纳了现有主题爬行的缺陷与不足,并在此基础上重点研究了基于本体的主题爬行技术,及实现此技术过程中涉及到的相应问题。本文首先提出了基于本体的主题爬行框架,该框架的优点在于我们不但利用关键字,在爬行算法的设计中还依靠概念和关系等高层次的背景知识来对比搜索网页的文本。这种方法能够很容易达到一个直接的主题。其次,对主题爬行中的关键技术之一网页分类进行了深入研究,提出了基于本体特征提取的PU分类方法,该方法通过两次遍历文档,实现了降维和形成文本向量,再通过CoTraining的学习方式和Affinity Propogation聚类算法使PU文本在正例较少时,提高了PU分类器的性能,并得到了实验验证。再次,利用网页中的视觉信息、标签信息、链接信息和本体概念信息等对网页进行内容分块,在具体的网页分块过程中还提出了一些启发式规则来控制分块的精度和粒度。实验表明,这种分块主题爬行能够解决多主题问题,可以有效的避免主题漂移现象,在一定程度上能解决了灰色隧道穿越问题。同时,我们还首次提出了采用关联规则解决黑色隧道的穿越,该思想也在试验中得到了可行性的验证。最后,我们将前面的思想用于科技文献检索方面,并提出了基于认知心理学、信息传播与遗忘规律的特点构建特定用户兴趣的主题爬行,我们根据用户的检索习惯,跟踪用户的行为模式,通过机器学习方法学习和训练特定用户模型,实现面向特定用户的推荐、过滤等个性化服务。作者结合国家自然科学基金和吉林省科技发展计划项目的研究,给出了具体的实践。理论分析和实验证明上述方法的实用性及可靠性。
其他文献
矿物浮选是在特定工艺条件下,在矿浆中加入浮选药剂,并充入空气、然后搅拌产生大量气泡,最后通过回收含矿泡沫来提高原矿品位,以此满足还原冶炼要求的一种选矿方法。浮选泡沫
农业院校大学生创新意识的培养应整合各种校园文化的资源,进一步改变入学教育和毕业生离校教育的时间和内容,加强课程体系和教学方法改革,从而形成一个在时间上贯通从入校到离校
一、RFID技术概述射频识别技术RFID(Radio Frequency Identification)是自动识别技术在无线电方面的具体应用,即通过无线射频方式进行非接触双向数据通信对目标加以识别。一
连锁零售业所实施的区域竞争战略是以其向消费者提供的三大功能(基本商品和服务功能,便捷、高价值的功能,休闲的功能)为前提的。本文以此为基础,提出一种用于连锁零售业区域竞争的
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
在互联网成为当今主流软件运行环境之后,网络的动态性和开放性使用户需求与硬件资源更加频繁地变化,导致软件的变化性和复杂性进一步增强。变化性成为了软件的基本属性。软什
叙事已成为设计的一种修辞手法。该设计利用语言的基本含义来实现其沟通和交流的功能,并且传达设计的理念。文章内容基于叙事艺术设计,通过叙事设计的特点、本质概念、文本方
不同模态的医学图像都有优缺点,如果通过图像融合技术将CT、MRI图像的互补信息综合在一起,就能为医学诊断和治疗提供更加充分有效的信息依据。像素级图像融合能够提供其它层