Web页面信息相关度排序方法的实验研究——领域本体和自然语言分析的一种应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:xuhuohua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的广泛发展,如何保证用户能够在"海量信息"中迅速准确的获得想要的信息,已经成为互联网研究和应用上十分迫切的问题.作为语义网核心技术的本体论方法,具有改进信息组织、信息共享和信息理解的巨大潜力.因此,如何在研究信息检索(Information Retrieval)方法的同时,引入本体论方法,并且结合自然语言处理技术,提高用户和计算机对Web上海量信息的捕获和理解能力,是当前信息检索研究领域的热点之一.该文首先介绍了目前信息检索技术中的一些主流技术,对Web信息捕获过程中面临一些突出问题进行了详尽的探讨.从词频统计、本体词汇集、本体概念和实例的构成,以及本体关系等多角度出发,完成对信息所属领域的确定.在此基础上,提出了利用句法分析和语义距离判定关键字之间关系的方法,以及Web页面相关度排序和用户请求问题求解方法.最后,通过一个原型系统——OBIR,完成了领域确定、索引构建、相关度排序、问题求解、用户请求扩展等工作.实验表明,OBIR系统在领域确定、查准率和效率方面具有较强的实用性.论文的最后,对OBIR系统的优缺点进行了总结,并提出了今后努力的方向.
其他文献
本课题从这个角度出发,试图介绍一些技术和产品发展的新动向,并对当前入侵检测热门技术作一个初步的研究和分析.对入侵检测系统的研究,核心的部分就是对入侵检测技术的研究.
该文针对传统遗传算子的半盲目性,提出了建立基因库来指导遗传算子搜索方向的思想.并分别针对静态和动态的路径优化问题,设计了相应的基因库遗传算法.该文主要的工作和创新如
红外通信技术作为计算机通信技术的一个分支,已经广泛应用在各种电子设备,电脑,移动通信设备上。尤其是在移动设备上应用广泛,它具有小巧,灵活方便的特点。IrDA 是 INFRARED DATA
随着计算机网络的发展,网络安全问题已经逐渐引起人们的关注。目前,解决网络安全问题最有效的方法就是使用防火墙。防火墙技术已经从早期的简单包过滤技术,发展到如今的内核代理
随着我国对自主知识产权的不断重视,大量的国产软件涌入我国的软件行业,推动着我国软件行业的不断发展。目前,我国已经拥有自主研发的操作系统、数据库和应用服务器等国产系
视频会议领域是当今世界上发展最快的产业之一,电子信息产业不仅成为世界新的经济增长点,而且带动了传统产业的升级改造,促进了其它高新技术产业的发展,成为增强国家综合实力的因
本人参与了"辽河油田渤高稀油管线管道泄漏自动监测报警系统"的设计研制工作,并负责软件系统结构设计和大部分软件编制工作.本文以此次实践为基础,论述了该检测系统的设计方
学位
软件系统复杂性的不断增加和应用需求的不断扩大,使软件开发面临着前所未有的挑战,软件危机作为一种慢性危机还在继续。使得怎样提高软件开发的效率和质量成为研究热点。软件组
近年来,随着信息技术的快速发展,计算需求日益增加,计算成本不断提高,集群技术凭借其在计算方面高性价比的优势,在各应用领域得到了广泛的认可。然而,在集群技术被普遍使用的