互联网页文字信息分析技术研究与应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:zlklovey365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这个信息增长非常迅速的时代,人们对信息的需求越来越多,越来越专业,对信息的筛选要求也越来越高。一方面人类在学习过程中所获取的知识的来源途径已经走向了互联网,而另一方面信息爆炸的问题越来越严重。为了解决这个问题,全世界大量的研究人员尝试提供一种更有效的机制来寻找和表现海量的信息。 本文的研究正是探求这方面的一些理论,实践与应用框架。 第一章概述互联网知识获取技术的背景。 第二章展示从向量空间模型出发的知识点分类和多文档摘要结合研究的成果,其中主要分析了KNN,SVM以及本文提出的模糊KNN三种方法对知识点划分的效果;提出了结合分类与链接分析的多文档摘要方法,以及利用涉及度进行数据挖掘的原理。 第三章介绍本文的实践应用:Antares网页搜索系统。此章详细说明一个结合信息过滤和选择的搜索引擎的方方面面。为如何实现同类型系统提供了一个良好的范例和借鉴。 第四章引入语义概念的概率模型,对隐含语义检索(LSI)和WordNet做了简单介绍,并提出了一个新的框架,作为对未来发展的方向的一个探索。 最后一章为总结与展望。
其他文献
本文参与了这款DVD参考设计方案的研发。任务是在现有的Vaddis系列DVD播放器软件体系和I77芯片规范的基础上增加一个软件模块,支持用HDMI数字多媒体接口的传输,包括通过DDC与显
VoIP是下一代网络中一个极其重要的应用,作为构建VoIP电话系统信令协议之一的SIP协议,以其突出的简单、灵活、分布式控制和易于扩展等优点赢得了业界的青睐,尤其是在3GPP决定使
小麦条锈病由Puccinia striiformis West.f.sp.tritici Eriks et Henn引起,其孢子可在风的作用下进行远距离传播,属于真菌性多循环气传病害,是小麦生产过程中一种破坏性较强
呼叫中心利用通讯领域的各种新技术为用户提供多种接入方式,是企业为用户提供服务的窗口,在各行各业中得到了广泛的应用。由于其应用广泛和技术更新快的特点,设计一个快速、
在网络技术飞速发展、网络信息量激增的今天,网络安全日益受到人们的关注。网络攻击正向综合多样化、协同合作化、自动智能化发展,传统的网络防御策略已经不足以应付如此的局面
基因数据分析是当前的研究热点,倍受机器学习、数据挖掘研究者的关注。基因读段定位是基因数据分析的关键环节,而基因聚类则是基因功能分析的重要途径,是生物学家寻找未知基
本文研究嵌入式频谱分析系统的优化设计和实现问题。论文完成了以ARM处理器为核心的系统的软、硬件设计,进行了信号的采集和处理的实际测试,对实验数据进行了分析。为了实现对
随着信息数字的到来,互联网飞速发展,各种新业务不断涌现。随之而来的是各种网络问题也相继出现,给网络监测带来更大的挑战。网络监测的过程是:采集相关网络数据,通过对数据
随着信息技术的飞速发展,21世纪的制造企业将面临更为激烈的竞争。产品的生产模式由少品种、大批量逐步转变为多品种、变批量,信息化的科学合理利用成为企业是否能在角逐中胜
在GIS(GeographyInformationSystem,地理信息系统)领域,常常因数据海量性及地理分布的广泛性,信息不能广泛共享,而造成很大程度的资源浪费问题。网格计算是一种利用互联网把广泛