海量文本信息的Web采集与自动分类研究

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:zhangersong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来科学技术日新月异般高速发展,互联网中各种信息呈现井喷之势令人应接不暇。如何更好的发现、获取并使用网络文本信息也就成了一个越来越值得关注的问题。海量文本信息的采集与自动分类,是获取、组织和处理大量信息数据的关键核心技术。优秀的采集与分类系统能够快速高效地根据需求从网络中获取相关网页,分析提取网页信息,继而将得到的文本内容按照一定方法进行自动分类处理,以待更好的为人所用,这些无疑对快速发现、研究和解决问题有很大的帮助。因此本文结合网络采集、信息处理和文本自动分类技术,同时引入词池演化特征词的方法对海量文本信息的采集与自动分类问题进行了深入的研究,解决了海量网络信息时代文本数据的有效采集与自动分类问题。基于上述分析,本文主要完成了以下工作:第一,本文分析了信息采集领域与文本自动分类领域常见的关键技术和相关算法。着重阐述了信息采集过程中的源码获取、链接分析匹配和网页信息处理等技术,以及文本分类领域的文本表示、特征选择和常用的分类算法。第二,提出了基于用户定义的Web采集和处理模型。此模型在传统的采集技术基础上,实现了基于链接分析匹配等采集过程的改进,提高了海量文本信息采集的高效性和准确性。第三,在传统分类的特征词选择算法基础上,提出了基于词池演化的多级特征词改进方法,增加了特征词集的规模,并利用改进的特征词集优化分类模型,提高了文本自动分类的准确性。第四,将提出的Web采集与分类模型应用于实际的科研工作之中,实现了一套高效稳定的采集与分类系统。通过系统测试和相关性能分析可知,本文提出的相关算法模型拥有良好的采集与分类效果。
其他文献
随着我国重型汽车工业的飞速发展,影响车辆行驶平顺性和操纵稳定性的悬架系统的重要性日益凸显。为了获得良好的减振效果,新型的悬架系统不断被应用到重型车辆上,其中橡胶悬架由
随着全球化的不断深入,使用不同语言的人们交流日益密切,而翻译在这之中起到了桥梁和纽带的作用。但是,要做好汉英翻译并不容易。其中一大难点在于汉英之间差异巨大。深究两
西秦岭地区是我国重要的铅锌矿产地,该区沉积岩和浅变质岩中赋存的大量铅锌矿床,如凤县-太白(凤太)矿集区和西河-成县(西成)矿集区产有多个大型-超大型铅锌矿床。尽管前人对
随着科技的发展,伴随而来的是资源的过度消耗,过度高能耗的结果即导致突出的环境问题。这就使得逐渐提高的公民素质和日益严重的包括几年前温室气体的排放导致全球气候变暖、
首先介绍了“经评审的最低投标价法”的概念及评标过程,在此基础上对该方法的主要特点及在使用中存在的模糊认识进行分析与探讨,最后分析了该方法在实践中可以更好发挥其优势应
目的研究舒张性心力衰竭(DHF)与胰岛素抵抗(IR)的关系,并探讨二甲双胍对DHF患者胰岛素敏感性的影响。方法观察DHF患者120例及正常对照组60例空腹血糖及空腹胰岛素水平,计算胰岛素
患者,男,46岁,主诉排尿困难5年,突然不能排尿1d,无发热。血常规示:白细胞计数9.3×10^9/L[正常参考值(4.0~10.0)×10^9/L],中性粒细胞77.6%(正常参考值50.0%~75.0%),淋巴细胞17.4%(正常参考值20.0%~4