海量文本信息的Web采集与自动分类研究

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户：zhangersong

【摘要】

：

随着近年来科学技术日新月异般高速发展,互联网中各种信息呈现井喷之势令人应接不暇。如何更好的发现、获取并使用网络文本信息也就成了一个越来越值得关注的问题。海量文本

【作者】

：

李瑞

【出处】

：

北京邮电大学

【发表日期】

：

2015年01期

【关键词】

：

文本信息 Web采集词池演化自动分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着近年来科学技术日新月异般高速发展,互联网中各种信息呈现井喷之势令人应接不暇。如何更好的发现、获取并使用网络文本信息也就成了一个越来越值得关注的问题。海量文本信息的采集与自动分类,是获取、组织和处理大量信息数据的关键核心技术。优秀的采集与分类系统能够快速高效地根据需求从网络中获取相关网页,分析提取网页信息,继而将得到的文本内容按照一定方法进行自动分类处理,以待更好的为人所用,这些无疑对快速发现、研究和解决问题有很大的帮助。因此本文结合网络采集、信息处理和文本自动分类技术,同时引入词池演化特征词的方法对海量文本信息的采集与自动分类问题进行了深入的研究,解决了海量网络信息时代文本数据的有效采集与自动分类问题。基于上述分析,本文主要完成了以下工作：第一,本文分析了信息采集领域与文本自动分类领域常见的关键技术和相关算法。着重阐述了信息采集过程中的源码获取、链接分析匹配和网页信息处理等技术,以及文本分类领域的文本表示、特征选择和常用的分类算法。第二,提出了基于用户定义的Web采集和处理模型。此模型在传统的采集技术基础上,实现了基于链接分析匹配等采集过程的改进,提高了海量文本信息采集的高效性和准确性。第三,在传统分类的特征词选择算法基础上,提出了基于词池演化的多级特征词改进方法,增加了特征词集的规模,并利用改进的特征词集优化分类模型,提高了文本自动分类的准确性。第四,将提出的Web采集与分类模型应用于实际的科研工作之中,实现了一套高效稳定的采集与分类系统。通过系统测试和相关性能分析可知,本文提出的相关算法模型拥有良好的采集与分类效果。

其他文献

某重型车辆橡胶悬架有限元分析及结构优化

随着我国重型汽车工业的飞速发展，影响车辆行驶平顺性和操纵稳定性的悬架系统的重要性日益凸显。为了获得良好的减振效果，新型的悬架系统不断被应用到重型车辆上，其中橡胶悬架由

学位

橡胶悬架有限元分析非线性结构拓扑优化

“以快制胜”——商战之法宝

期刊

康泰克危机公关以快制胜

汉英思维差异对汉英翻译的影响

随着全球化的不断深入,使用不同语言的人们交流日益密切,而翻译在这之中起到了桥梁和纽带的作用。但是,要做好汉英翻译并不容易。其中一大难点在于汉英之间差异巨大。深究两

学位

汉英思维差异翻译策略范畴词无主句隐性连接显性连接

西秦岭凤太矿集区铅锌多金属矿床成矿作用特征、机制与成矿规律

西秦岭地区是我国重要的铅锌矿产地,该区沉积岩和浅变质岩中赋存的大量铅锌矿床,如凤县-太白(凤太)矿集区和西河-成县(西成)矿集区产有多个大型-超大型铅锌矿床。尽管前人对

学位

铅锌多金属矿床矿床地质成矿流体成矿物质成矿时代成矿规律凤太矿集区西秦岭

辅助政府奖惩决策的绿色建筑评价体系研究

随着科技的发展,伴随而来的是资源的过度消耗,过度高能耗的结果即导致突出的环境问题。这就使得逐渐提高的公民素质和日益严重的包括几年前温室气体的排放导致全球气候变暖、

学位

系统动力学碳排量绿色建筑评价体系政府决策

解析工程项目评标方法之经评审的最低投标价法

首先介绍了“经评审的最低投标价法”的概念及评标过程，在此基础上对该方法的主要特点及在使用中存在的模糊认识进行分析与探讨，最后分析了该方法在实践中可以更好发挥其优势应

期刊

工程项目招标评标方法经评审的最低投标价法

舒张性心力衰竭患者胰岛素抵抗及药物干预的临床研究

目的研究舒张性心力衰竭（DHF）与胰岛素抵抗（IR）的关系,并探讨二甲双胍对DHF患者胰岛素敏感性的影响。方法观察DHF患者120例及正常对照组60例空腹血糖及空腹胰岛素水平,计算胰岛素

期刊

舒张性心力衰竭胰岛素胰岛素抵抗指数二甲双胍diastolic heart failure insulin insulin resistance inde

前列腺增生伴急慢性炎症特殊表现1例

患者，男，46岁，主诉排尿困难5年，突然不能排尿1d，无发热。血常规示：白细胞计数9．3×10^9／L[正常参考值（4．0～10．0）×10^9／L]，中性粒细胞77．6％（正常参考值50．0％～75．0％），淋巴细胞17．4％（正常参考值20．0％～4

期刊

前列腺增生前列腺炎急相反应

海量文本信息的Web采集与自动分类研究

其他学术论文