数字图书馆的中文网页文本分类器研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:bingke111888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和因特网的迅速发展,网上信息的类型越来越丰富,可利用的资源也越来越丰富,这已成为数字图书馆的发展动力。同时网络存储和交换技术的发展,也逐渐带动了数字图书馆相关技术研究的进展。数字图书馆是一个新兴的,涉及到因特网、多媒体、数据仓库、数据挖掘和知识产权保护等诸多技术的计算机应用领域,其应用和商业前景非常广阔。 本文是在数字图书馆系统的环境下,对资源库中保存的网页进行有效分类的研究。在研究初期,认真分析了数字图书馆的总体需求,并通过其需求总图、数据流程图和系统模块图的描述,找出了系统的关键问题之一,就是要解决资源库中保存的网页文本分类问题。从而接下来的研究工作就是围绕这个主题所展开的。 本文的第三章主要介绍了文本分类中的关键技术,包括文本预处理技术及面向分类模型的特征抽取技术,从而获得文本的特征集合;并从理论上分析了KNN学习算法以及其他六种常用算法,并比较其特性并最终选择了KNN算法;同时也介绍了评价分类器性能的几个评价指标。而后在第四章中对网页信息的自动提取问题进行了描述,并设计了网页信息提取的流程图。第五章是网页文本分类器的方案设计,包括系统结构图、模块图、分类体系设计、涉及的几个算法和总体流程图,同时针对系统的特点与商业搜索引擎的分类系统做了比较,指出了研究工作的意义所在。
其他文献
分别对W针尖上未组装和组装单壁纳米管进行热处理,然后对所得残气质谱图进行记录和分析。发现在热处理过程中,脱附出一定量的原子C和原子O,然后结合成为CO和CO2被释放出来。
由于远洋捕鱼作业相对是在比较恶劣的环境下进行的,操作人员常常要应对各种复杂的天气情况以及船舱高温高湿的工作环境等,对人的身体和心理都会造成极大的伤害。因此,为了做到少
随着计算机技术和网络技术的发展,单片机技术和现场总线技术广泛应用于电梯控制系统中,论文主要研究基于CAN总线的电梯微机控制系统主控器的开发设计。文章详细地阐述了电梯
本论文是基于罗克韦尔自动化的Kinetix系统为对象,开发图形识别程序,OPC客户程序以及伺服控制程序从而实现对两轴绘图工具的精确控制。 本论文首先实现对图形坐标进行读取的
随着网络期刊的发展,编辑部缩短稿件刊发周期和提高工作效率的要求越来越迫切。因此,吸收信息技术和现代管理技术的成果并将其应用于期刊编辑实际工作中,实现期刊编辑、出版
本文首先以轧机的弹跳方程为基础,结合轧机的弹跳方程曲线和轧件的塑性曲线分析了各种干扰因素对轧件出口厚度的影响,并总结了基本AGC系统的工作原理及其控制算法。 以本钢
为了适应不断变化的环境,DSP系统变得越来越复杂,功能也逐渐多样化,在同一DSP系统中实现多种功能,并能够进行不断的升级和扩充。为了实现这种特性,DSP系统必须在维持开机的情
近年来,出版社、教育报刊社等都在办教辅类图书和报刊,尤其是同步辅导类的图书和报刊,给人们的感觉是大家都在争吃这块蛋糕,随之市场上便出现了同质化竞争的局面。  笔者针对同质报刊竞争的问题谈谈编辑自身存在的不足和努力的方向。    编辑缺乏市场意识    《南风窗》总编秦朔指出,期刊市场化运作要认清三个问题,即“谁要看,为什么要看,为什么必须看你这份刊物”。这就是说期刊要具备必读性。中国人民大学舆论研