中文文本自动分类关键技术研究及实现

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:babyleah
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,电子文本信息迅速膨胀,呈现出海量性和杂乱性的特点,对这些海量文本信息的有效组织和管理已成为当前信息技术领域面临的一大挑战。基于人工智能的文本自动分类技术根据文本的内容自动将未知文本自动分类,通过将文本分门别类来对海量文本进行管理,方便用户准确定位所需信息。文本自动分类技术作为信息检索、信息过滤、文本数据库、数字化图书馆等相关领域的技术基础,可以有效的提高这些信息服务的质量。因此,文本自动分类有着广泛的应用价值和研究意义。本文研究探讨了文本自动分类的关键技术,如分词技术、特征降维、分类技术等,着重分析研究了特征降维中的特征选择技术。作为特征降维中最常用的方法,特征选择的目的在于从原始文本特征空间中选择出对文本分类最具有类别区分意义的词构成文本分类的特征空间,从而有效降低文本向量维数,去除冗余特征,提高分类器的分类效率和分类准确度。传统的特征选择方法选出的特征词都是具有多个类别指示意义上的词,并没有按照类别来选择特征词,同时忽略了词频在特征选择中的作用。如果一些特征词条集中存在某几个类别中,而且在这些类中均匀分布,那么这些词条有较强的类别区分度,应当被保留。基于这种思想,本文在引入词条类别区分度的概念的基础上,将特征词条的类别区分度作为特征选择的一个依据,提出了对传统的特征选择算法的改进方法和一种新的基于类别区分度的特征选择算法。为了验证本文所提出的特征选择算法,设计并开发了一个中文文本自动分类系统,然后在该系统上进行分类实验对比。实验结果表明,本文所提出的特征选择算法的分类准确度均高于传统的特征选择算法,从而验证了本文方法的有效性和可行性。
其他文献
列车的方便、快捷无疑为我们的生活带来许多便利,但同样列车的安全、运输效率也越来越受到人们的重视,列车性能的改进成为该领域的核心内容。我国在考虑自身的实际情况和未来发
随着嵌入式技术,数字图像处理技术,网络通信技术和视频压缩技术的快速发展,嵌入式视频监控系统正朝着网络监控和智能监控的方向发展。在智能视频监控方面,无论是国内还是国外
当前,云计算正在受到越来越多的关注,开源云平台如Eucalyptus、OpenStack等主要提供IaaS层上的服务,即基础设施即服务,用户向云平台购买一定量的虚拟机,将自己的任务提交到购买的
合成孔径雷达(SyntheticAperture Radar, SAR)凭借其独特的优势在军事、国民经济领域中有着广泛的应用。然而事实上SAR系统的信息获取技术明显超前于信息处理技术,使得SAR图像数
随着计算机技术及互联网技术的快速发展,越来越多的隐私信息在网络中传输,由此产生一系列信息安全问题,如:非法窃取、监听、传播数据信息等。图像是信息传递的一种重要方式,
自二十世纪九十年代以来,多Agent系统逐渐成为人们研究的热点,对许多科学技术的发展产生了深远的影响。多Agent系统比较适用于复杂的分布式计算,且能有效地避免大规模分布式站点
公共交通网络是现代城市交通网络中最重要的基础设施之一。在大中城市,公共交通系统扮演着尤为重要的角色,特别是在“低碳生活,绿色出行”概念越来越受市民认可的今天,公共交通更
功耗已经成为设计各种计算机设备必须考虑的首要问题。移动嵌入式设备,如智能手机、平板电脑等,不仅电池电量有限,而且电池密度发展缓慢。更低的功耗意味着更长的使用时间和更好
支持向量机(SVM)是解决分类问题的一项机器学习核心技术。然而,实际工程中由于数据采集不及时,数据样本不全面,数据不连续导致训练样本很难覆盖全部样本空间,对外往往表现出
黑河流域水资源数据量庞大,数据关系复杂,应用常规技术进行优化调度难度较大。本文针对黑河流域当前存在的水资源调度问题,应用大数据处理与进化计算技术,基于大数据计算框架