中文文本自动分类关键技术研究及实现

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户：babyleah

【摘要】

：

随着互联网技术的飞速发展，电子文本信息迅速膨胀，呈现出海量性和杂乱性的特点，对这些海量文本信息的有效组织和管理已成为当前信息技术领域面临的一大挑战。基于人工智能的文本

【作者】

：

张振浩

【机构】

：

浙江理工大学

【出处】

：

浙江理工大学

【发表日期】

：

2013年期

【关键词】

：

文本自动分类特征选择类别区分度类别区分词

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的飞速发展，电子文本信息迅速膨胀，呈现出海量性和杂乱性的特点，对这些海量文本信息的有效组织和管理已成为当前信息技术领域面临的一大挑战。基于人工智能的文本自动分类技术根据文本的内容自动将未知文本自动分类，通过将文本分门别类来对海量文本进行管理，方便用户准确定位所需信息。文本自动分类技术作为信息检索、信息过滤、文本数据库、数字化图书馆等相关领域的技术基础，可以有效的提高这些信息服务的质量。因此，文本自动分类有着广泛的应用价值和研究意义。本文研究探讨了文本自动分类的关键技术，如分词技术、特征降维、分类技术等，着重分析研究了特征降维中的特征选择技术。作为特征降维中最常用的方法，特征选择的目的在于从原始文本特征空间中选择出对文本分类最具有类别区分意义的词构成文本分类的特征空间，从而有效降低文本向量维数，去除冗余特征，提高分类器的分类效率和分类准确度。传统的特征选择方法选出的特征词都是具有多个类别指示意义上的词，并没有按照类别来选择特征词，同时忽略了词频在特征选择中的作用。如果一些特征词条集中存在某几个类别中，而且在这些类中均匀分布，那么这些词条有较强的类别区分度，应当被保留。基于这种思想，本文在引入词条类别区分度的概念的基础上，将特征词条的类别区分度作为特征选择的一个依据，提出了对传统的特征选择算法的改进方法和一种新的基于类别区分度的特征选择算法。为了验证本文所提出的特征选择算法，设计并开发了一个中文文本自动分类系统，然后在该系统上进行分类实验对比。实验结果表明，本文所提出的特征选择算法的分类准确度均高于传统的特征选择算法，从而验证了本文方法的有效性和可行性。

其他文献

智能高速列车无线闭塞中心交接形式化描述与验证

列车的方便、快捷无疑为我们的生活带来许多便利，但同样列车的安全、运输效率也越来越受到人们的重视，列车性能的改进成为该领域的核心内容。我国在考虑自身的实际情况和未来发

学位

无线闭塞中心交接融合库所颜色网赋时着色Petri网建模与验证

基于ARM11的嵌入式智能视频监控系统研究

随着嵌入式技术,数字图像处理技术,网络通信技术和视频压缩技术的快速发展,嵌入式视频监控系统正朝着网络监控和智能监控的方向发展。在智能视频监控方面,无论是国内还是国外

学位

H.264标准嵌入式技术Boa服务器网关接口CGI智能视频监控系统RTP/RTCP技术

基于Primal Sketch Map 和语义信息分类的SAR图像分割

合成孔径雷达（SyntheticAperture Radar, SAR）凭借其独特的优势在军事、国民经济领域中有着广泛的应用。然而事实上SAR系统的信息获取技术明显超前于信息处理技术，使得SAR图像数

学位

图像分割SAR图像Primal Sketch Map语义信息聚集性

基于迭代恢复过程的图像加密算法研究

随着计算机技术及互联网技术的快速发展,越来越多的隐私信息在网络中传输,由此产生一系列信息安全问题,如:非法窃取、监听、传播数据信息等。图像是信息传递的一种重要方式,

学位

图像加密杨顾迭代算法QR码级联压缩感知

基于智能Agent的分布式隐私保护数据挖掘研究

自二十世纪九十年代以来，多Agent系统逐渐成为人们研究的热点，对许多科学技术的发展产生了深远的影响。多Agent系统比较适用于复杂的分布式计算，且能有效地避免大规模分布式站点

学位

多Agent系统分布式数据挖掘关联规则挖掘SMCJAFMASAgent通信

苏州市电子地图公交查询系统研究与设计

公共交通网络是现代城市交通网络中最重要的基础设施之一。在大中城市，公共交通系统扮演着尤为重要的角色，特别是在“低碳生活，绿色出行”概念越来越受市民认可的今天，公共交通更

学位

地理信息系统（GIS）公交网络公交换乘查询

文件系统功耗优化技术的研究

功耗已经成为设计各种计算机设备必须考虑的首要问题。移动嵌入式设备，如智能手机、平板电脑等，不仅电池电量有限，而且电池密度发展缓慢。更低的功耗意味着更长的使用时间和更好

学位

硬盘功耗模型I/O空闲率内存日志文件系统功耗优化技术存储设备

基于超球体的PSVM算法研究

支持向量机(SVM)是解决分类问题的一项机器学习核心技术。然而,实际工程中由于数据采集不及时,数据样本不全面,数据不连续导致训练样本很难覆盖全部样本空间,对外往往表现出

学位

支持向量机超球体先验知识开球覆盖故障诊断分类

基于Spark的粒子群算法并行编程及其在水库调度中的应用

黑河流域水资源数据量庞大,数据关系复杂,应用常规技术进行优化调度难度较大。本文针对黑河流域当前存在的水资源调度问题,应用大数据处理与进化计算技术,基于大数据计算框架

学位

Spark多目标优化调度粒子群算法并行化Web系统

中文文本自动分类关键技术研究及实现

其他学术论文