中文文本分类技术研究及应用

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:hzbhwh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展为第三次科技革命插上翅膀,让人类进入信息爆炸的时代,每一天这个世界上的信息总量都在以恐怖的速度巨量攀升,我们的大脑每时每刻都在主动或被动地接收处理大量的信息。在这个时间越来越宝贵的信息高速时代,如何从庞杂的信息中精确地查找、过滤、分辨我们需要的信息是极为重要的,作为信息的重要载体,如何对文本进行快速的区分至关重要,文本分类技术也由此应运而生。文本分类技术从上个世纪70年代诞生至今,它的地位也越来越发重要。因此对文本分类相关技术的研究与应用也有着重要的意义。首先,本文介绍了文本分类的背景,目前国内外取得的研究进展。接着本文立足于提高文本分类的稳定性和准确性,研究了文本分类的相关技术,对其中的各个环节包括文本的预处理阶段、文本特征选择算法、文本特征加权算法、文本表示模型、文本分类算法都作了详尽介绍,并就文本的特征选择和加权算法以及文本分类技术的应用进行了深入的研究,主要的研究内容如下:针对CHI卡方检验特征算法对于低频词存在缺陷的情况,进行了两点改进。其一,引入了考虑类别内影响的DT(Document&Term)因子,它包括词频和文本频率因子。其二,引入类别偏离因子,加强了原算法未考虑不同类别中特征词的影响力区别的不足。据此提出新的改进卡方检验算法ICHI,并通过三组实验对比了其他传统特征选择方法和他人改进的方法,在SVM算法上,分类性能相比传统CHI提升了5.6%,相比已有改进方法提升了2.2%。验证了此改进算法的有效性与优越性。针对传统TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)算法对于特征词类别影响力考虑不足的缺陷,提出了新的逆类别频率的概念,基于此对原TF-IDF算法改进后提出TF-CF(Term Frequency-Category Frequency)算法,接着提出了将word2vec词向量与TF-CF算法加权运算作为分类的特征输入的W2V-CF模型,并设计实验将该模型与包括传统方法和其它文献方法在内的五种模型分别进行了性能评估对比,在SVM算法上,相比传统BOW词袋模型,性能提升了7.7%,相比已有改进模型,性能提升了1.7%,验证了该模型的合理性和实用性。将文本分类技术与TCP反向代理技术相结合,设计并实现了可以对网络敏感网页与文件(包括word,pdf等)进行隔离过滤或者设置分类规则进行限制的系统,并通过对系统的功能测试和压力测试验证了系统的实用性。此系统的设计研究工作对于后续在线内容文件的控制管理分发技术方面的研究具有参考意义。
其他文献
背景与目的:原发性肝癌(以下简称肝癌)是常见的恶性肿瘤之一,患者就诊时多属中晚期。影像学检查是主要的临床诊断方法之一,但对小肝癌诊断效果不够理想。血清AFP检测肝癌虽简
入侵检测系统(IDS)是保护信息系统安全的重要方式.而新一代IDS的一个最主要的特点就是IDS入侵检测规则描述语言.该文通过对snort规则的分析与比较,提出了一种基于网络的IDS规
零形回指是汉语中一个普遍而特殊的语言现象,指一种没有语音形式,无形有意的照应手段,在连接语篇语义中起到重要作用。本研究借助眼动追踪技术考察美国汉语学习者对不同类型
近年来,民事诉讼法律援助的案件数量显著增长并接近整体法律援助案件总量半数。党的十八届四中全会强调推进公共法律服务体系建设,完善法律援助制度。在此背景下,本文通过比
自2014年以来,PPP模式作为推进基础设施和市政公用事业领域私有化的重要手段在我国开始得到大力推广,PPP项目数量在全国范围内开始呈爆发式增长。PPP模式的相关研究也成为国内公共管理领域学者近年来关注的焦点,与PPP模式绩效评价、风险分担、收益分配以及可持续性问题有关的各类课题与研究纷纷展开。本论文从城市可持续发展的角度切入,通过实证研究的方法探究PPP模式对城市治理的影响效果,为PPP模式作为
兰新铁路第二双线沿线风区段落风速高、风期长且严重干旱缺水,为了保证列车的安全和正常运营,在风区段落简支箱梁迎风侧设置挡风结构.从桥面布置方式、挡风结构、接触网支柱
在国家“十三五发展规划”大力提倡“建筑工业化和绿色化”基础上,钢筋骨架作为装配整体式建筑的“骨骼”,其质量更是重中之重。电阻对焊是一种高效、省材、施工方便的固态连接手段,其焊接热影响区的特性对焊接接头的性能有着重要的影响,相对应的也就对焊接接头的质量提出了更高的要求。针对电阻对焊的不同原理和箍筋焊接现有设备的基础上,选取等压式直流电阻对焊的焊接方法。本文首先利用有限元仿真模拟对钢筋骨架中箍筋的电阻