基于类别分布差异和VPRS特征选择的文本分类方法

来源 :电子与信息学报 | 被引量 : 0次 | 上传用户:johnwangjohn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
权值计算和特征降维是影响文本分类的精度和效率的两个重要步骤。该文首先根据特征词的类别分布差异进行特征过滤;然后,分析传统的权值公式TF-IDF的缺点,采用改进的权值计算公式简记为TF-CDF,依据TF-CDF公式计算每个特征词的权值,生成文档集的向量空间模型VSM;接着,提出了一种基于可变精度粗糙理论(VPRS)的特征选择进一步选择对分类贡献度大的特征,并用SQL实现。最后利用支持向量机LibSVM分类器进行实验,实验结果表明特征过滤和选择方法及TF-CDF权值公式有助于提高分类精度和分类效率。
其他文献
该文依据多级比较原理,建立了ADC功耗-速率优值模型。基于比较器数目最优算法,推导出多级ADC最优比较器数目,并提出多级ADC功耗-速率优值参数,从而得到可实现小功耗、高转换速率的多级ADC优化结构。以10位精度ADC为例,系统级仿真结果表明:多级ADC中的三级Pipelined结构可将全FlashADC功耗降低到最小,而保持相同的转换速率;同时理论验证了以两步式结构实现多级ADC优于其他多步式结
针对油页岩成因类型,国内外学者做过一些有益的探讨,但尚不存在统一的分类方案。鉴于中国油页岩以陆相成因为主,作者从油页岩的沉积环境出发,总结出从深湖-半深湖到湖沼环境,油页岩
论述了游梁式抽油机电机的调速方法,重点介绍了当前电机调速的新技术--变频调速技术在游梁式抽油机上的应用;对各种调速方法的优缺点进行了分析比较,为油田现场选用游梁式抽
目的探究模块化康复训练联合视频健康教育对胫骨平台骨折患者术后下肢功能恢复的影响。方法选取2016年6月至2019年6月于本院接受治疗的102例胫骨平台骨折患者为受试对象,随机数字表法分为两组,各51例。对照组予以常规护理干预,观察组在其基础上实施模块化康复训练联合视频健康教育进行干预。比较两组患者术后1个月的膝关节疼痛情况[数字疼痛分级法(NRS)]及干预前、术后3个月的生活质量[Spitzer生
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
高硬脆保形红外整流罩是一类基于高硬脆红外材料而研制的保形结构整流罩,具有优良的机械及气动性能,因此有广泛的应用前景。本文首先系统分析了空空导弹整流罩结构及其材料的
目的分析中药调配临方炮制对临床治疗效果的影响。方法随机选取2015年8月至2017年1月我院收治的46例患者。采用随机数字表法均分为两组。观察组23例采用中药临方炮制方法进行
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
该文设计了一种用于正交频分复用(OFDM)系统的新型保护间隔信号-导频后缀(Pilot Postfix,PP),并构建了采用比特交织编码调制-迭代解码(BICM-ID)技术的PP-OFDM系统。PP由OFDM符号中的频域导频符号进行逆傅氏变换(IFFT)生成,在接收端可与OFDM符号中的导频相干合并,从而提高信道估计性能。该文给出了相应的信道估计、均衡和BICM-ID算法,并通过研究信道估值误差带
[目的]探讨护理本科实习生前瞻适应与专业自我概念的关系,为护理教育者或管理者提高护生的专业自我概念提供参考意见。[方法]应用前瞻适应量表和护理专业自我概念量表对267名