基于类别分布差异和VPRS特征选择的文本分类方法

来源 :电子与信息学报 | 被引量 : 0次 | 上传用户：johnwangjohn

【摘要】

：

权值计算和特征降维是影响文本分类的精度和效率的两个重要步骤。该文首先根据特征词的类别分布差异进行特征过滤;然后,分析传统的权值公式TF-IDF的缺点,采用改进的权值计算公式简记为TF-CDF,依据TF-CDF公式计算每个特征词的权值,生成文档集的向量空间模型VSM;接着,提出了一种基于可变精度粗糙理论(VPRS)的特征选择进一步选择对分类贡献度大的特征,并用SQL实现。最后利用支持向量机LibSV

【作者】

：

吴迪张亚平殷福亮李明

【机构】

：

大连理工大学计算机系,中航一集团沈阳飞机设计研究所

【出处】

：

电子与信息学报

【发表日期】

：

2007年12期

【关键词】

：

文本分类特征过滤权值计算特征选择可变精度粗糙集 Text classification Feature filtering Weight calcula

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

适于高速高精度多级ADC的功耗-速率优值模型

该文依据多级比较原理,建立了ADC功耗-速率优值模型。基于比较器数目最优算法,推导出多级ADC最优比较器数目,并提出多级ADC功耗-速率优值参数,从而得到可实现小功耗、高转换速率的多级ADC优化结构。以10位精度ADC为例,系统级仿真结果表明:多级ADC中的三级Pipelined结构可将全FlashADC功耗降低到最小,而保持相同的转换速率;同时理论验证了以两步式结构实现多级ADC优于其他多步式结

期刊

功耗-速率优值模型模数转换器比较器低功耗Power-Conversion Rate Merit Model （PCRMM） ADC Comparator

中国陆相盆地油页岩成因类型及矿床特征

针对油页岩成因类型，国内外学者做过一些有益的探讨，但尚不存在统一的分类方案。鉴于中国油页岩以陆相成因为主，作者从油页岩的沉积环境出发，总结出从深湖－半深湖到湖沼环境，油页岩

期刊

陆相盆地油页岩沉积环境有机质来源分类成因条件

游梁式抽油机的电机调速技术

论述了游梁式抽油机电机的调速方法,重点介绍了当前电机调速的新技术--变频调速技术在游梁式抽油机上的应用;对各种调速方法的优缺点进行了分析比较,为油田现场选用游梁式抽

期刊

转速频率变频调速

模块化康复训练联合视频健康教育对胫骨平台骨折患者术后下肢功能恢复的影响

目的探究模块化康复训练联合视频健康教育对胫骨平台骨折患者术后下肢功能恢复的影响。方法选取2016年6月至2019年6月于本院接受治疗的102例胫骨平台骨折患者为受试对象，随机数字表法分为两组，各51例。对照组予以常规护理干预，观察组在其基础上实施模块化康复训练联合视频健康教育进行干预。比较两组患者术后1个月的膝关节疼痛情况[数字疼痛分级法（NRS）]及干预前、术后3个月的生活质量[Spitzer生

期刊

模块化康复训练胫骨平台骨折膝关节功能生活质量视频健康教育

吴某、黄某、廖某虚开增值税专用发票案——依法及时变更强制措施,帮助民营企业恢复生产经营

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

增值税专用发票广州市越秀区变更强制措施量刑建议

高硬脆保形红外整流罩的加工发展现状

高硬脆保形红外整流罩是一类基于高硬脆红外材料而研制的保形结构整流罩,具有优良的机械及气动性能,因此有广泛的应用前景。本文首先系统分析了空空导弹整流罩结构及其材料的

期刊

保形整流罩红外高硬脆加工

分析中药调配临方炮制对临床治疗效果的影响

目的分析中药调配临方炮制对临床治疗效果的影响。方法随机选取2015年8月至2017年1月我院收治的46例患者。采用随机数字表法均分为两组。观察组23例采用中药临方炮制方法进行

期刊

中药调配煎煮疗效临方炮制

浅析行政法的平衡

期刊

行政法平衡性平衡论

采用BICM-ID的PP-OFDM系统及后缀幅度优化

该文设计了一种用于正交频分复用(OFDM)系统的新型保护间隔信号-导频后缀(Pilot Postfix,PP),并构建了采用比特交织编码调制-迭代解码(BICM-ID)技术的PP-OFDM系统。PP由OFDM符号中的频域导频符号进行逆傅氏变换(IFFT)生成,在接收端可与OFDM符号中的导频相干合并,从而提高信道估计性能。该文给出了相应的信道估计、均衡和BICM-ID算法,并通过研究信道估值误差带

期刊

无线通信正交频分复用比特交织编码调制-迭代解码Wireless communication Orthogonal Frequency Division M

护理本科实习生前瞻适应与专业自我概念的相关性研究

[目的]探讨护理本科实习生前瞻适应与专业自我概念的关系,为护理教育者或管理者提高护生的专业自我概念提供参考意见。[方法]应用前瞻适应量表和护理专业自我概念量表对267名

期刊

护理学本科实习生前瞻适应专业自我概念相关性nursing undergraduate interns prospective adaptation

基于类别分布差异和VPRS特征选择的文本分类方法

与本文相关的学术论文