基于特征选择的文本分类方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:wanglaow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子邮件、微博、微信、网上购物平台等各类新型媒介逐渐深入人们的社会生活,使人们接触到更多种类、多元化的信息的同时,也面临着因信息数据太庞大而无法捕捉最需要信息的困扰。如何更有效率地组织、管理、存储这些数据,并从中准确而迅速地搜索、分析和挖掘能够满足人们需求的信息,成为当前计算机科学领域面临的一个挑战。本文在对文本分类的研究现状及相关理论技术进行研究和探讨的基础上,对目前该领域中的几个热点问题进行了深入研究。本文主要内容如下:1.为了解决文本分类中的噪音数据消除问题,提出一种并行化噪音特征消除算法。利用改进的主成分分析方法和TF-IDF方法对文本向量进行两阶段的特征筛选。并提出一种用于错误噪音特征检测和删除的并行化文本分类算法。2.为了解决基于用户需求的垃圾邮件过滤问题,在关键特征选择的基础上,构建用户兴趣集,提出一种基于主动学习和否定选择的二类邮件文本分类算法,利用用户双向兴趣集改进否定选择算法中的检测器,并利用改进后的否定选择算法提升主动学习方法中的采样引擎。并将其与参照算法在六个通用的邮件数据集上进行了对比实验。3.为了解决个性化新闻推荐中正确率低和多样性推荐效果差的问题,本文提出了一种基于双向用户兴趣集的个性化用户新闻推荐方法。使用该方法除了能够得到稳定的推荐正确率以外,还能保证较高的推荐多样性。4.针对微博文本的情感分析,提出了一种基于直推式迁移学习的微博情感分类方法。利用直推式迁移学习,将构建的情感词典SL作为源领域,将待分类的微博文本作为目标领域进行情感分类处理。实验结果表明使用所提方法具有较好的情感分类性能。
其他文献
为了保障软件的质量,对软件进行测试成为人们关注的焦点,受到越来越多人的关注。随着科学技术的不断进步,B/S架构软件得到广泛的应用,对B/S类软件进行测试,成为保障软件质量
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
建设服务型政府,推进政府职能由管理型向服务型转变已成为深化行政管理体制改革的核心,各级政府的行政效率以及服务能力,必须不断满足现实条件下经济社会高速发展的需求。当
人们的生活水平发展迅速,路桥建设的发展也越来越完善。我国当前城市化进程的推进中,为了能够方便人们的日常出行,城市工程项目的建设越来越多。道路桥梁工程的施工规模越来
为尽量减轻伽马辐射影响和危害,涉源单位通过设置控制区和监督区,能对职业人员和公众的受照剂量进行有效控制。辐射监测人员开展监测时通过合理布置监测点位,采取必要的防护手段
"新零售"不同于传统的零售模式。新零售的最终目的在于线上线下等多方资源的跨界融合,是对传统供应链的重构和物流体系的升级。新零售思维下鲜丰水果的生鲜渠道创新包括上下