论文部分内容阅读
随着电子邮件、微博、微信、网上购物平台等各类新型媒介逐渐深入人们的社会生活,使人们接触到更多种类、多元化的信息的同时,也面临着因信息数据太庞大而无法捕捉最需要信息的困扰。如何更有效率地组织、管理、存储这些数据,并从中准确而迅速地搜索、分析和挖掘能够满足人们需求的信息,成为当前计算机科学领域面临的一个挑战。本文在对文本分类的研究现状及相关理论技术进行研究和探讨的基础上,对目前该领域中的几个热点问题进行了深入研究。本文主要内容如下:1.为了解决文本分类中的噪音数据消除问题,提出一种并行化噪音特征消除算法。利用改进的主成分分析方法和TF-IDF方法对文本向量进行两阶段的特征筛选。并提出一种用于错误噪音特征检测和删除的并行化文本分类算法。2.为了解决基于用户需求的垃圾邮件过滤问题,在关键特征选择的基础上,构建用户兴趣集,提出一种基于主动学习和否定选择的二类邮件文本分类算法,利用用户双向兴趣集改进否定选择算法中的检测器,并利用改进后的否定选择算法提升主动学习方法中的采样引擎。并将其与参照算法在六个通用的邮件数据集上进行了对比实验。3.为了解决个性化新闻推荐中正确率低和多样性推荐效果差的问题,本文提出了一种基于双向用户兴趣集的个性化用户新闻推荐方法。使用该方法除了能够得到稳定的推荐正确率以外,还能保证较高的推荐多样性。4.针对微博文本的情感分析,提出了一种基于直推式迁移学习的微博情感分类方法。利用直推式迁移学习,将构建的情感词典SL作为源领域,将待分类的微博文本作为目标领域进行情感分类处理。实验结果表明使用所提方法具有较好的情感分类性能。