文本分类关键技术及应用研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:laijacky1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以互联网技术的发展为基础,电子文本信息的数量日益增加。如果仅凭人工方法组织和管理这些文本数据,不仅需要消耗大量的人力和时间,而且也很难实现,因此,文本分类作为处理文本数据的关键技术就显得尤其重要,它是文本信息挖掘的基本功能,也成为了处理和组织文本数据的核心技术,得到了学者们的广泛关注,也具有非常广阔的应用前景。目前为止,文本分类技术被广泛应用于信息过滤、邮件分类、搜索引擎、查询意图预测、主题跟踪、文本语料库构建等多个领域,可以方便用户快速定位所需信息,解决杂乱数据的分类问题。文本分类技术与人们的工作、生活越来越密切相关,人们对文本处理系统的智能化和个性化要求也越来越高。如何在提高文本分类方法精度的同时,满足更高的个性化需求,是文本分类方法所要面临的新的挑战。本文对文本分类的基础理论知识和相关技术进行了研究,分析了目前文本分类研究中存在的热点问题,从提高分类方法的快速性、准确性和个性化角度出发,首先提出一种特征选择方法,实现特征空间降维;然后利用分析和挖掘到的用户兴趣信息,针对文本分类的几个有代表性的应用领域,分别提出了一种垃圾邮件分类方法、一种用户性别分类方法和一种网络用户查询意图识别方法。本文的研究内容和创新工作主要包括以下四点:1.一种基于随机游走和蜂群算法的特征选择方法本文提出了一种基于随机游走的特征选择方法,能够在不牺牲分类器性能的前提下,有效减少特征空间的维度。由于传统的特征选择方法总是包含一些冗余信息,而分类器却难以处理较大的特征维度,因此需要将噪声、不相关的和冗余的信息从原始特征空间中过滤掉。该方法首先利用一种最优的特征选择方法(OPFS)从训练集中选择特征。其次,结合随机游走算法和预先定义好的阈值,将冗余的特征过滤掉。在寻找最优阈值的过程中,为了优化参数,采用了改进的人工蜂群算法(IMABC)。最后,在四个经典的文本分类数据集上进行了实验,分别是:mini news group,20-Newsgroups,Reuters-21578和Web KB。实验结果表明,与六种经典的特征选择方法相比,本文方法取得了较好的效果。通过计算F1值,可以看出本文方法在保证了分类精度的同时,可以很大程度上减少向量空间的维度。2.一种基于主动学习和增量学习的垃圾邮件分类方法为了更好地满足用户的个性化需求,以文本分类中一种典型的二元分类问题—垃圾邮件分类为研究对象,引入了基于词频的用户兴趣集的概念,可以在不牺牲垃圾邮件识别精度的情况下,达到有效提高垃圾邮件识别速度,且保证垃圾邮件过滤时的个性化需求的目的。首先,通过联合使用基于词频的用户兴趣集和朴素贝叶斯分类器处理垃圾邮件分类问题;其次,提出了一种基于边界密度的垃圾邮件分类确定性评价方法,将最不确定的邮件选择出来,并推荐给用户进行标注,该方法应用了主动学习的基本原理;最后,基于增量学习理论,将被用户标注过的邮件以及具有最大可能性被正确分类的邮件,用于分类器的再训练。在垃圾邮件分类领域的两个通用数据集Trec 2007和Enron-spam上进行了对比实验,实验结果表明,与六种经典的基于主动学习和增量学习的方法相比,本文方法在保证了分类系统准确性的情况下,减少了垃圾邮件分类的时间开销;此外,由于采用的主动学习方法与传统主动学习方法相比,需要用户进行标注的样本更少,因而降低了用户标注的负担。3.一种基于聚类的文本作者性别分类方法为了解决文本分类领域中有标记的训练样本获取困难,人工标注负担较大的问题,提出了一种基于聚类的文本作者性别分类方法。首先,采用聚类技术对未标注样本集进行聚类,并结合不同聚类半径信息,提出聚类确定性判定因子,选择边界区域特定样本实施专家标注以构建训练样本集并改善样本集质量;其次,结合使用了文档结构特征、文档内容特征和男女作者兴趣特征进行样本表示;最后,使用序列最小优化算法从训练样本中学习到分类器,以实现新样本的分类。多种对比实验表明,一方面,使用聚类方法构建训练集,减少了人工标注负担,而聚类确定性判定因子的使用解决了边界样本类别不确定的问题;另一方面,算法结合了文档结构特征、文档内容特征和男女兴趣特征作为特征,对于提升算法分类精度有着一定的意义。4.一种基于用户兴趣的查询意图识别方法网络用户查询意图识别问题是Web文本分类的一个重要应用。我们在研究了文本分类问题基础理论和应用领域的基础上,将文本分类技术应用于Web文本分类领域中,本文提出了一种基于用户兴趣的查询意图分类方法,通过挖掘出用户的兴趣习惯,可以更好的识别用户的查询意图,实现个性化、智能化的检索。首先,结合ODP开放目录定义了初始主题类别集合,用作预先确定的用户兴趣类别集;其次,通过对用户浏览日志中的网页分类,计算用户在兴趣类别上的兴趣度,以构建用户兴趣模型;与此同时,对于给定的查询,通过聚类方法获得该查询的全部子意图;最后,利用获得的用户兴趣模型和查询的子意图,识别出最符合用户需求的查询意图。实验结果表明,用户兴趣模型可以较好的识别用户感兴趣的领域,并能区分出用户针对不同兴趣类别的喜好程度;而结合了用户兴趣的查询意图识别算法识别精度较高,且更具有个性化。
其他文献
鞣质特别是药用植物中鞣质,日本的奥田拓男教授及其他研究者30年前开始着手进行研究,至今已分得数百种鞣质。特别是2000年以来,随着提取分离手段和波谱技术的不断提高,国内外
作为一种生物特征,人脸具有可随身携带、不会丢失、不易被盗取等优点,而且人脸图像采集方式友好、无需配合甚至具有隐蔽性。基于人脸的身份识别将成为未来身份认证和识别的主
“行业新闻社会化”——这恐怕是最能激发行业或企业新闻工作者们议论的主题之一了。不仅仅因为它意味着我们对行业新闻事业历史的反思,还因为它同时触动着行业新闻事业前途
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield