论文部分内容阅读
随着计算机、传感、通信等技术的迅速发展,互联网作为全球信息资源网络,日益融入到人们的工作和生活中,文本作为信息的主要载体,也因此呈现爆炸式增长。文本挖掘旨在从丰富的文本信息中获取有用知识,已成为学术界前沿研究领域之一。文本分类技术和文本摘要技术是文本挖掘研究的重要分支,广泛用于网络监测、垃圾邮件过滤、信息检索等应用中。传统文本分类算法仅使用全标注文本样本学习分类模型,然而实际应用中标注文本真实类别的代价十分昂贵,大量文本都是未标注,或仅可标注是否为正例样本。因此,研究仅采用正例与未标注文本进行学习的文本分类算法有着重要的意义。文本摘要技术对大量的文本快速地压缩、提炼,生成文章的主旨,帮助人们快速获取信息,其中句子排序在文档摘要句子提取中起着关键作用。本文围绕正例与未标注文本分类问题展开研究,同时对文档摘要中句子排序技术进行了探索。主要工作如下:(1)针对现有两阶段策略对正例与未标注文本学习时,第一阶段从未标注样本抽取可靠负例数量较少,质量较低的问题,提出基于概率密度估计的正例和未标注学习方法。利用正例和负例文档共享尽可能少的特征项这一特点,充分利用未标注文本的信息,基于概率密度估计,尽可能多地从未标注文本中抽取可靠正例和可靠负例,为验证该算法的有效性,以抽取的可靠负例文本,以及已有的标注的正例文本作为训练集,构造分类器。在真实数据集上Reuters-21578和20-Newsgroups的实验结果表明,本文提出的算法可以有效提取可靠负例,在第二步中构建的分类器性能稳定,在多数情况下分类性能优于现有的两阶段算法,甚至于当标注的正例很少的情况下都具有良好的分类性能。(2)基于统计学习模型的正例与未标注贝叶斯文本分类算法需要人为提供正例先验概率或者基于“完全样本随机选择”假设,对正例先验概率进行估计,这些做法都不符合实际应用,针对此问题,提出基于最大期望估计(EM)的正例和未标注贝叶斯分类算法。该算法将每一个样本的产生建模为一个随机过程,并用EM算法估计参数的极大似然估计值,然后利用所获参数值构造分类器,进而对未标注样本进行分类。该算法不需要用户给定正例的先验概率或基于“完全随机选择”假设模型进行参数估计。在Reuters-21578以及20-Newsgroups语料库上实验结果显示,本研究提出的算法性能优于现有的PNB算法。(3)研究了针对网络式文本的正例和未标注文本分类算法。处理网络式文本需要同时考虑单个文本的内部特征以及多个文本间的联系特征。现有的正例和未标注文本分类算法在标注文本数目较大的数据集上性能表现良好,但是当已标注的文本数量较小时性能较差。针对该问题,提出基于非负矩阵分解的正例和未标注网络式文本学习算法,对样本的实例-特征矩阵以及网络拓扑矩阵进行分解,同时将监督式信息通过一致性约束加入到目标函数的优化中。本研究主要对标注文本极其稀少的网络式文本进行正例和未标注学习。在基准网络式数据集Cora、CiteSeer、PubMed等5个数据集上的实验结果表明本文提出的算法能够提升分类性能。(4)研究了多文档自动摘要技术。多文档自动摘要的目的是产生一个简明的包含一组源文件主要信息的摘要。句子排序是多文档自动摘要中最重要的问题。针对现有排序算法对句子进行排序时仅考虑句子内部特征,忽略句子外部联系特征的问题,提出一种基于图的排序方法,在对句子排序中考虑句子-句子,句子-词语,词语-词语间的联系特征信息。在DUC和TAC数据集上的实验结果表明该方法的有效性。