文本挖掘中若干关键技术研究

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:ggfjkjtyr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机、传感、通信等技术的迅速发展,互联网作为全球信息资源网络,日益融入到人们的工作和生活中,文本作为信息的主要载体,也因此呈现爆炸式增长。文本挖掘旨在从丰富的文本信息中获取有用知识,已成为学术界前沿研究领域之一。文本分类技术和文本摘要技术是文本挖掘研究的重要分支,广泛用于网络监测、垃圾邮件过滤、信息检索等应用中。传统文本分类算法仅使用全标注文本样本学习分类模型,然而实际应用中标注文本真实类别的代价十分昂贵,大量文本都是未标注,或仅可标注是否为正例样本。因此,研究仅采用正例与未标注文本进行学习的文本分类算法有着重要的意义。文本摘要技术对大量的文本快速地压缩、提炼,生成文章的主旨,帮助人们快速获取信息,其中句子排序在文档摘要句子提取中起着关键作用。本文围绕正例与未标注文本分类问题展开研究,同时对文档摘要中句子排序技术进行了探索。主要工作如下:(1)针对现有两阶段策略对正例与未标注文本学习时,第一阶段从未标注样本抽取可靠负例数量较少,质量较低的问题,提出基于概率密度估计的正例和未标注学习方法。利用正例和负例文档共享尽可能少的特征项这一特点,充分利用未标注文本的信息,基于概率密度估计,尽可能多地从未标注文本中抽取可靠正例和可靠负例,为验证该算法的有效性,以抽取的可靠负例文本,以及已有的标注的正例文本作为训练集,构造分类器。在真实数据集上Reuters-21578和20-Newsgroups的实验结果表明,本文提出的算法可以有效提取可靠负例,在第二步中构建的分类器性能稳定,在多数情况下分类性能优于现有的两阶段算法,甚至于当标注的正例很少的情况下都具有良好的分类性能。(2)基于统计学习模型的正例与未标注贝叶斯文本分类算法需要人为提供正例先验概率或者基于“完全样本随机选择”假设,对正例先验概率进行估计,这些做法都不符合实际应用,针对此问题,提出基于最大期望估计(EM)的正例和未标注贝叶斯分类算法。该算法将每一个样本的产生建模为一个随机过程,并用EM算法估计参数的极大似然估计值,然后利用所获参数值构造分类器,进而对未标注样本进行分类。该算法不需要用户给定正例的先验概率或基于“完全随机选择”假设模型进行参数估计。在Reuters-21578以及20-Newsgroups语料库上实验结果显示,本研究提出的算法性能优于现有的PNB算法。(3)研究了针对网络式文本的正例和未标注文本分类算法。处理网络式文本需要同时考虑单个文本的内部特征以及多个文本间的联系特征。现有的正例和未标注文本分类算法在标注文本数目较大的数据集上性能表现良好,但是当已标注的文本数量较小时性能较差。针对该问题,提出基于非负矩阵分解的正例和未标注网络式文本学习算法,对样本的实例-特征矩阵以及网络拓扑矩阵进行分解,同时将监督式信息通过一致性约束加入到目标函数的优化中。本研究主要对标注文本极其稀少的网络式文本进行正例和未标注学习。在基准网络式数据集Cora、CiteSeer、PubMed等5个数据集上的实验结果表明本文提出的算法能够提升分类性能。(4)研究了多文档自动摘要技术。多文档自动摘要的目的是产生一个简明的包含一组源文件主要信息的摘要。句子排序是多文档自动摘要中最重要的问题。针对现有排序算法对句子进行排序时仅考虑句子内部特征,忽略句子外部联系特征的问题,提出一种基于图的排序方法,在对句子排序中考虑句子-句子,句子-词语,词语-词语间的联系特征信息。在DUC和TAC数据集上的实验结果表明该方法的有效性。
其他文献
随着当代高速发展的经济社会.城市建筑作为城市文化发展的重要载体,亦成为城市化程度的重要标志。城市建筑集美化功能和使用功能于一体.优秀的建筑可以使得城市整体形象得到提升
随着西部基础建设的全面展开,中国第一条沙漠高速-榆(林)靖(边)路已于2000年6月开工。为适应沙漠地区地理条件的需要,三明重型机器有限公司借鉴国际先进技术,新近开发成功了YZ18-Ⅱ全液压振动压
在实施专家咨询制度的过程中,医疗纠纷调解委员会应履行契约,从代替患方提出诉求、公正对待低索赔问题、保障医患方对专家咨询结果的知情权等方面保护患方的合法权益。
国际医疗旅游是全球医疗资源配置的一种重要方式。本文系统梳理了国内外相关研究情况,总结出影响国际医疗旅游的医疗服务因素和非医疗服务因素,由此再分析了国际医疗旅游的医
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield