概率主题模型在文本分类中的应用研究

被引量 : 0次 | 上传用户:nmgbmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据偏斜和噪声数据是文本自动分类应用中经常遇到的问题。在数据偏斜的情况下,样本无法准确反映整个空间的数据分布,分类器容易受到大类的影响而忽略小类。大多数分类算法都是面向均匀分布数据提出的,对于数据偏斜的情况,仅利用传统的分类方法并不能取得理想的效果。另一方面,分类器的质量很大程度上取决于训练文本集的质量。一般说来,训练文本集类别越准确、内容越全面,得到的分类器质量就越高。但是在实际应用中,这种全面准确的训练文本集是很难得到的,尤其是在数据规模很大的情况下,更是如此。在真实的文本分类应用中,训练数据一般都不可避免的含有噪声,这些噪声样本将对最终的分类结果产生重要影响。我们结合LDA(Latent Dirichlet Allocation)概率主题模型,针对上述两种情况,提出了基于概率主题模型的数据偏斜分类方法和噪声处理方法。利用LDA概率主题模型潜在的全局语义信息,人工生成新的训练文本,能够取得比传统方法更好的效果。本文的主要工作和特色如下:首先,提出了一种基于LDA概率主题模型的文本生成方法。首先采用Gibbs抽样算法从训练文本集中抽取LDA模型,然后利用LDA模型的生成过程思想构造属于训练文本集的新文本。实验表明,生成的新文本与原来的训练文本集有较高的相似性,同时也不存在过度拟合现象。其次,针对文本分类中的数据偏斜现象,结合LDA概率主题模型,提出了一种新的数据偏斜文本分类方法DECOM。该方法不但解决了传统过采样方法不可避免的过度拟合问题,还在一定程度上扩大了稀有类别在文本空间上的范围。在多个数据集上面的实验结果表明,DECOM方法比其他数据偏斜处理方法更适用于文本分类问题。最后,提出了一种利用LDA概率主题模型处理噪声的文本分类方法。根据类别熵对噪声样本进行过滤,然后利用主题模型的生成过程进行数据平滑,进一步减弱噪声样本的影响,同时保持了训练集的原有规模。在真实数据上的实验表明,该方法对噪声样本的分布具有较好的鲁棒性,在噪声比例较大的情况下仍然能够提供较好的分类结果。通过详细的理论分析和实验验证表明,概率主题模型的引入能够很好的提取并利用文档集合中包含的语义信息,使得文本分类方法在复杂应用中获得更好的效果。
其他文献
新时期的医院装修设计必须体现以人为本的设计服务理念,只有以病患为中心的服务思想才能够赢得人们的普遍认可和赞誉。本文主要探讨新时期医院装修设计过程中应秉持的一些核
现代设计的伦理性对于现代设计来说并不是一个陌生的名词,设计的伦理性已逐渐深化到设计的领域内,逐步实现设计的各个方面的人性化设计,即设计要增加更多的人文关怀。公共领
基于人本主义视角调查信阳市百花园广场,运用灰色关联度分析城市广场活力评价.研究结果表明:广场活力具有阶段性与复杂性,不同时间的广场活动居民具有不同的特征.
随着中资四大资产管理公司完成历史使命而面临转型,中国不良资产市场由其一统天下的局面即将结束,外资投行的优势在逐渐显现。似乎中国的不良资产处置市场也有被外资全面主导
研究背景与目的:特发性肺纤维化(IPF)是特发性间质性肺疾病最常见的类型,其预后差,生存中位时间仅为3至4年。虽然目前对IPF的发病机制有一定的认识,但对其可能的病因及确切的
随着科学技术的进步,特别是近年来红外发光器件和红外探测技术获得了长足的发展,高效、低电压、体积小的器件不断出现,为红外传感技术的研制创造了条件。特别是红外气体传感
目的:比较宫颈上皮内瘤变(CIN)组织标本中人乳头瘤病毒(HPV)感染的基因型分布情况及其临床意义。方法:采用聚合酶链式反应和基因芯片检测技术对20例宫颈正常组织、145例宫颈C
我们生活在一个信息时代,信息的快速流通给人们带来了经济繁荣、生活便捷,与此同时也带来许多问题。作为对公民个体影响最大的信息,公民个人信息被滥用的现象颇为严重。我国
中小企业是我国国民经济的重要组成部分,改革开放后中小企业迅速发展,在我国国民经济中已经具有不可替代的地位。在增加税收、技术创新、吸纳就业、体制转轨、扩大出口等方面
目的:了解福州地区乳母产褥期生活方式、膳食结构及其之间的关系。方法:选取长期(≥1年)生活于福州且符合条件的健康乳母进行乳母生活方式、营养和健康状况调查。结果:共完成