面向领域的文本分类与挖掘关键技术研究

被引量 : 11次 | 上传用户:zzyu888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大量文本以电子形式存在,人们需要对大量的文本信息资源进行有效的组织和管理,因此文本分类引起人们的高度重视。近年来,关于文本分类技术的研究取得了很大进展,并被应用于众多领域。本文深入研究了文本分类与挖掘中的一些关键技术,同时在对政府公文分类、文本观点极性分析以及专利挖掘任务进行深入分析的基础上,将文本分类与挖掘技术应用到上述领域,提出了相应的解决方案,并通过大量实验证明了这些方案的有效性。主要工作包括:(1)特征独立性假设在文本处理领域被普遍应用,它虽然能大大简化文本计算,但与实际情况不符。本文首次将独立分量分析技术应用到文本处理领域,进行面向文本分类的独立特征抽取,并对其中遇到的由于数据稀疏和维数过高造成的收敛速度慢,稳定性差的问题进行了解决;将独立分量分析技术与传统的特征选取方法相结合,在通用数据集上进行了文本分类实验,实验结果验证了这种技术的优越性。(2)政府公文均带有主题词,而主题词携带了大量的类别信息。如何利用这些信息帮助文本分类?首先本文针对主题词不足的问题,根据Bootstrapping学习框架构建了一个主题词相关词的自动获取模型—KWB模型,用于对政府公文主题词集合的扩展;然后运用随机关键词产生技术,将公文文本表示成主题词空间的条件概率,这样也同时实现了文本特征空间的降维;将KWB模型与随机关键词产生技术相结合进行了公文文本分类实验,结果证明该方法能充分利用主题词的类别信息,提高分类性能。(3)针对主观句子判别正确率不高的问题,应用文本分类技术,提出了三类训练、两类判别的分类框架。并在公开语料MPQA上进行了实验,结果证明在语料中间接主观句子极少的情况下,该框架也能有效提高主观句子判别的准确率。针对训练语料不足以及对实体多方面的观点极性分析的需要,提出了一种基于弱指导学习的分析技术,实现句子级的实体方面特征识别和实体多方面观点的极性分析。实验证明该方法取得了较好的准确率。(4)通过深入分析NTCIR-7中专利挖掘任务的训练数据及任务难点,提出kNN分类框架是完成此任务的很好选择;针对训练数据分布极端不均衡的问题,提出在Ranking决策时加惩罚因子的方法解决该问题;研究了多种相似度计算方法,并在此基础上提出、改进了多种Ranking决策方法:如带有大类惩罚因子的Weak方法、NVote方法等。为了提高系统性能,应用机器学习中的Log-linear和Rank-SVM模型提出了基于系统融合的结果链表二次调序方法。该方法使系统性能得到了很大提升,在NTCIR-7的评测中取得了第一名的好成绩。总之,本文面向一些特殊领域,对文本分类中的特征抽取、分类器组合、小样本问题以及样本不均衡等关键技术进行了深入的理论分析和大量的实验验证,提出了一系列的解决方案,并以实验结果证明了这些方案的有效性。这些算法和模型对今后研究文本分类以及其它文本处理问题将有很大的参考价值和借鉴作用。
其他文献
本文基于VAR模型对我国房屋销售价格指数(HP)、国内生产总值(GDP)增长率、广义货币供应量(M2)增长率、居民消费价格指数(CPI)和生产者物价指数(PPI)之间的波动规律进行实证分
<正> 山苍子又名山鸡椒〔Litsea Cubeba(Lour)Pers〕,为樟科木姜子属植物。山苍子挥发油(以下称精油)具有祛风散寒、理气止痛、健胃消食等功效。临床用精油治疗慢性支气管炎,
随着全球化程度的加深和科技的发展,环境损害事件的后果或所涉及的当事人都不再局限于一国。解决环境问题最理想的方法当然是事前预防,然而,预防手段并不能彻底杜绝环境损害
基于战后迅速提升的经济实力,日本以七国集团(G7)为核心平台参与全球经济治理。对于二十国集团(G20)这一新机制,日本在不同阶段表现出不同的态度。2008年全球金融危机爆发以
针对基于后缀WM匹配算法中的字符重复匹配问题,给出了相应的改进算法。该算法针对扫描阶段确定的与模式串前缀、后缀和前m个字符的后缀都相同的文本串字符块,在匹配阶段跳过文
为探究水力裂缝在页岩表面起裂及扩展特征,以四川省龙马溪组露头页岩为研究对象,开展岩体表面裂缝起裂扩展数字散斑观测试验,通过分析水力压裂裂缝扩展时页岩表面位移场和应
通过光学显微镜、扫描电镜(SEM)、拉伸试验机、高频疲劳试验机、电阻率测试仪以及红外热像仪研究了电脉冲处理后TC11钛合金显微组织及力学性能的变化。结果表明,由于电脉冲瞬
目的:了解儿童肺炎链球菌(SPN)对临床常用抗菌药物的耐药情况,为抗菌药物合理使用提供参考。方法:对2013年10月至2015年5月我院儿科病房分离的74株肺炎链球菌进行抗菌药物敏
<正> 远缘杂交是植物遗传育种研究的重要内容之一,它不仅涉及物种起源与植物进化的基础理论问题,而且具有人工合成新种,新类型的重要实践价值,因此倍受重视。对于这方面的研
目的探讨X射线相衬CT(PCCT)对人体胆道闭锁(BA)样品中脉管显微结构的显示作用。方法将4份人体BA样品进行冲洗、固定并以乙醇脱水干燥,采用上海同步辐射光源BL13W1线站进行PCC