【摘 要】
:
互联网和信息技术的飞速发展所引发的信息爆炸对文本分类任务提出了新的挑战:建立分类器时所获得的样本相对于海量的未知数据非常有限,模拟样本的空间分布变得困难,这可能带
论文部分内容阅读
互联网和信息技术的飞速发展所引发的信息爆炸对文本分类任务提出了新的挑战:建立分类器时所获得的样本相对于海量的未知数据非常有限,模拟样本的空间分布变得困难,这可能带来过拟合及数据偏斜的问题。基于张量的数据表示和学习方法能减少学习模型中的未知参数,从而能够降低模型的复杂性,增强学习模型的泛化能力,缓解学习任务中小样本问题。对于不具有高阶特性的数据,构造基于张量的数据表示方法是使用张量统计学习框架的首要步骤。本文对基于张量空间模型(TSM)的文本分类问题进行了研究,主要工作如下:(1)在研究支持张量机学习机制的基础上,分析和比较了多种TSM文本表示方法,并从理论和实验两个方面解释了这些方法的局限性。(2)提出两种基于张量的文本表示方法随机映射TSM(RM_TSM)和小类随机映射TSM(SRM_TSM),实验结果表明RM_TSM和SRM_TSM在小样本数据集上的表现优于其他的TSM文本表示方法。(3)将STM引入到多类分类方法中,根据样本分布稀疏程度和偏斜程度来选择不同的TSM表示方法及其维数。实验证明该方法能有效提高分类器的分类精度。
其他文献
随着我国航空事业的快速发展,空中交通管制自动化系统广泛使用,通信已成为空中交通管制三大要素(通信、导航、监视)之一,它是自动化系统的监视数据、飞行数据和管制信息的传
本文首先针对水电产业的相关研究文献进行综述,发现国内学者在低碳背景下对水电产业系统、深层地研究很少,所以该课题有很大的理论研究价值。为此,本文本着理论与实际相结合
作为一个新兴的翻译领域,影视字幕翻译具有其自身的特点及要求。以在我国热播的几部美剧的字幕翻译为例,结合美剧字幕翻译的特点,探讨严复的"信、达、雅"标准对美剧字幕翻译
审计质量是审计工作的灵魂,直接影响内部审计的地位和作用。内部审计质量评估是内部审计机构为建立并开展内部审计质量评价与改进程序而制定、执行的政策和程序,也是近年来II
现金持有是现代企业财务管理活动过程中的重要的理论问题和实践课题,现金持有不仅与公司的日常交易和经营活动有关,还与公司的治理状况紧密相连。现金有三种定义,本文以财务
目的通过观察“冠心平”治疗冠心病心绞痛患者前后血浆NO、ET、SOD、TXB2、6-Keto-PGF1α等疗效指标和心绞痛等症状的变化,评估“益气养阴活血化痰法”对血管内皮功能的影响
国史与党史研究存在高度的契合性。当代中国史的核心内容显然是由党的历史构成的。随着当代史研究局面的逐步形成,历史的"先验性"命题开始向"当代性"命题转变。由于缺乏在政
目的:本研究报告是针对新加坡中华医院,近十年来诊治大肠癌的回顾性分析。以新加坡的热带气候、城市化的生话环境、多元饮食文化为背景,对地域性大肠癌的诊治进行中医辨治分析
我们生活的土地上,因为地域特征、气候环境、风俗习惯各不相同,导致各地区的饮食文化,用餐礼仪各不相同。而这些不同的饮食差异正体现了各个不同民族,不同地区千差万别的文化