面向文本特征选择的去冗余相对判别准则

来源 :山西大学学报(自然科学版) | 被引量 : 0次 | 上传用户:yinmeng6112501
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本作为一种重要信息载体,对之提取的特征有着直观的含义,但其数量太多.因而,选取合适的特征子集对后续任务至关重要.作为基于文档频率的文本特征选择方法,相对判别准则只关注了特征与类别的相关性,并以此来进行特征选择.为了去除冗余特征,文章在相对判别准则的基础上提出了去冗余相对判别准则.去冗余相对判别准则引入了可计算的文本分布式表示,以此来计算冗余,并结合相对判别准则来进行特征选择.文章在Reuters21578数据集上进行了实验,与先进文本特征选择方法进行了对比.实验结果表明:去冗余相对判别准则在分类准确度指标上有一定提升,尤其在选择特征维度较大的情况下能有效地避免冗余,具有显著的去冗余能力.
其他文献
文章利用自适应有限元与自然边界元耦合法求解界面传输问题,给出原问题的变分形式和离散变分形式,并给出h-h/2后验误差估计和基于残差的后验误差估计,用数值算例验证了算法的有效性.
章鱼胺(OA)是无脊椎动物中一种非常重要的生物单体胺,作为神经递质与其受体结合共同参与调节昆虫的嗅觉、产卵、运动、学习、记忆和免疫反应等多种生理功能.为了探究叉角厉蝽章鱼胺受体功能,为捕食性天敌昆虫叉角厉蝽应对逆境胁迫响应机制的研究提供参考,利用转录组测序结果和RACE技术获得2个OctβRs基因,在对其序列特征进行生物信息学分析之后,通过RT-qPCR技术分析2个OctβRs基因的发育模式以及在亚致死剂量的高效氯氟氢菊酯和毒死蜱处理后的表达变化.结果表明扩增得到EfOctβ1R和EfOctβ2R的基因开
为了筛选出长茎葡萄蕨藻中稳定表达的内参基因用于实时荧光定量PCR的分析,以不同胁迫条件下长茎葡萄蕨藻的匍匐茎和直立枝为材料,使用比较Ct值法、BestKeeper、geNorm、NormFinder软件综合比较了常用的5个候选内参基因的稳定性,并对筛选出的内参基因进行了验证.不同内参基因在长茎葡萄蕨藻中的表达稳定性差异较大,ClACT和ClGAPDH在长茎葡萄蕨藻不同组织、不同胁迫条件下的表达稳定性均较好,而ClTUB表达稳定性则较差.在使用RT-qPCR对胁迫条件下长茎葡萄蕨藻进行基因表达分析时,采用C
篇章关系识别旨在分析篇章单元之间的逻辑关系.相较于微观层面,由于缺少明显关系连接词和更大的篇章单元粒度,宏观篇章关系识别更加困难.对此,文章提出一种将篇章单元语义信息建模和主题信息建模相结合的方法,能够压缩篇章单元的表示,更好发掘篇章单元之间隐含的语义关系.在基于中文宏观篇章树库(MCDTB)语料的实验中,有效识别了样例较少的篇章关系类别,并从整体上提高了篇章关系识别的性能.
超声波处理强化木质纤维素生物质酶解过程,可提高酶解速率和可发酵糖以及生物乙醇产量.综述了木质纤维素酶解过程和限制酶解的因素,以及超声波强化在酶-底物预处理、糖化、同步糖化发酵工艺、产酶过程中的应用进展.超声波以多种方式促进木质纤维素的生物转化,对酶促反应提供明显的强化效果.对超声波强化酶解的机理进行了分析,超声波促进非均相系统的扩散和传质,同时增大酶/底物的亲和力、提高酶/底物复合物转化为产物的速度,酶分子构象发生柔性变化,易于定位于底物,破坏酶分子聚集体,使得酶活性位点更易于进行反应;增加纤维素底物的可
毛囊是一种具有独特结构的、呈周期性生长的微型器官,其形态发生始于胚胎期,由表皮上皮、间质真皮及特殊衍生物经过一系列相互作用诱导形成.出生后个体的毛囊开始进行周期性循环,包括生长期、退行期和休止期.单细胞转录组测序(single-cell RNA sequence,scRNA-seq)是一种新的测序方法,通过制备单细胞悬液或细胞群,利用二代测序(next generation sequencing)来识别单个细胞的基因表达信息,主要用于分析细胞间遗传和基因表达水平的差异,更好地了解单个细胞在微环境中的具体作
竞赛图是无向完全图的定向图.称有向图D中的弧uv是泛圈的,如果对每个3≤k≤|V(D)|,它都包含在一个长为k的圈中.弧uv的旁路是一条从u到v的有向路.称有向图D中的弧uv是反向泛圈的,如果对每个2≤k≤|V(D)|-1,它都有一条长为k的旁路.Moon证明了每个强连通的竞赛图存在至少三条泛圈弧.文章在此基础上进一步研究了竞赛图中的反向泛圈弧的存在性,证明了顶点数n≥6的竞赛图至少包含一条反向泛圈弧,并刻画出至少存在一条反向泛圈弧的竞赛图.
在许多情况下,在进行非刚体点匹配过程中,得到的对应关系并非一一对应,如果此时进行空间变换,往往不能够得到点匹配的全局最优解。文章利用在对应矩阵上加适当的随机扰动的方法,使得非刚体点匹配可以避免陷入局部最小值点,从而可以得到最佳的匹配结果。数据仿真实验表明,和传统方法相比,此方法可使配准误差减小到原来的0.55倍左右,可有效地提高非刚体点匹配的配准精度。
随着海量数据的增长,为了减少本地的存储负担,越来越多的用户选择将数据上传至云存储.但云是半可信的权威机构,云上需加密存储才能保证数据的隐私安全.属性基加密适用于实现云下数据的细粒度共享和隐私保护,但现有属性基加密方案中用户的密钥完全由半可信的权威机构生成,导致方案中存在密钥托管问题.为了解决密钥托管问题,文章引入完全同态加密,通过云和权威机构交互生成用户的密钥.为了防止权威机构和云合谋伪造用户密钥,方案中引入用户签名,实现对恶意用户和半可信的权威机构同时进行追踪,有效解决了密钥的滥用问题以及实现数据的隐私
现有基于语义编码的问句复述识别技术往往遭受高迷惑性浅层语义信息的干扰,使得判别过程落入伪真的语义“陷阱”.针对这一问题,文章提出一种简易的“自否定”机制,并将其与BERT(Bidirectional Encoder Repre-sentations from Transformers)相结合,形成双通道的互斥信息编码模型,并利用QQP(Quora Question Pairs)语料集和PAWS语料集对所提模型进行测试.实验结果显示,在未利用外部数据、迁移学习和集成学习的条件下,所提模型取得了极富竞争力的性