【摘 要】
:
随着科技的发展,人们可以获得的信息量正在以几何倍数爆炸增长,这些信息大多以文本形式在网络上流传。面对这样一个信息量爆炸的时代,当务之急便是快速有效地从这些海量的数
论文部分内容阅读
随着科技的发展,人们可以获得的信息量正在以几何倍数爆炸增长,这些信息大多以文本形式在网络上流传。面对这样一个信息量爆炸的时代,当务之急便是快速有效地从这些海量的数据中捕捉到我们的目标信息。而文本分类技术作为一种有效的文本信息数据挖掘方法,其意义在于将文本依据其主题内容进行明确分类,提高用户筛选出目标信息的时效性。特征提取作为文本分类的关键环节,其主要作用是对文本的特征空间进行降维,从中选择出包含文本主题内容最为丰富的特征词,选取的特征词集合将作为确定文本类别的有效保障。传统的特征提取方法大都依据简单的数理统计思想,并且认为特征词之间是相互独立的,所以忽略了文本的结构和语义对于特征词选取的重要性,进而导致了语义因素无法在提取特征词的过程中发挥作用,从而影响文本分类的准确性。针对传统的中文文本特征词提取过程中存在的语义缺失问题,本文提出一种基于语义的中文文本特征提取方法。该方法首先将预处理后的特征词集合表示为加权语义网络结构,将特征词作为网络节点,将句子中跨度小于等于2的词语连接成边,边的权值的计算方法采用基于维基百科知识库的语义关联度计算方法;其次,为了有效提取出文本语义网络中包含文本主题信息最丰富的特征词,本文提出一种基于K-核分解的特征词中心性划分算法,该方法依据节点的中心性将文本加权语义网络划分为若干层,层级越高则表示层内节点的中心性越;最后,根据特征维数的需要,按照层级由高到底的顺序选出前n个关键词作为最终提取的特征词。最后,为了验证本文所提出的基于语义的中文文本特征提取方法的可行性和有效性,将本文提出的方法和当前应用较为广泛的特征提取方法进行对比实验,实验结果证明本文提出的特征提取方法在不同特征维数下都具有较强的稳定性,并且在查全率、查准率和F1值三个评价指标上都比传统方法有所提升,从而证明了本文提出的方法的有效性。
其他文献
随着基因测序工作的完成,生物序列分析和功能预测变得越来越重要。真核生物启动子的预测是DNA序列分析的一个重要组成部分, ncRNA在生物发育的过程中,有着不亚于蛋白质的至关重
目的 明确卵巢肿瘤患者中血浆溶血磷脂酸(LPA)水平升高与卵巢上皮性恶性肿瘤之间的关系,探讨其在卵巢上皮性恶性肿瘤诊断中的价值。同时从转录水平检测LPA受体EdgRs基因mRNA
目的分析外科手术中皮肤压疮的预防及护理方法。方法选择在本院行外科手术治疗的患者122例,随机分为观察组和对照组,各61例,观察组实施预防压疮的护理措施,对照组实施常规护
目的:探讨硫氢化钠是否通过介导ATP敏感性钾离子通道(ATP-sensitive potassium channel,KATP)抑制表皮细胞线粒体膜电位(Mitochondrial membrane potential,MMP)的降低及膜通透
新生血管生成是许多病理及生理过程中非常关键的环节。在恶性肿瘤中,无论是原发瘤生长,还是向远隔部位转移,均依赖于肿瘤细胞或宿主细胞不断释放致血管生成因子诱导新生血管的生
环烷烃是石油的重要组成成分。在以往的研究中,人们主要关注CO2与正烷烃的相行为,没有关于CO2在环烷烃、甲基环烷烃中溶解度的比较。本文利用高温高压PVT仪研究了在不同温度
近年来,航天事业飞速发展,太空探索任务与日俱增,遗留在太空中的失效航天器等空间碎片对后续在轨航天器的安全造成威胁。空间碎片多为非合作目标,由于长期处于失控状态,受太阳光压、重力梯度及残余角动量的影响逐渐失稳,最终呈现自由翻滚状态,因此需研究空间翻滚目标的主动消旋技术,为后续在轨捕获任务提供必要条件。空间自由翻滚目标大多呈现自旋和章动两种运动状态。首先建立姿态动力学模型,进而分析两种状态下的目标姿态
<正>统编初中语文教材写作部分的编写思想,体现国家学科意志、时代思考的《义务教育语文课程标准(2011年版)》要求,紧扣课文,让学生在实践中学习写作、体验写作,易于动笔、乐
前言 肺癌是发达国家的主要肿瘤,居恶性肿瘤死亡率第一位,在国内发病亦趋首位,因而引起广大学者的重视。p16基因是1994年发现的一种与多种肿瘤发生关系密切的肿瘤抑制基因(亦
现代舞作为舞蹈的一种,能够运用肢体语言来反映时代气息,追逐卓越,并需要不断创新。即兴课为一种舞蹈教学模式。将即兴课教学模式融入到现代舞教学过程中,形成新的舞蹈教学模