基于词条组合的中文文本分词方法

来源 :科学技术与工程 | 被引量 : 0次 | 上传用户:Horus_Ra
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。
其他文献
目的:分析贫困地区基层卫生人力的数量、结构等,为健康脱贫的人才队伍建设提供政策建议。方法:设计《乡镇卫生院卫生技术人员调查表》、《县级综合医院卫生技术人员调查表》,
酒店集团的空间布局是酒店集团化发展的重要影响因子。本文在分析酒店集团空间扩张与布局的产业特征基础上,指出了酒店集团空间布局的合理结构,归纳了酒店集团空间布局的三种典
这些西服该不该烧?423000湖南省郴州地区商业学校彭石普1996年1月上旬,300余套价值20多万元的质量不合格西服,被山东仙霞集团在寿光市西郊生活垃圾场,浇上油全部烧掉.此举在当地引起强烈的反响.有人
高地银多金属矿位于突泉-林西华力西、燕山期铁(锡)、铜、铅、锌、银、铌(钽)成矿带内。矿区圈定了1∶5万水系沉积物综合异常2处和地面磁测异常1处。经异常查证,化探异常重现
静态坐姿舒适性与时间之间的关系一直困扰着人机工效学家。为了研究坐姿舒适性与时间的明确关系,建立了L4-L5椎体的三维有限元模型,并对坐姿环境下的L4-L5椎体进行了计算机仿
目的观察恩替卡韦治疗失代偿期乙型肝炎肝硬化的疗效。方法治疗组30例失代偿期乙型肝炎肝硬化患者,在对照组综合治疗的基础上,口服恩替卡韦片(0.5mg/d),观察6个月时患者的临
目的观察恩替卡韦治疗失代偿期乙型肝炎肝硬化48周的疗效。方法96例失代偿期乙型肝炎肝硬化患者被随机分为治疗组48例和对照组48例,其中治疗组给予恩替卡韦治疗48周。观察治
中国网络购物C2C平台经历了迅猛的发展,但是平台的盈利模式仍在探索中。很多具有平台特征的产业在发展过程中遇到的很多问题不能用现有的经济学理论解释,在这种情况下,国内外
<正>《赤壁之战》是根据名著《三国演义》的有关情节改写而成的一篇课文。小语十册第五单元的阅读训练重点是"简要复述课文",此文被用作该单元的首篇,可见编者的用意所在。
<正>《义务教育语文课程标准(2011年版)》(以下简称《课程标准》)是这样表述语文课程性质的:语文课程是一门学习语言文字运用的综合性、实践性课程。"学习语言文字的运用"为