基于词语热度的启发式中文句子压缩

被引量 : 0次 | 上传用户:gzhp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前文本压缩是一门很有前景的技术,句子压缩又是文本压缩的核心部分,因此研究句子压缩是很有意义的。句子压缩技术在保留句中主题信息的基础上缩短句子的长度,便于读者获取其中最重要信息。现有句子压缩方法分为两类:基于规则的方法和基于统计的方法。然而已有的基于规则的方法大多只适用于英文句子的压缩,不能移植到中文句子压缩中;基于统计的方法又依赖于“原句-压缩句”的对齐语料库,中文的对齐语料库难以获得,也增大了研究的难度。本文通过研究人工压缩结果并结合语言学知识,提出了一个基于语言学的启发式规则算法,在该算法中将规则分为两组,词语层面的压缩规则和分句层面的压缩规则,每组规则再按照删除相关成分在句子中的影响从小到大排序。通过两组压缩规则修剪句法分析树中的次要成分,最终获得保留了句子重要信息的压缩句。为了满足用户获取最新最热信息的需求,提出了基于热度的压缩方法,用以提高句子的热度。基于热度的压缩方法在使用启发式规则的基础上,将词语热值加入到词语重要性的计算中,从而提高热词在句子中的重要程度。本文通过对规则赋予不同的权重来寻求最佳的压缩结果,并提出了使用模拟退火算法求得最佳权重的方法。实验结果表明,基于语言学的启发式规则算法与现有的基于规则算法相比,具有更好的压缩效果。基于热度的启发式中文句子压缩算法不仅提高压缩句的热度,也提高了整体算法的准确性。通过使用模拟退火算法求得每个规则对应的权重,在这组权重下对句子进行压缩,压缩效果更好。
其他文献
出口贸易与产业集聚的关系一直是研究的热点,不同研究视角得出的结论不尽相同。本文以我国东部沿海、长江黄河中游和大西北三大区域为例,基于2004-2011年制造业数据,研究制造
<正> 1.引言1.1 一个学习者在习得第二语言时所经历的是怎样一个过程?这个过程受到哪些因素的影响?这是第二语言习得研究工作者想要回答而还未能回答、第二语言教师企图明白
随着深化改革的推进,在速裁程序试点结束之际,我国在包括4个直辖市在内的18个地区开始了认罪认罚从宽制度的试点工作。依据对《试点办法》的理解,该制度以被追诉人自愿如实供述自己罪行、对指控的犯罪事实没有异议,并且同意检察机关的量刑建议为条件,签署具结书为程序,产生可以对其从宽处理的后果。作为贯彻宽严相济的刑事政策下我国目前在实体和程序上存在的所有从宽处理情况的上位概念,认罪认罚从宽制度受到了理论界和实
关于“问题学生”的教育转化问题,一直困扰着无数的教育管理工作者。以多元智能理论为视角,寻求对“问题学生”的教育管理对策,需要教育者转变教育观念、转换教育方式、优化教学
对外汉语教学中,词汇教学贯穿始终,起着承上启下的重要作用,然而多年来我们却一直没有找到一条高效、科学的词汇教学途径。本文提出并阐释了对外汉语词汇教学的两个原则:区分
<正>什么样的音乐课算是一节优质课?优质课的标准又是什么?就这个问题我做过多次调查,结果是众说纷纭,仁者见仁,智者见智,每个人都有每个人的评价标准,每个人都有每个人的评
<正> 1.“文化”进入对外汉语语言教学课堂除了为增加留学生有关中国传统文化知识而开设的文化课外,要不要在语言教学中发掘隐藏在语言背后的文化因素,并传
<正>我得高血压病很多年了,也经常去医院抓中药吃,其中一个方子,效果很好,印象深刻,即夏枯草、豨莶草、石决明各30克,益母草10克,决明子25克。每日1剂,水煎分2次服。听中医师
目的分析心脏支架植入患者的用药情况,为临床用药提供参考。方法以2008年心脏内科支架植入患者住院病历中长期医嘱、临时医嘱为依据,以用药频度排序、用药金额排序法进行统计
阻抗匹配是无线电技术中常见的一种工作状态,它反映了输入电路与输出电路之间的功率传输关系。阻抗匹配是功率放大器的核心技术。本文以射频激励CO2 激光器电源为例,根据传输