特定领域的自动摘要生成策略

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:xiaodaoluan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动摘要是文本挖掘的一个传统研究领域。本文设计了两种面向不同领域的自动摘要生成策略,分别为面向移动终端的移动摘要技术和面向观点挖掘的观点摘要技术;而观点摘要又分为基于观点持有者的观点摘要技术和基于属性的观点摘要技术。面向移动终端的自动摘要技术,对摘要本身提出了更严格的字数要求。本文设计了一种基于改进编辑距离的移动摘要技术,提取网页中的最大重复串作为文档的关键词集合,利用改进编辑距离生成适于在移动终端上显示的摘要。对于含有子标题的文档,采用层次型的摘要结构,以提高摘要的覆盖率。以观点持有者为核心的观点摘要技术旨在更好地组织观点信息,从不同的观点表达者角度对评论目标进行分析。本文通过建立ChunkCRF模型对观点表达句进行观点持有者的识别;对于同一个观点句中含有多个观点持有者的情况,借助语言学手段进行预处理,再利用此模型进行观点持有者识别。在此基础上,本文进行了基于观点持有者的观点摘要与倾向性分析的工作。基于属性的观点摘要技术试图将用户对产品的评论按照产品的各个评论属性分别进行摘要。本文通过条件随机域模型进行比较关系和评论属性抽取。在此基础上,通过解决属性归并、倾向性分类等问题,生成优化后的基于属性的观点摘要及其可视化结果。实验结果表明,本文生成的移动摘要在字数、可读性和完整性都具有很好的效果,而基于Q&A的评测方法验证了层次型摘要结构对该类文档的有效性:基于ChunkCRF的中文观点持有者识别方法达到了80%上以的准确率,并且能够很好的配合基于观点持有者的观点摘要工作;中文比较关系的抽取结果促进了产品评论属性的抽取以及观点倾向性分析问题的解决,为基于属性的观点摘要的生成奠定了良好的基础。
其他文献
随着高速公路信息化的快速发展,收费模式也由单站、单路的收费模式变成大规模联网收费模式。随着网络的规模不断扩充,安全隐患也在不断增加,带来了网络攻击、信息破坏、机密
随着Internet的发展,越来越多的人开始关注Web页面上的信息,因此基于Web的信息提取技术,成为目前数据挖掘领域的研究热点之一.但是Web页面中包含了很多与主题无关的信息,例如
目的 对急性阑尾炎患者应用腹腔镜与开放手术进行治疗并对其疗效进行分析研究.方法 选择2018年6月~2019年8月间到我院就诊的72例急性阑尾炎患者作为研究对象,根据治疗方案的不
僵尸网络是在网络蠕虫、特洛伊木马、后门工具等传统恶意代码形态的基础上发展、融合而产生的一种新型攻击方式。通过僵尸网络可以发送垃圾邮件、窃取个人信息、发动拒绝服务
目的 探究浅析乙型肝炎肝衰竭患者发生肝性脑病的危险因素.方法 选择我院2016年11月~2019年11月收治的92例乙型肝炎肝衰竭患者,将46例乙型肝炎肝衰竭患者分为对照组,46例乙型
目的 探究肺炎支原体感染与哮喘患儿发病的关系.方法 选取2018年10月~2019年11月于我院诊治的哮喘患儿98例,根据患儿有无患病的不同将其分为:健康儿童的对照组(n=49例)和哮喘
随着“互联网+”行动计划于2015年上升为国家战略,我国互联网的发展呈现出更加广阔的前景。网络视频的广泛应用促使关键的流媒体传输技术不断发展。流媒体传输在移动互联网中