论文部分内容阅读
自动摘要是文本挖掘的一个传统研究领域。本文设计了两种面向不同领域的自动摘要生成策略,分别为面向移动终端的移动摘要技术和面向观点挖掘的观点摘要技术;而观点摘要又分为基于观点持有者的观点摘要技术和基于属性的观点摘要技术。面向移动终端的自动摘要技术,对摘要本身提出了更严格的字数要求。本文设计了一种基于改进编辑距离的移动摘要技术,提取网页中的最大重复串作为文档的关键词集合,利用改进编辑距离生成适于在移动终端上显示的摘要。对于含有子标题的文档,采用层次型的摘要结构,以提高摘要的覆盖率。以观点持有者为核心的观点摘要技术旨在更好地组织观点信息,从不同的观点表达者角度对评论目标进行分析。本文通过建立ChunkCRF模型对观点表达句进行观点持有者的识别;对于同一个观点句中含有多个观点持有者的情况,借助语言学手段进行预处理,再利用此模型进行观点持有者识别。在此基础上,本文进行了基于观点持有者的观点摘要与倾向性分析的工作。基于属性的观点摘要技术试图将用户对产品的评论按照产品的各个评论属性分别进行摘要。本文通过条件随机域模型进行比较关系和评论属性抽取。在此基础上,通过解决属性归并、倾向性分类等问题,生成优化后的基于属性的观点摘要及其可视化结果。实验结果表明,本文生成的移动摘要在字数、可读性和完整性都具有很好的效果,而基于Q&A的评测方法验证了层次型摘要结构对该类文档的有效性:基于ChunkCRF的中文观点持有者识别方法达到了80%上以的准确率,并且能够很好的配合基于观点持有者的观点摘要工作;中文比较关系的抽取结果促进了产品评论属性的抽取以及观点倾向性分析问题的解决,为基于属性的观点摘要的生成奠定了良好的基础。