面向产品评论的多文档观点文摘研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zgl_0251
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
观点文摘,又称情感文摘,是对含有情感信息的主观性文本集合进行文本分析、内容归纳和文摘生成的技术。随着互联网主观性评论文本数量的不断增加,观点文摘的应用需求也随之增加,这些需求为观点文摘的发展带来了动力,同时也为自然语言处理的研究带来了新的机遇和挑战。近些年,观点文摘相关任务的研究受到一些研究者的关注,并取得了一定的成果,研究者们尝试将观点文摘技术应用于决策支持、舆情监测和信息预测等应用领域中。观点文摘主要包含三项研究内容:情感要素抽取、情感极性识别和情感信息归纳,这些内容均属于情感分析的范畴。本文针对观点文摘的三项关键内容进行研究,其中情感要素抽取和情感极性识别属于情感分析的基础性研究,目的在于从评论文本中识别出有效的评价单元(评价属性、评价词语等),并对这些评价单元的极性进行判断;情感信息归纳属于情感分析的应用级任务,目的在于对识别出的重要评价信息进行归纳,从而形成一个简洁、精炼的摘要。本文还对产品的综合排序任务进行了研究。本研究的具体内容包括:基于条件随机域模型的比较要素抽取研究。在基于统计机器学习的比较要素抽取方法中,特征的选择对模型的建立至关重要。本文针对比较要素抽取任务,提出引入浅层句法特征、比较词候选特征和启发式位置特征等语言学相关特征,并将这些特征自动融合到条件随机域学习算法中。实验结果表明,浅层句法特征能够有效的识别短语级的比较要素,比较词候选特征不仅能够弥补比较词训练样本不足的问题,还可以对其他要素的位置进行初步定位,启发式位置特征有助于区分词性相似的要素。该方法可以有效提高比较要素抽取的各项性能指标。基于观点内外部特征相结合的模糊评价词语极性识别。模糊评价词语是指情感极性随上下文的不同而发生改变的词语,以往的研究主要考察评价单元外部的极性特征,而较少关注评价单元内部的特征,因而带来了模糊评价词语极性识别率不高的问题。本文提出了一种将观点内部特征与观点外部特征相结合的无监督极性识别方法,该方法通过引入两种观点内部特征:修饰词语和高频评价搭配,有效解决了模糊评价词语极性识别准确率低的问题;同时结合两种观点外部特征进行极性识别,有效解决了模糊评价词语极性识别召回率低的问题。基于层次分析模型的产品多属性综合排序。综合评价指的是运用多个评价指标对多个参评对象进行评价(排序或择优)。本文针对产品的综合评价问题,提出了一种建模方法,该方法通过构建层次分析模型来完成产品的综合排序,模型首先将综合评价问题按目标层、准则层、子准则层直至具体的参评方案层分解为多个层次,在此基础上进行定量分析,通过计算每一层次各元素对上一层次某元素的优先权重,最终求得各个层次的组合权向量,实现了实体的多属性综合排序。该方法在构建层次分析模型时还结合了图模型并充分考虑了用户的不同需求,有效解决了产品多属性综合排序问题。基于模板的生成式多文档观点文摘。多文档自动文摘任务一直是TAC(Text Analysis Conference)会议的重要评测内容,但是主观性评论文本的多文档自动文摘仍然是一个新颖且具有挑战性的任务。本文针对评论文本的多文档观点文摘任务,提出了一种基于模板的生成式多文档观点文摘方法。该方法首先从评论文档集中提取评价信息(评价实体、评价属性等)并判断情感极性。然后,将这些评价信息映射为标准信息并按照UDA(User-defined Aspects)属性树进行组织。最后是观点文摘的构建,包括文摘结构的规划、文摘模板的设计、文摘句的生成和内容的选择等。本文构建了三种类型的观点文摘:总体文摘、单实体文摘和实体对比文摘,有效探索了中文观点文摘的生成式方法。
其他文献
民间叙事的结构主义研究充满了张力与争议。通过聚焦于与结构主义密切相关的结构与形式、共时形态与历时意义研究的争论,简要梳理了结构主义理论及其对中国民间叙事研究的影
近年来,计算机视觉中的行人再识别问题受到了研究者的重点关注,已成为一个新兴的研究领域。目前,行人再识别技术存在许多挑战,特别是重排序或后排序优化问题。行人再识别问题
中国是一个文明古国,五千年的历史遗址广布华夏大地.人们凭借着这些遗址研究先人们的生活环境和社会成就,寻找着文明的源头.建立遗址博物馆是保护遗址,向人们展示遗址的行之
伦坡拉盆地自下而上发育始新统牛堡组牛二中亚段、牛二上亚段及牛三下亚段3套烃源岩。基于钻井测试资料、地震资料及含烃流体包裹体测试分析,利用盆地模拟技术对伦坡拉盆地热
云计算作为一种新型的计算模式,为组织和个人提供了高效、廉价和专业的信息服务及相关的基础设施。云存储是云计算平台提供的诸多服务中应用最为广泛的服务之一然而,在云存储
蛋白质关系抽取和药物关系抽取对于生物医学领域相关数据库的构建、生命科学研究、药物开发和疾病的防治都具有重要意义。目前,大量生物医学关系抽取方法的研究重点在于特征
甘惜分教授是我国著名新闻理论家和新闻教育家,其学术活动及其成果一直为学界和业界所关注。但是却鲜见有人探讨甘老师早期的新闻业务实践与其新闻理论观点和业务思想形成之
在教师教育中,以施瓦布实践课程开发理论为指导,设计培养教师问题解决能力的课程旨在从新的角度认识学科结构,使教师学科问题解决过程中的思维更加清晰。课程以师生为双主体,以学
目的:研究淋巴瘤患者外周血TCRVα24+Vβ11+自然杀伤T(NKT)细胞的数量以及体外活化后的功能状态,与正常人外周血NKT细胞的数量及功能状态进行比较。方法:制备30例淋巴瘤患者
<正>改革开放以来,我国粮食重心进一步由南向北推移,辽宁作为重要的粮食生产基地,在保障国家粮食安全、促进粮食产区农民增收等方面所肩负的任务越来越艰巨。辽宁作为全国重