领域知识引导的产品评论分类方法

来源 :吉林大学 | 被引量 : 0次 | 上传用户:wmg0632
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着21世纪互联网的迅猛发展,web应用程序和APP的产品数量呈现井喷式增长,成为了人们日常生活中必不可少的一部分,由此带来了巨大的市场经济效益和广阔的行业发展空间。为在激烈的市场竞争中夺得一席之地,开发者需要及时了解用户偏好,对产品进行针对性地更新以提升其产品生命力。软件评论数据是开发者获取用户需求及喜好的重要来源。目前,评论分析通常遵循“数据分类——信息抽取”的一般过程,其中评论分类是数据有效使用的前提和基础。通过分类可以去除评论数据中的杂质冗余,并将其中信息进行归类,如用户新需求、目前产品缺陷等,从而为开发者更好地理解评论信息奠定基础。目前,软件工程中对评论分类方法的研究通常关注于数据本身特点,将焦点集中于评论数据间的差异性,通过选取不同的向量化方式和不同性能的分类器完成评论数据的分类任务。尽管这些分类方法在大多数评论分类中取得了较好的效果,但是,当其面对特殊领域(如体育、游戏等)的应用类别时,其性能会出现大幅度下滑的现象。究其原因,这些领域往往包含领域特有词汇和表达方式。由此,抛开领域知识的评论分类方法难以取得理想效果。针对上述问题,本文提出一种领域知识引导的评论分类方法,基于已有的领域知识,自动化扩充得到该领域(或某一独特产品)的领域相关词词典,进而训练评论分类器,以便更好地完成该领域评论的分类任务。首先,从功能性需求和非功能性需求的角度考虑,将具有价值的评论定义为五种类别,并且根据不同类别所定义的质量属性,手工从评论中提取出领域相关词作为词典的种子词。其次,基于语义分析的方法,通过计算语料库的文本相似度,取得与种子词相似度高的词来构建和扩充领域词典,并将其作为评论分类任务中的一类文本特征。最后,计算情感值并将领域知识引入文本特征表示过程中,从而训练评论分类器,完成针对不同领域的评论分类任务。针对目前受领域影响的文本分类问题,本文根据所提出的方法进行了一系列实验,探究如何更好的获得领域知识,并以此为基础,进一步分析引入领域知识针对APP评论分类任务是否有帮助。
其他文献
蛋白质是生命活动的重要物质基础,也是生命活动的执行者和调控者。少数蛋白质可以在生物体中单独执行特定功能,大部分蛋白质通过与其他蛋白质之间的相互作用以复合物的形式完成其特定功能。因此,精确高效地识别蛋白质复合物对于揭示细胞组织原理和功能机制具有重要意义,且对复杂疾病的诊断与靶向治疗具有一定的指导作用。本文基于生物信息学理论与机器学习算法,对蛋白质相互作用网络中蛋白质复合物的识别问题进行了研究。目前蛋
随着科技的飞速发展,人类生活中越来越离不开身份认证和识别。同时人们对个人信息安全的问题也更加的重视,传统的身份认证如密码登陆等已经很难满足人们对个人信息安全的要求。在这种需求不断提升和计算机技术高速发展的背景下,虹膜识别技术凭借着其更高的安全性、准确性、稳定性、防伪性等特点受到了来自学术界和工程界广泛的关注。虹膜识别产品也逐渐应用到与我们息息相关的生活中,如虹膜门禁系统、虹膜签到系统、银行支付系统
因果关系抽取是自然语言处理的一个重要研究方向,现有研究将因果关系抽取转化为关系分类或序列标注任务。文本中的因果关系有丰富的表达形式,对于句中的复杂因果关系和文章级因果关系,现有方法很难有效的抽取。此外,这些研究大多忽视了对因果实体间的语义关联信息的探索。针对上述问题,本文引入语义依存分析和预训练语言模型,结合深度学习的相关算法,提出了两个因果抽取模型,有效的从文本中抽取各类因果关系。具体内容如下:
随着二十一世纪互联网和信息技术的高速发展,技术论坛成为人们获取计算机专业知识的关键平台。人们通过技术论坛发表自己的原创文章,获取自己喜欢的专业领域内容,同时与业界专家互动交流专业领域问题,从而提高自己的专业技能。技术论坛主要发表大量的技术文章或提问,用户通过回帖来表达自己的观点。以往的论坛大多为综合性论坛,其广度的优点不能对每一个专题做到精益求精,提供了大量的内容却未对其进行有效搜索和推荐,导致用
语文学科教学除了要帮助学生掌握语文知识,还要提高学生的道德修养,提升他们的文化品位,使他们形成健全的人格。在高中语文教学中融入传统文化,能够促进教学任务的完成,带给学生更多启迪。本文将针对如何在高中语文教学中融入传统文化展开具体分析,旨在以文化为载体,提高课堂教学质量,营造良好的育人环境。
目的:椎动脉优势(vertebral artery dominance,VAD)是指双侧VA一侧管径较大或双侧管径相等时一侧VA与BA呈直线形连接的血管变异现象。人群中35.5-58%的人为左侧VAD,右侧VAD为19-35.7%[8,9]。现阶段研究认为VAD可能是PCI的危险因素[10]。与前循环缺血相比,后循环缺血患者发现椎动脉管径不对称的发生率更高,并与基底动脉(Basilar Arter
“逆城市化”是城市发展的一个阶段,准确把握中外“逆城市化”的研究热点及演进趋势,对于“十四五”阶段城市提质增效、乡村全面振兴具有重要意义。文章利用CiteSpace可视化分析软件,对1980-2020年的1 112篇中外文献进行了定量分析。研究结果表明,国外的“逆城市化”多为“单轨”运行制,而中国则为“双轨”并行制。从研究热点来看,国内对“逆城市化”的研究主要围绕城市发展阶段、人口流动、现象的总结
以社交网络为代表的大规模信息网络层出不穷,如何充分利用这些信息挖掘出适应于各种任务的通用表示显得尤为重要。现实生活中的大规模信息网络往往包含许多复杂的交互关系和语义信息,且具有多源异质性,这给传统的网络表示学习(Network Representation Learning)方法带来了挑战。深度学习的出现给网络表示学习开辟了新道路,极大的促进了网络节点表示学习研究的发展。本文基于图注意力机制和生成
智慧司法概念的提出及司法公开平台的建设,促进了司法领域信息化进程的发展。随着以裁判文书为代表的司法大数据不断公开、人工智能技术不断突破,在司法人员处理案件效率的环节,通过人工智能技术有效使用海量数据解决司法问题逐渐成为法律智能研究的热点。目前,在智慧司法方面的研究主要集中于法律判决预测、相似案例匹配、法律问题解答等,争议焦点识别作为司法领域中的一项基础任务,对于庭审质量、审判效率的提高具有重要意义
在数字化时代新趋势下,传媒通信等主要领域信息达到了极速的传播推广,掀起了社交网络的浪潮。用户在各大网络平台快速的收集翻阅信息,如社交网络微博、知乎论坛、以及豆瓣影评等。这类文本内容精简多样,但蕴含着用户的潜在需求、兴趣方向和行为意图等丰富的信息。如何处理短文本信息将其归纳整理提取有价值的知识为人们所用,一直深受研究者的关注。对比于长文本,短文本自身具有的特征过于稀疏,内容短少且对上下文语义具有较强