使用聚类算法关联褒贬义词和产品特征

来源 :北京大学 | 被引量 : 0次 | 上传用户:pittashen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和网民数量的增加,网上电子商务市场也在不断扩大。伴随着电子商务的发展,网上的产品评论也越来越多。商家和网民都希望能有高效而准确的工具来处理这些产品评论,自动给出评论的摘要。面对着这种需求,研究者提出了情感分析技术,该技术可以识别出产品评论中的某个语言单位——词、短语、句子或篇章——是褒义还是贬义,而且可以量化褒贬义的程度。 目前的情感分析技术还存在一些弱点:无法识别某句话是对某一产品的总体评价还是对该产品某部分或特征的评价。这就影响了对评论信息的分析:例如,某个客户只对产品的一个特征感兴趣,如只对数码相机镜头的参数感兴趣;或者,另一个客户希望针对产品的每个特征将检索到的评价聚类;目前的情感分析方法将无法满足这位客户的需求。 为了改进情感分析的结果,我们最好能识别-出每个情感词是针对产品的哪个特征。这样细化后的情感分析结果,有助于对产品评论进行进一步的研究。为了改进目前的情感分析技术,我们提出了一种基于聚类的方法,可以用来识别情感词的作用对象,即把褒贬义词和所评价的产品特征关联起来。该方法包括产品特征识别、褒贬义词识别和聚类算法等步骤。本文的创新点和主要贡献包括: 对中文产品评价文本给出了一个算法,可以识别褒贬义词所评价的产品特征。 利用中文概念词典(CCD),将语义知识和聚类算法结合起来,改进了产品特征识别和聚类的效果。 利用文本的结构信息,并使用命名实体识别技术,改善识别的结果。 使用多种属性,充分利用文本中的信息,以提高聚类结果的准确率。
其他文献
本文对基于同步网的工作流模型验证工具的设计与实现进行了研究。主要内容如下: ⑴分析了基于同步网的工作流模型验证关注的主要问题,讨论了基于同步网的工作流模型的规约规
个体软件过程(Personal Software Process,PSP)从个体的层次描述了软件开发过程,提供了详细的控制和管理方法,帮助工程师持续改进其开发过程,从而提高生产率,改善软件产品质量。但
学位
Multihoming是指一个主机具有多个IP地址。随着网络接入技术的发展,带有多个网络接口的设备越来越普遍。本文研究在传输层利用Multihoming技术提供端到端容错能力的协议及其性
学位
随着计算机图形学技术在现实生活中的普及,计算机图形学的研究领域越来越广泛。近些年,越来越多的大规模三维网格数据在各应用领域,如电子商务、医疗、科学计算可视化、工程分析
学位
在可预见的将来,视频播放类业务在用户驻地网上仍将占据主导地位。这类业务对音视频的同步非常敏感,为了保证播放质量,引入流整形技术,在网络出入口处理数据的时间戳信息,因此系统
学位
学位
低轨卫星网络已应用于语音和窄带数据业务,与同步卫星网络的设计相比,低轨卫星网络更加复杂,但是低轨卫星网络让小型地面终端通过卫星通讯成为可能,并提供了更小的传输延时及频率
学位
运行在Windows操作系统平台上的程序或者应用软件,其性能常常因为某些无法预料的瓶颈而受到干扰,导致程序的处理效率降低,性能上得不到充分的发挥。而Windows操作系统在其运行过
本文对面向轻量级应用的开源WebGIS内核的设计与实现进行了探讨。本研究结合WebGIS的应用特点,基于Java技术设计实现了一个面向轻量级应用的开源WebGIS内核——PKGML2。在PKGM
本文依托国家自然科学基金项目(项目号:40202030),着重从矿产资源预测结果数据的三维重构方面入手,利用计算机图形学的相关算法,借鉴医学、游戏软件制作等领域中已经成熟了的可视