面向网络评论的产品特征和极性词挖掘研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:q372245556
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务的兴起,网络客户评论也必然会成为人们购买产品和商家改进自身服务的重要参考,但是如何从海量评论中挖掘出有用信息是一项具有挑战性的工作。产品特征挖掘作为网络评论挖掘的关键技术之一,已成为网络评论挖掘领域的一个重要研究方向。本文给出了一种面向网络评论的产品特征和极性词挖掘方法,目的在于从大量网络客户评论中对产品特征和极性词进行自动化地抽取。本文基于关联规则算法和属性共现度对网络评论中的产品特征进行挖掘,在获取的产品特征集合的基础上,通过句法分析器来提取极性词。主要工作如下:在创建关联规则事务文件过程中建立常用产品特征列表,尽可能地减少中文分词工具对挖掘结果的影响,通过关联规则算法获取名词和名词短语作为候选产品特征集合,并将互信息引入到候选特征的剪枝中,对互信息的计算公式进行了改进,计算候选特征与区分符的互信息值,过滤不满足阈值的候选特征;然后通过极性词挖掘非频繁特征对关联规则算法进行补充,得到更加全面和准确的产品特征。在挖掘得到的产品特征集合的基础上,利用句法分析器形成句法分析树,提取存在SBV依存关系的词对,通过三步剪枝获得最终的极性词集合。本文从大型中文购物网站上选取评论语料,对提出的产品特征和极性词挖掘方法分别进行了验证,实验结果证明了本文方法的有效性。
其他文献
随着网络与应用的发展,信息呈爆炸性增长趋势,数据达到前所未有的规模,大规模数据中心的存储压力正迅速增长。基于分布式哈希表(DHT)的对等存储系统由于其良好的扩展性以及快速
自然语言理解是人工智能领域的核心课题,其语义模糊特性深刻影响着自然语言理解研究。模糊语义的量化问题一直是计算机和语言学界关注的热点,本文基于中介真值程度度量方法研
随着计算机应用的不断发展,要求大幅度地提高企业基础信息运营部门的工作效率和质量,各行各业都迫切需要通过面向业务的监控管理平台,来实现面向业务、自上而下的从IT基础架构到
当前移动智能终端设备数量增长迅猛,性能提升显著,在满足用户需求的同时,凸显了其固有的能耗与电池容量之间的矛盾。动态电压频率调节(DVFS)是能够有效解决这种矛盾的一种机
煤矿顶板事故是我国煤炭开采过程中的主要灾害之一,为保障安全生产各煤炭企业大都建立了矿压、微震、地音、顶板离层等监测系统,这些手段虽能从不同的侧面反映顶板安全状况,但一
随着计算机与互联网技术的发展,数据资源日益丰富,但是隐藏在大量数据资源中的知识却没有得到充分的利用。Web挖掘可以快速有效地获取Web上有用的信息。因为Web上的信息主要以
近年来,互联网技术日新月异,信息的数字化和网络化为信息的存取和人们对信息的查询提供了很大的便利性,人们可以随意的从网络上下载、拷贝、传播数字产品,随之而来的问题是使一些
多维时序数据可视化是科学计算可视化的重要研究方向。多维时序数据的来源非常广泛,如实地采集和计算机仿真模拟等。时序数据由于它的数据量大、不直观等特点,很难被有效地认
提高医院管理的效率和增加患者就医的透明度,规范医护人员的临床行为和减少医疗资源的浪费关乎每个人的切身利益,这是当前全社会关注的热点问题。临床路径作为一种临床医疗行
本文以国家海洋局北海分局的项目“SAR影像暗区提取研究及算法实现”为基础,以北海分局提供的Envisat ASAR、Radarsat-2、TerraSAR-X、Cosmo-Skymed等类型的雷达数据为研究对