分布式爬虫下基于用户评论的商品标签提取

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:zj888666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络新时代的到来,各种智能终端的不断普及,网上购物正越来越成为现代人们主流的购物方式。在消费者进行网络购物的同时,也产生了海量的评论数据,而这些评论数据中蕴含着巨大的挖掘价值:对商品厂家来说,评论数据能够直观地反应出用户对商品特性的评价,能够根据用户的喜好调整产品特性,从而更好地发展自身商品;对电商平台来说,可以根据评论数据提取商品标签,提高用户的购物体验,还可以根据用户兴趣进行相关推荐;对用户自身来说,评论数据是用户了解商品特征的主要信息,用户可以参考评论数据选择自己想要的商品。对用户评论数据进行挖掘,提取出商品标签,可以广泛应用于商品推荐、个性化搜索等场景,有利于商品厂家分析产品数据,有利于提高用户的购物体验,有利于增加平台用户流量。因此,对用户评论数据挖掘进行研究,可以更加有效地提高商品标签的准确性和全面性,在现实生活中,具有十分巨大的价值和深远的意义。据此,本文提出了分布式爬虫下基于用户评论的商品标签提取系统。本文首先,针对海量的用户评论数据,搭建基于改进的布隆过滤器的分布式爬虫系统,对用户评论数据进行高效地抓取和存储。然后结合改进的TF-IDF算法和依存语法对用户评论数据进行特征词提取,提取出商品(对象词,评价词)的特征词对。最后对提取出的特征词对进行聚类和情感划分处理,最终形成商品属性标签和用户情感标签的综合标签。本文的主要创新如下:1、设计出基于改进的布隆过滤器的URL去重算法的分布式爬虫框架。通过增加布隆过滤器维度的方法来有效地降低误判率,提高分布式爬虫系统的效率。2、采用改进的TD-IDF算法+依存语法分析的方法对海量的用户评论进行特征词对提取。通过对IDF权重进行缓冲并加入离散度的方法对TF-IDF算法进行改进,并结合依存语法分析,提出一种对用户评论数据进行特征词提取的方法,该方法更适用于对评论数据的特征词提取。3、将筛选出的特征词向量化为计算机能够处理的表达形式,确定距离计算函数,设计出一种K-means+AP的层次化聚类模型,对特征词进行标签化处理。
其他文献
当前,广西电子信息产业已具有一定规模,且面临着良好的发展机遇,但也存在基础薄弱、人才匮乏、自主创新能力弱等困难,今后要加强产业基本环境建设,创新发展方式,通过"补链"、
介绍了一款绿植修剪车的设计实例,提出以扫路车为载体、采用液压传动,可连续修剪绿化带,并可收集枝叶的专用作业车方案。实现修剪机构的展开、收回状态,高度、宽度方向的修剪调节
针对目前诸如军事、铁路等领域事故爆炸仿真模型运算复杂、仿真效果较差的问题,提出了改进的仿真模型,该模型以粒子系统为基础,用定性、定量的随机变化模型代替爆炸物理过程
心血管疾病是严重影响人类健康的疾病之一,病情的患者需要进行血管置换。但来源有限,组织工程化小口径血管(内径<6 mm)病变,因易导致血栓和内膜增生等问题而还难以运用于临床
综合化航空电子系统软件对系统的综合性能具有较高的要求。全面分析了综合化航空电子系统的性能需求,定义了综合化航空电子系统性能评估模型,首次对综合化航空电子系统进行全
这些年来,随着互联网的发展,尤其是智能手机和各种物联网设备的加入,互联网中的数据量也迎来了爆发式的增长。如此巨量的信息一方面丰富和方便了人们的生活,但另一方面也增加了获取有效信息的难度。因此采用主题爬虫技术方便快捷地收集注塑行业的相关信息,从而实现对注塑行业发展的监控和预测,对于企业发展有着重要意义。本文来源于《大型注塑成型智能制造工厂》,设计和实现了能够定向抓取网络数据的主题爬虫系统。通过阅读大
自我控制对于个体的发展起着重要作用,决策过程涉及自我控制的参与.中小学生心理水平处于半成熟半幼稚的阶段,情绪不稳定,行为易冲动,自我控制能力较低,影响着他们的决策行为
<正> 潮汕歌谣是潮汕地区劳动群众口头创作、口口相传的民间艺术,是我国民间文学苑囿中不容忽视的一朵鲜花,是一宗重大的民间文化遗产。它曾引起人们的重视和研究。解放前,就
在机械论、目的论制约下的教育 ,其本质等同于知识。其后果必然是导致人的存在感的丧失及教育与人的生命相疏远。教育应关注个体的生命 ,关注个体生命的感受 ,关注个体生命潜
马克思历史方法论由生产、交往、分工与联合四者之间的运动构成,并形成生产与交往、分工与联合两大功能关系。马克思历史方法论是与社会发展规律理论并行且互为彰显的理论。