基于语义特征和监督学习的广告评论识别方法

来源 :浙江大学 | 被引量 : 0次 | 上传用户:awubang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的兴起与繁荣,人们的在线学习娱乐及交流变得非常便捷高效。计算机以及移动智能设备成为了人们工作和交流的主要工具之一。伴随着互联网电脑端及移动端用户数量的增长,热门网站的用户数量及日点击率也在迅速升高。作为全球最大的视频网站,YouTube拥有海量视频及数十亿活跃制作上传者及观看用户。由于每一位互联网用户均可以快速发表评论信息,加之YouTube实行了视频制作者鼓励措施,视频广告评论占比迅速提升,给视频上传者和常规观众带来许多烦扰,严重干扰了用户的正常评论与交流。基于词袋的传统垃圾广告检测算法通常从语句用词入手,具有特征维度高、模型复杂等特点,而且随着广告评论的升级也日益显示出不足。因此本文从语义理解的思路出发,结合前人工作和理论,提出了基于语义的广告评论检测方法。此方法首先对语句进行语义角色标注,提取语义特征,并手动提取常见广告评论的句式特征加入到特征集合,进行建模试验。通过实验反复验证,此方法有效地降低了训练数据的特征维数,并且达到了较高的检测率,在标注数据集多样化不足的情况下仍然能够保持一定的分类稳定性,因此具有一定的可行性。由于现实网络中,有标记的数据的获取比较难,因此本文通过采用半监督的协同过滤算法,有效地利用了未标记文本,并且实验结果证明在训练过程中后加入的数据可以有效提高识别准确率。具体地说,本文的工作主要包含以下内容:(1)总结了常见的垃圾文本过滤方法,包括特征选择方法,模型分类算法。(2)提出基于语义的特征的文本过滤方法,并提出语义特征提取方法,并在此基础上进行机器学习建模,取得了较好的效果。(3)在语义特征与词汇特征两个视图上采用协同训练的方法,解决了在有限标记数据和大量未标记数据的情况下对于文本广告评论的有效识别问题。
其他文献
在神经科学研究领域,通过电极阵列同时记录多个神经元放电活动越来越普遍。分析多个神经元的连接关系是了解产生某种特定脑功能活动神经元如何工作的关键。论文通过记录猴子
行人检测在视频监控、人机交互、无人驾驶、机器人、高级驾驶员辅助系统等方面有着广泛应用。在计算机视觉领域,研究最多的就是行人检测。准确率高、速度快是研究人员追求的
近年来,随着互联网的发展,数据呈爆炸式增长。为了挖掘数据中的价值,大数据处理技术已经成为计算机领域中不可或缺的重要手段,Google提出的MapReduce计算模型成为大数据时代
B3∑u-态是 O2的最强的三重跃迁(B3∑u-←X3∑g-)Schumann-Runge(SR)带的上态,SR吸收带在保护地球、阻止紫外辐射等方面起着关键作用。SR连续带的光解离是平流层O原子及O3的
在经济建设发展过程中,新型城镇化应运而生,实现社会发展的同时,也提高了人们的生活质量。然而随着新型城镇化的不断发展,环境问题给人们的生产生活带来了极大威胁,特别是雾霾污染持续加剧。因此,为了保证经济和环境的可持续发展,必须对雾霾污染采取防治措施。城镇化对PM2.5的影响有所不同,首先,受地理条件限制,新型城镇化对PM2.5的影响具有区域差异性;其次,根据时间演变规律以及空间地理距离衰减性,新型城镇
学位
单纯使用广义相对论而不引入暗物质暗能量的情况下,无法解释很多观测现象,比如星系自转曲线问题,宇宙膨胀问题。但是暗物质的所有探寻实验都无法给出明确结果,暗能量的本质更
随着移动通信的快速发展,无线传输的速率越来越快,为移动智能终端和云计算的发展奠定了基础。移动智能终端越来越深入人们生活的各个场景,承载的功能越来越多,但是由于终端自
—随着互联网的发展,在线消费形式的电子商务平台已成为人们现在最流行的消费方式。电商平台一般都允许和鼓励用户在消费后对产品或者服务进行评论,而且用户评论对潜在的消费
近年来,移动通信技术飞速发展,极大地便捷了人们的生活,但是传统的蜂窝系统以基站为中心的网络结构使得小区的覆盖范围和业务提供方式受到很大限制,阻碍了容量的进一步提升,
近年来基于稀疏表示思想和压缩感知理论的波达方向(DOA)估计算法得到了快速的发展,其相对于传统算法的优势使其成为DOA估计领域的一个热点问题。与传统DOA估计算法相比,利用