【摘 要】
:
随着手机及互联网的高速发展和社交网络的兴起,诸如手机短信和微博等类型的短文本占据了人们的日常生活。与此同时,大量的垃圾、有害短文本也会干扰到正常用户的使用甚至给用
论文部分内容阅读
随着手机及互联网的高速发展和社交网络的兴起,诸如手机短信和微博等类型的短文本占据了人们的日常生活。与此同时,大量的垃圾、有害短文本也会干扰到正常用户的使用甚至给用户带来损失。这些垃圾、有害短文本是需要采取文本处理的技术方法来进行过滤的。然而,为了规避常规的过滤方法,微博、短信中的有害短文本经常以不规整、不正常的变体形式(即变体特征)出现。目前对这类变体短文本还缺少有效的解决方法,常规的文本过滤方法在处理这类变体短文本的时候有过滤效果差、人工干预量增加等局限性。本文针对这类变体短文本做出了如下工作:第一,研究和分析了现有的文本过滤算法。研究了问题的特点与难点,并分析了现有过滤算法的优缺点。第二,根据变体短文本的特点,提出了基于层次特征的变体短文本过滤算法。提出了层次特征的概念,介绍了基于层次特征进行变体短文本过滤的基本思想,并给出了算法框架。第三,提出和实现了基于层次特征的变体短文本过滤框架下的核心算法及关键技术。提出了基于层次特征的变体短文本过滤算法及训练方法,通过自动学习以实现识别多种层次特征;给出基于ROC曲线找出最佳判定阈值的方法;并给出了其他诸如文本预处理的关键处理方法。第四,设计和实现了基于层次特征的变体短文本过滤系统,达到实用效果并通过实验结果验证了该算法的有效性。
其他文献
随着机器人的应用范围不断扩展,移动机器人和低自由度的机器人难以完成一些复杂的操作任务,需要冗余机器人利用其自运动特性,在实现第一目标(末端位姿)的同时满足多种二次目
该文以作者参加的几个项目为例,描述了计算机控制和管理中碰到的一些问题,及相应的解决方案内容主要涉及到:1.对期货自动交易系统的改造:在不影响原有期货交易系统运行且无原
微电子技术,半导体材料技术的迅速发展,促进了红外热成像系统的发展。红外热成像产品广泛应用于电力、医疗、消防、公安以及军事等红外探测领域。随着国家局势的不断变化,研
走钢丝机器人是一种能够保持自平衡并行走于拉紧的钢丝之上的机械系统。该类机器人的命名源自于人类的高空走钢丝运动,目的在于揭示走钢丝运动的内在规律,并能够在机械装置上
无人机具有成本低、灵活性、任务范围广和无人员伤亡等诸多优点,在军事和民用领域得到了广泛的应用。无人机的快速发展使得无人机飞行自动控制技术研究变得更加重要。作为实
信息时代网络的开放性、资源的共享性和获取信息的便利性,给人们的生活带来了极大便利的同时,利用网络侵犯隐私的行为比任何时候都更容易发生。些组织或个人肆无忌惮地利用各
该文阐述了知识经济的基本特征,介绍了测度知识经济发展的基本理论和方法.参照国内外适应经济的研究成果,提出了测度知识经济的改进型指标体系:测度知识投入;测度知识存量和
图像携带着大量有用信息,随着计算机软硬件的发展,图像的高效压缩显得极为重要。常见图像压缩方法有:统计编码、变换编码、矢量量化编码、预测编码等。其中,变换编码下小波变