基于内容的垃圾短信过滤系统的设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:huaweibo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动通信技术的发展和移动设备的日益普及,手机短信服务以其价格低廉、收发便捷和娱乐性强等特点备受我国移动手机用户的欢迎。手机用户在享受着手机短信业务便利的同时,也受到了大量含各商场打折广告信息、房地产开盘信息、违法票证等内容的垃圾短信的困扰。   现有的垃圾短信过滤方法有黑白名单过滤机制、关键词过滤技术以及基于内容的过滤方法,其中基于内容的过滤技术被认为是最为有效的处理方式。在本文中将采用字符串切分技术生成文本特征,并利用PAM分类算法构建基于内容的垃圾短信过滤系统。   文本的主要工作包括:   1)了解内容过滤的概念和实现框架,并在向量空间模型中,对文本提取两种不同的特征——词、字符串,在现有短信语料库的基础上对比测试了两种特征对过滤效果的影响,实验结果表明,提取字符串为文本特征不仅处理速度较快,而且能在最大程度上利用短信文本特征,取得了较好的过滤效果。   2)详细研究了字符串匹配技术中的模糊字符串匹配技术,并对模糊字符串匹配技术中的模糊化权重赋值处理进行了一定改进。   3)在进行字符串切分之前引进了冗余字符串数据处理过程用于降低字符串特征维数,其中冗余字符串数据由停用词和权重低于一定阈值的特征构成。   4)为解决对测试文本生成特征向量时需要多次扫描测试文本和训练库而导致处理时间过长的问题,在对现有的单模式匹配算法和多模式匹配算法研究的基础上,改进了适合于中文文本的多模式字符串匹配算法,并将其与原有算法进行了对比实验。   5)设计实现基于内容的垃圾短信过滤系统。其中采用了字符串切分来生成文本特征,利用字符串模糊匹配为特征权重赋值,并采用改进的多模式字符串匹配对测试文本和冗余字符串进行处理,以及采用PAM算法作为分类算法构建了过滤系统。
其他文献
随着社会经济的发展,城市的交通问题越来越突出。如何对城市的交通系统进行有效的控制和管理,已经成为社会发展过程中急需解决的问题,智能交通控制的引入使这些问题得到一定程度
射频识别(Radio Frequency Identification,RFID)是一种无接触,低功耗,低成本,快速高效的无线通信技术。作为物联网的核心技术之一,它被广泛地应用于现实生活中。在RFID无线通信系
第五代移动通信(5G)不仅要实现数据流量的爆发式增长,还要解决大规模连接和低延迟等问题。为了应对这些挑战,NOMA(Non-Orthogonal Multiple Access)可以利用功率域自由度,提
作为物联网的重要组成部分,无线传感器网络在现代社会生活中发挥着越来越重要的作用。传感器网络低廉的成本和广阔的开发价值使其在工业信息化建设中越来越受到重视,并且得到
为了满足未来移动通信系统对更高数据传输速率的迫切需求,3GPP组织近年来启动了通用移动通信系统(UMTS)的长期演进(LTE)项目。LTE将OFDM技术和MIMO相结合,能够有效的对抗频率选
在数字图像获取、传输、处理等过程中,模糊是最常见的失真之一。在过去数十年,为了从模糊图像中恢复出清晰的原始图像,大量的图像去模糊算法被提出,并取得一些成就。然而,对
近年来,机动车的数量快速增长,导致交通拥堵、交通事故等事件频繁发生。智能交通系统作为解决道路交通问题的有效方法,成为国内外研究的焦点。运动车辆检测与跟踪是智能交通系统
三维电视作为近年来兴起的一种新的视频系统,在学术和工业界均引起了广泛关注。三维电视领域的相关研究和开发层出不穷,为人们的影音娱乐、沟通交流等提供了崭新的体验。三维
射频前端是任何卫星导航系统、无线通信系统、无线局域网中都必不可少的组成部分。宽带射频收发电路在军事和民用通信中都有广泛的应用,有很高的开发与研究价值。本文主要工作
任意波形发生器作为信号源,凭借其灵活性和高性价比在科学研究中得到越来越多的应用。本论文旨在从实现的层面上研制一款任意波形发生器,包括其软件系统设计与实现。   首先