论文部分内容阅读
随着移动通信技术的发展和移动设备的日益普及,手机短信服务以其价格低廉、收发便捷和娱乐性强等特点备受我国移动手机用户的欢迎。手机用户在享受着手机短信业务便利的同时,也受到了大量含各商场打折广告信息、房地产开盘信息、违法票证等内容的垃圾短信的困扰。
现有的垃圾短信过滤方法有黑白名单过滤机制、关键词过滤技术以及基于内容的过滤方法,其中基于内容的过滤技术被认为是最为有效的处理方式。在本文中将采用字符串切分技术生成文本特征,并利用PAM分类算法构建基于内容的垃圾短信过滤系统。
文本的主要工作包括:
1)了解内容过滤的概念和实现框架,并在向量空间模型中,对文本提取两种不同的特征——词、字符串,在现有短信语料库的基础上对比测试了两种特征对过滤效果的影响,实验结果表明,提取字符串为文本特征不仅处理速度较快,而且能在最大程度上利用短信文本特征,取得了较好的过滤效果。
2)详细研究了字符串匹配技术中的模糊字符串匹配技术,并对模糊字符串匹配技术中的模糊化权重赋值处理进行了一定改进。
3)在进行字符串切分之前引进了冗余字符串数据处理过程用于降低字符串特征维数,其中冗余字符串数据由停用词和权重低于一定阈值的特征构成。
4)为解决对测试文本生成特征向量时需要多次扫描测试文本和训练库而导致处理时间过长的问题,在对现有的单模式匹配算法和多模式匹配算法研究的基础上,改进了适合于中文文本的多模式字符串匹配算法,并将其与原有算法进行了对比实验。
5)设计实现基于内容的垃圾短信过滤系统。其中采用了字符串切分来生成文本特征,利用字符串模糊匹配为特征权重赋值,并采用改进的多模式字符串匹配对测试文本和冗余字符串进行处理,以及采用PAM算法作为分类算法构建了过滤系统。