论文部分内容阅读
近些年来,随着移动通讯技术的迅速发展,智能手机已成为人们生活中必不可少的通讯工具之一。作为便利实惠的信息载体,手机短信息与人们生活紧密相连,为广大手机用户进行信息交流提供了一条重要的途径。然而,伴随着短信息的普及而出现的垃圾短信,却带来了很多烦恼,频繁扰乱人们的正常生活。这些垃圾短信不仅对人们没有任何帮助,而且其中部分垃圾短信甚至具有危害性。目前,为了治理垃圾短信现象,国家已出台了相应的法律法规。但是,由于垃圾短信隐蔽、灵活等诸多特性,仅依靠法律手段是很难有效地改善现状的。所以对垃圾短信的拦截技术便是解决问题的关键。而用户端的拦截更是可以实时地对垃圾短信过滤。所以研究和设计一款手机用户端的垃圾短信拦截系统将是解决垃圾短信这一社会问题的重要手段。文本分类技术是指通过计算机对文本解析,借助相关统计数据,确定文本类别。贝叶斯分类是较为常用的一种文本分类技术。贝叶斯分类是以贝叶斯定理为基础的一类分类算法的统称,其中朴素贝叶斯分类算法最为经典且易于理解。该算法以待分类项出现条件下出现概率最大的类别为分类结果。通常,将短信文本看作若干特征词的集合,这些特征词便是可以表征文本类型的属性。利用中文分词技术,可以确定文本的这些属性,再结合朴素贝叶斯分类算法,便可实现对短信文本的分类,从而识别出垃圾短信。本文设计和实现了一款基于文本智能分类的垃圾短信拦截系统,该系统的运行平台为普及度最高的移动端操作系统平台Android。该系统中实现了本文首先简要说明了 Android平台的架构和特性。之后研究了贝叶文本分类技术中的朴素贝叶斯分类法,介绍了文本分类工作涉及到的中文分词技术和特征词选取技术。然后分析了手机垃圾短信拦截系统的工作流程和应用需求,完成系统的数据建模和过程建模。再综合得出了系统应用架构设计,对系统各功能模块进行详细设计,结合Android平台开发技术,在朴素贝叶斯分类理论的基础上,实现了一款基于内容分类的短信拦截系统。该系统具备短信监听、黑白名单、短信过滤以及垃圾短信截获等主要功能。此外,该系统拥有简易的用户界面,方便用户操作。最后,本文部署测试环境,通过若干组测试样本短信,在实机上对系统的各项功能进行了检测。垃圾短信拦截系统的测试结果表明,该系统可以对手机进行实时监控,并通过对到来短信的内容分类过滤,实现了垃圾短信智能拦截功能。然而,由于朴素贝叶斯分类算法的局限性和系统词典数据的不完整,该系统在对短信进行分类时还是会出现误差,导致部分错误拦截行为。