论文部分内容阅读
近年来,随着通信设备和技术的发展,手机短信服务为人们提供了更多的信息,同时也为形形色色的不良信息提供了藏污纳垢的便捷场所。因此,实现对手机短信进行自动分类,可以帮助人们识别有用的信息,提供一个良好的信息资源环境。
国内手机短信的分类问题,属于中文文本信息分类的范畴。中文文本分类并不是一个崭新的领域,一直都得到了广泛的关注,取得了很大的进展。但是由于手机硬件条件和手机短信本身的特点的关系,现有的算法并不能完全适用于手机,所以本文主要针对手机来设计中文文本分类算法。
本文首先介绍了国内外中文文本信息分类的研究现状,介绍了现有的中文文本分类的相关技术。然后在中文文本分类的三个关键步骤:建立信息样本表示模型、信息样本属性选择以及选择分类方法,针对手机及手机短信的特点,提出了基于停用词表的N-gram切词算法,使用了最小类差异过滤算法和提出了基于关联特征的贝叶斯算法。
本文有以下创新:
1.改进了现有的N-gram切词方法,提出了基于停用词表的切词方法。中文分词算法复杂,词典维护成本高,对手机来说是一个较大的负担。N-gram切词是一种较传统的中文分词更为简单的方法,但是往往会切出很多无意义的词汇,冗余量非常大,而本文提出的N-gram切词先结合停用词表进行一次切分后再使用N-gram切词,从而减少了很多冗余的词汇,有效地降低了维数。同时考虑到手机短信的特点,保留了数字字串。
2.在文本特征抽取环节,针对手机短信篇幅较小(不超过70个英文字符)的特点,由于文本特征不多,为了更好的抽取尽可能多的有效特征,选择采用了现有的最小类差异过滤算法来过滤掉对文本分类作用不大的弱信息,首次把该算法应用于中文文本分类中。
3.针对手机的特点选择了一种简单而有效地文本分类器——贝叶斯分类器。并且针对该分类器的算法提出一种基于关联特征的改进方案,可以有效地提高该分类器的效率。