面向手机的中文文本信息分类技术的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:zhxg01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着通信设备和技术的发展,手机短信服务为人们提供了更多的信息,同时也为形形色色的不良信息提供了藏污纳垢的便捷场所。因此,实现对手机短信进行自动分类,可以帮助人们识别有用的信息,提供一个良好的信息资源环境。 国内手机短信的分类问题,属于中文文本信息分类的范畴。中文文本分类并不是一个崭新的领域,一直都得到了广泛的关注,取得了很大的进展。但是由于手机硬件条件和手机短信本身的特点的关系,现有的算法并不能完全适用于手机,所以本文主要针对手机来设计中文文本分类算法。 本文首先介绍了国内外中文文本信息分类的研究现状,介绍了现有的中文文本分类的相关技术。然后在中文文本分类的三个关键步骤:建立信息样本表示模型、信息样本属性选择以及选择分类方法,针对手机及手机短信的特点,提出了基于停用词表的N-gram切词算法,使用了最小类差异过滤算法和提出了基于关联特征的贝叶斯算法。 本文有以下创新: 1.改进了现有的N-gram切词方法,提出了基于停用词表的切词方法。中文分词算法复杂,词典维护成本高,对手机来说是一个较大的负担。N-gram切词是一种较传统的中文分词更为简单的方法,但是往往会切出很多无意义的词汇,冗余量非常大,而本文提出的N-gram切词先结合停用词表进行一次切分后再使用N-gram切词,从而减少了很多冗余的词汇,有效地降低了维数。同时考虑到手机短信的特点,保留了数字字串。 2.在文本特征抽取环节,针对手机短信篇幅较小(不超过70个英文字符)的特点,由于文本特征不多,为了更好的抽取尽可能多的有效特征,选择采用了现有的最小类差异过滤算法来过滤掉对文本分类作用不大的弱信息,首次把该算法应用于中文文本分类中。 3.针对手机的特点选择了一种简单而有效地文本分类器——贝叶斯分类器。并且针对该分类器的算法提出一种基于关联特征的改进方案,可以有效地提高该分类器的效率。
其他文献
随着国土资源部“十一五”规划的制定和开始实施,“加大对政务公开执行情况督查力度,大力推进政务信息网上公开”已成为各级国土资源管理部门“十一五”期间重点工作之一。实施
人工免疫系统作为计算智能研究的一个崭新分支,已在数据挖掘、机器学习、自动控制、故障诊断等诸多领域显示出强大的信息处理和问题求解能力以及广阔的研究前景。将人工免疫算
使用工作流管理技术整合Web服务,提供了一个跨平台的、语言无关的、便于复用的柔性计算环境,能满足现代企业提出的敏捷制造要求,是现在研究的热点。本文在对Web服务及Web服务
互联网上丰富、广泛的信息已成为人们最重要的信息来源之一。如何帮助用户快速、准确地查找网上有用信息,是一个非常有意义的问题,具有很高的实用价值,己经成为近年来的研究
条码技术自问世30多年来发展迅速,在各个行业得到广泛的应用,是目前最经济、实用的一种自动识别技术。随着信息化和全球化的进程,人们对条形码的需要层次不断提高,尤其是对单个条