规则与贝叶斯相结合的分类方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:ASD121406113
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类(Text Categorization)是自动将一组文本分类到预先定义的类别中的任务。自动文本分类可以帮助人们从繁重的大量文本手工组织中解放出来,而且结合了信息检索与机器学习技术,准确率已经达到人们手工分类类似的水平。 自动文本分类目前有许多分类方法,本文中将其分为三类:基于内容的文本分类方法、基于向量空间的文本分类方法以及基于概率的文本分类方法。各种分类方法有不同的优缺点,本文选择了用户最易理解、模型简单的分类方法进行中文文本分类的详细研究,包括规则分类模型与朴素贝叶斯模型。 由于通用的规则学习算法考虑的都是规则所覆盖的正例数,而没有考虑规则的条件之间是否需要一定的关系,因此本文中提出了一种基于词语关系的规则学习算法并且通过实验得出相应规则,但是由于规则分类方法的局限性,即样本空间随着规则的生成会越来越小,从而不利于规则的生成,因此影响了规则分类效果。 虽然朴素贝叶斯分类模型是一种简单而有效的分类方法,但它的属性独立性假设使其无法表达属性变量间存在的依赖关系,影响了它的分类性能。本文通过分析贝叶斯分类模型的分类原则以及贝叶斯定理的变异形式,提出了一种规则与贝叶斯相结合的分类模型RLCNB(Rule Combined with Naive Bayes)。该模型通过规则选择出有依赖关系的属性,假设在包含这些相关属性的样本中剩下的属性之间互相条件独立,从而放宽了强独立性假设条件。将该分类方法与朴素贝叶斯分类器、规则分类器进行实验比较,实验结果表明,在属性相关性影响了分类效果的多数数据集上,RLCNB分类方法具有较高的分类正确率。 文本分类有许多实际应用,包括自动文档索引,垃圾邮件过滤,自动作者识别等,同时还可以应用于自然语言处理的一个重要研究问题:词义消歧中,本文研究如何将分类模型RLCNB应用于词义消歧中,同时分析了此模型应用于词义消歧与应用于文本分类时的不同点。
其他文献
图像分割是正确识别图像内容的基础,是图像处理和机器视觉等领域的重要研究内容。边缘检测是图像分割的一种方法。由于其简单有效,边缘检测在图像分割领域中得到广泛的应用。为
尽管目前已基本上实现了甩图板,但建筑业除设计外的其它工序却仍然主要依靠人工操作。审图、预算、施工等工作完全依靠技术人员人工读图(面对图纸或屏幕)、依靠其掌握的知识来理
Workflow is a fast evolving technology which is being exploited by businesses and a variety of industries.Workflow modeling and verification(control-flow verifi
全球定位系统(GPS)是一个以卫星通信为基础的新技术,它具有全天候、全方位统一坐标定位;任意地点、任何时间内的精确定位;快速移动物体瞬时定位等特点。由于早期GPS系统造价昂贵,其
车牌识别技术涉及数字图像处理,计算机视觉,模式识别,人工智能等多个领域,其关键技术包括车牌定位、字符分割和字符识别等,本文致力于车牌识别中若干关键技术的研究.本文基于
随着硬件和软件系统的规模和功能的迅速的增长,设计的复杂性和设计中所包含微小错误的可能性也随之增长,这就给软件和硬件产品的可靠性带来了重大的挑战。计算机辅助验证的目标
随着计算机和计算机网络的飞速发展,信息系统安全成为当前研究的热点课题。构建一个安全的计算机信息系统的根本是拥有具有自主知识产权的、安全的硬件、系统软件和应用。数据
近年来,随着笔记本电脑、PDA以及手机等移动设备功能的增强以及应用的普及,移动计算得到了广泛的应用,互联网设备的移动支持也变得日益重要。蜂窝通信网络将成为未来Internet的
本文使用的是基于在线辨识技术的反馈控制技术,可以适应次路径中的变化.在与反馈控制的对比实验中,将管道端口堵上之后分别使用反馈控制技术和基于次路径在线辨识的反馈控制
近年来,随着射频识别(RFID)技术的快速发展与广泛应用,RFID系统中的数据安全等问题也日益凸显出来,引起了人们极大的关注与争论,使得RFID技术进一步的推广受到严重的阻碍。目