基于人工智能技术Naive Bayes文本自动分类系统研究

被引量 : 9次 | 上传用户:chinajovi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的来临,特别是因特网对人们生活的全面介入,大量以文本格式存储的信息出现在Internet、数字图书馆及公司的Intranet上,如何从这些海量信息中快速、准确而全面地获取所需要的信息成为信息处理领域的研究热点。基于人工智能技术的文本自动分类成为研究解决这个问题的重要支撑技术之一。本文的目标就是在文本分类的背景下,从理论、算法改进和实现三个层次来讨论文本自动分类技术。 本文首先全面分析了当前文本自动分类领域关键技术和算法,同时阐述了典型文本自动分类系统的核心技术和系统结构,并对文本分类的应用范畴作了总结。 从统计学角度来看,传统的统计学文本分类算法尽管强大,但是它们总是基于很强的假设条件才成立,而实际应用中这些假设条件大多数情况下是不成立的,因此,它们所得到的结果尽管精确但却难以与实际应用较好地联系起来,亦即高精度的结果却导致丢失了很多文本固有的结构信息。本文深入研究了基于统计学的最为简单却强大的朴素贝叶斯(Na(?)ve Bayes)分类算法,从统计学角度研究了其应用前提-Na(?)ve Bayes假设,即所有文本特征向量元素服从独立同分布。实际上,文本上下文之间存在必然的语义关联,也就是说文本特征向量元素之间不可能绝对服从独立同分布。因此,严格意义上讲,这一假设在实际文本中并不成立。 针对朴素贝叶斯文本分类算法上述先天性不足,本文将模糊系统和神经网络引入文本信息处理,通过摒除模糊系统和神经网络各自的缺点,结合各自的优点——模糊系统的基于知识先验规则性质(同有监督分类结合紧密)和神经网络较强的学习能力(增强分类算法的鲁棒性和泛化能力)——来修正朴素贝叶斯分类算法,实现了基于人工智能技术的贝叶斯文本分类系统,并对其修正前后的分类性能作了比较分析。实验结果表明修正算法不仅大大提高了朴素贝叶斯分类系统的分类准确度,而且还改善了训练集分类准确率分布的平滑性,从而得到了更接近人脑知识分类处理的分类结果。
其他文献
社会科学类综合性期刊的编辑,是先进文化的重要传播者之一。信息时代,这类期刊编辑如何培养信息素养,适应现代出版业的发展要求,这是现代期刊编辑面临的一个重要课题。信息时
嗜冷菌广泛存在于低温冷藏食品中,是引起低温食品多种致害的主要原因之一。为了探索对这一问题的有效解决方法,本文对低温贮藏原料乳中的嗜冷菌进行了研究。 采用平板记数法,
唐代小说有三种形式——笔记杂录、志怪、传奇。对于唐代笔记杂录的探讨,目前依然局限在单部文献整理、或者零散史料利用的层面上,究其原委,大致有两端:从名称看,笔记与小说
《八月之光》是美国杰出现代派作家威廉·福克纳的代表作之一。作品自1932年问世以来受到诸多好评,然而有些评论家对其貌似松散的结构、看似模糊的主题、反传统的结尾及作品
在城市轨道交通工程建设中,因盾构始发端处于富水地层,致使端头井地层无法加固或加固效果不理想,且始发空间又处于暗埋工作井内,传统的钢套筒密封始发技术无法适用,因此,亟需
永磁辅助式同步磁阻电机因结合了永磁同步电机和同步磁阻电机的优点,可有效提高转矩密度、拓宽弱磁调速范围、降低电机的制造成本,目前成为一种非常有应用前景的电机。然而,尽管永磁辅助式同步磁阻电机可以产生较高的磁阻转矩和一定的永磁转矩,但在传统的研究设计中,两种转矩成分并不能被完全利用而生成总的电磁转矩;同时,永磁体嵌放到隔磁桥中只能产生相对较低的气隙磁通密度,该磁通密度含有较大谐波,导致产生较大转矩脉动
城市规划中,地理信息系统发挥着神经中枢的作用。在城市规划测绘中采用地理信息系统,可以弥补传统测绘技术所存在的不足。本论文针对地理信息系统在城市规划测绘中的应用展开
背景:人体染色体的分类与识别是医学遗传学中的一项基本任务,应用计算机技术实现人体染色体自动分析与识别是人体染色体图像分析技术的重要研究课题。目的:介绍人工神经网络的
根据国内外循证医学指南制定标准化方法与步骤,组建多学科指南制定专家工作组,先后经过指南注册及指南计划书撰写、相关指南评价分析、临床问题遴选和确定、临床证据检索及评
犹太民族是一个长期漂泊的民族,在世界许多地方遭受过迫害和驱逐。然而,恰恰在开封这块热土上,犹太人与主流社会建立了良好的关系,在宽容、和谐的环境下,犹太文化最终被主流