【摘 要】
:
随着国际互联网的迅猛发展,网上文本信息资源以指数级的速度增长。如何快速有效地将文本按其内容进行分门别类的整理,以便于利用这些海量文本,变得越来越重要和困难。因此,研究文
论文部分内容阅读
随着国际互联网的迅猛发展,网上文本信息资源以指数级的速度增长。如何快速有效地将文本按其内容进行分门别类的整理,以便于利用这些海量文本,变得越来越重要和困难。因此,研究文本自动分类技术具有很重要的现实意义。
本文分析考察了文本分类过程中的主要技术:中文分词、特征选择、粗糙集和分类器构造,并在广泛研究现有文本自动分类方法的基础上,利用人工神经网络具有的自学习性、自组织性、联想记忆功能和推理意识等在文本自动分类上的独特优势,构建了神经网络分类器。由于BP(BackProPagation,反向传播)神经网络广泛应用于文本自动分类领域,因此本文对BP网络文本分类过程分阶段进行了改进,并证明了本文方法的优越性。
本文改进了BP神经网络分类方法,主要设计思路如下:首先从已有文本中随机选择部分文本,并建立训练语料库;接着对训练文本进行分词,去掉停用词和标点符号,然后词频统计,并生成各文本类的特征向量;接着分别使用改进互信息、X2统计方法和本文提出的联合特征选择法,对特征空间做降维处理;然后使用粗糙集理论进行属性约简;最后建立BP神经网络文本分类器并初始化网络,用训练语料库训练BP文本分类器,直至网络的训练满足一定的收敛条件。至此,基于BP神经网络的文本分类器构造完成。
其他文献
情绪在人类的日常行为和感官体验中处于核心地位,人类与当前智能机器的最大区别就在于人类具有产生情绪的能力。不断发展的情绪理论有力地支持了计算机科学中人工智能领域的
经济全球化使制造环境发生了根本性的变化,面对全球制造的新形势,企业必须充分利用全球的制造资源,实现制造资源的动态优化整合,以更快、更好、更省的方式响应市场。然而,传
专利文献数据作为人类科学技术发展的缩影,是世界上最大的技术信息源。有效地分析这些专利数据文献,进一步发现其中蕴含的知识,对指导各个生产科研单位的生产和科技创新具有
近年来,中国企业越来越多的参与到国际海运市场中,而国际干散货航运市场作为一个近似完全竞争市场,运费价格在一周之内变化可高达20%以上,其波动性对船公司和货主来说风险都
Web日志挖掘是数据挖掘研究领域中一个重要的方面,旨在调整网站结构,优化服务性能;响应每一个用户的特定需求,为其提供个性化服务等等。Web日志挖掘划分为三个阶段分别为数据
语音识别(ASR)是指机器通过识别和理解把语音信号转变为相应的文本文件或命令的技术,通过语音识别技术实现人机交互,可以使交互过程变得自然、高效。经过多年的发展,语音识别
目前,国内的煤矿安全和生产监控等各种信息采集和传输网络,基本上都是采用分支树型的主从式结构。这种方式存在着诸如有线传感器接入不灵活、在煤矿工作面实现跟进不方便等缺
嵌入式系统、分布式信息处理、无线通信技术、无线网络技术和智能技术的发展推动了无线传感器网络的发展和应用。无线传感器网络现在已被广泛的应用于军用和民用的各个领域。
随着网络对各个领域的渗透,基于Web的网络教育正在日益发展,它作为传统的集中式教学方式的一种补充有着其不可替代的优势,如学习者的学习可以不受时间和地理位置的限制,学习
近年来,Web应用开发已经成为发展最快的一种计算机应用技术,很多计算机应用系统都建立在Web基础之上。J2EE技术的成熟,轻量级开源项目的涌现,为Web应用程序更进一步的发展提