关联规则制导的遗传算法在文本分类中的应用

来源 :第十九届全国数据库学术会议 | 被引量 : 0次 | 上传用户:zhf2003168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是处理和组织大量文本数据的关键技术,它一直是信息检索领域中的一个研究热点.文本分类旨在将大量文本划分为若干子类,使得各文本子类代表不同的概念主题.文本分类技术被广泛应用于文本处理的诸多领域,如自然语言处理、新闻分类和搜索引擎以及信息检索等. 当前文本分类的常用方法有支持向量机法(SVM)、最近邻居分类法(kNN)、神经网络分类法(NNet)、贝叶斯法(NativeBayes)、决策树方法(DTree)等。尽管国际上已有大量文本自动分类研究成果出现,但对中文文本的自动分类技术研究尚远未尽如人意。本文在考查上述文本分类模型的基础上,提出了利用遗传算法做文本属性的选择。在文中,提到了用遗传算法进行中文Web文档文类的思想,本文对其进行了进一步的讨论,特别是在对简单遗传算法SGA进行深入了解基础上,在遗传编码和适应度函数的设计上进行了改进,提出了关联规则制导的遗传算法(ARGA)。
其他文献
XML(eXtensibleMarkupLanguage)技术自出现以来,发展非常迅速,在许多领域内得到广泛的支持而成为互联网上一种标准的数据交换格式.XML最大的优点是它对数据描述和传送的能力.
会议
随着XML(eXtensibleMarkupLanguage)在过去几年中的发展,XML被作为在线文档的语义保持标记语言,它现在已经成为一种异构系统间数据交换的格式.在现实生活中,XML被广泛应用于
会议
为了提高网络空间复用度,最大化全网吞吐量,提出了一种基于物理冲突模型的功率分配和链路调度算法-PPLA.PPLA首先对整个网络进行六边形三色着色,从而选出可用并行链路集.在此
Internet上的信息量(拍卖物品,股市行情,新闻报道,以及广告发布等)急剧增长,为了不让如此庞杂的信息淹没用户,由此催生了大规模的数据分发应用.在这类应用中,特定的数据被分
会议
网络技术的发展使得Web成为最方便、最丰富的数据源.Web就是数据库,网络存储也成为新的服务模式和经济增长点.XML(eXtensibleMarkupLanguage)在表达查询、查询结果、结构和半
会议
本文中,我们用CO特征定义来表述单词间的相互依存关系,并给出了基于 CO特征定义的文档表示法,特征筛选算法和朴素贝叶斯文本分类算法。从实验结果中可以明显地看出,使用CO特征定
4.逐步实现相关功能致力于开发下一代互联网电视的日本生产商目前大多仍处于第一阶段。多家公司正在开发能够灵活处理视频流的执行环境,其中包括索尼公司的APPlicast、松下公
WWW上产生的海量XML数据已经成为现有关系数据库管理系统(RDBMS)的一个巨大挑战.由于传统的RDBMS主要为结构化的二维表数据而设计,因此它们很难胜任许多基于XML的、半结构化
会议
关联规则挖掘是数据挖掘的重要研究课题,近年来得到了广泛的重视和研究.一个关于关联规则的典型的例子是它在购物篮分析中的应用.本文采取“分而治之”的策略,提出了一种挖掘
会议
文章介绍了会展业的定义及其发展历程,阐述会展业在促进经济发展、带动社会就业、提高城市知名度等方面的积极作用。 This article introduces the definition of MICE indu