基于遗传算法的中文文本特征选择方法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：tanwenbin89

【摘要】

：

计算机的发明无论是对社会的发展还是对个人的日常生活都带来了巨大的变革，互联网的诞生标志着信息时代的来临，“信息爆炸”是这个时代典型的特征之一。政府、机构、公司等利用

【作者】

：

苏双全

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2011年期

【关键词】

：

遗传算法中文文本特征选择适应度函数

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

计算机的发明无论是对社会的发展还是对个人的日常生活都带来了巨大的变革，互联网的诞生标志着信息时代的来临，“信息爆炸”是这个时代典型的特征之一。政府、机构、公司等利用网络发布信息，人们利用网络获取消息。每一台电脑既是互联网的入口，也是互联网的出口。海量的信息在互联网里穿梭，但是人们发现，并不是每一条信息都是我们需要的，垃圾信息成堆挡住了我们的视野，我们需要办法来对这些信息进行处理。　　文本分类是目前解决这个问题的一个重要的手段。我们可以对网络信息进行分类，然后分门别类的存储，就像图书馆的书籍一样，需要什么信息我们就去找对应信息。但是网络信息以许多种方式存在，结构化文档，半结构化文档和无结构化文档，网页，各种各样电子书。想要获取这些信息的内容并不简单，想要对这些信息进行分类存储，首先要把那些与内容无关的信息处理掉，然后可以选取文本的特征，最后我们才能分类。　　本文主要研究文本分类中的特征选择方法，采用遗传算法完成文本的特征选择，提出了一些有针对性的算法改进措施。本文的主要工作有：　　 1.分析和比较各种文本特征选择方法，研究它们各自的优点和不足。　　 2.分析了普通遗传算法的基本概念，基本理论，算法流程，总结了算法优缺点，提出了改进方法。　　 3.针对遗传算法和文本特征选择方法的特点，本文设计优化了适合文本特征选择的适应度函数，采用了合适的编码方案。　　 4.针对普通遗传算法收敛慢或者不收敛、出现“早熟”等不足之处，本文改进了遗传算法的选择操作，交叉操作，变异操作。　　 5.搭建了相关实验平台，实验验证了算法的可行性和有效性。

其他文献

力感应触摸屏网球游戏的设计与开发

电脑游戏已成为计算机产品市场上一个不可或缺的产业，触摸屏凭借友好的人机交互模式[1-2]以及更加敏感的电容技术获得了消费者的青睐，触摸屏游戏也应运而生。继苹果公司的ipad

学位

力感应触摸屏网球游戏人机交互电容技术

基于WiFi指纹的室内定位融合算法研究

随着互联网和无线通信技术的高速发展，人们在平日生活中对于位置服务的需求大量增长。当前室外环境下基于GPS的定位技术已经发展日趋成熟，但是由于室内环境复杂多变、结构比较

学位

室内定位位置指纹无线局域网络信息融合

基于BREW平台的移动终端短信模块的研究与实现

随着移动互联网的不断普及,短信、图铃、游戏、影音、导航、手机支付等多种多样的移动应用迅猛发展,各种移动开发平台层出不穷。BREW是高通提出的基于无线网络的,开放的,完整

学位

BREW移动终端有限状态机短信

嵌入式环境下代码动态性能分析的研究与实现

随着计算机的发展和人民生活水平的提高,嵌入式领域得到了迅速的发展,嵌入式系统的开发受得前所未有的挑战,因此一个功能丰富、简单易用的嵌入式开发工具就显的很重要了,它将

学位

嵌入式系统Eclipse动态分析性能分析

OpeN-API集成平台研究与设计

随着开发环境越来越开放，运营商开放丰富的电信网络资源能力，互联网平台提供特色的API供广大开发者使用成为新型的商业模式，从而达到降低开发者开发门槛，减少开发周期，激励开发者

学位

互联网平台电信资源服务提供商API集成开放平台权限控制

基于SaaS的表单管理平台和规则引擎整合的研究

随着软件即服务(SaaS)的飞速发展，SaaS模式给租户带来了极大方便，也给SaaS提供商带来了很多机会。如何让SaaS服务更为灵活的适应租户的业务，并且能够随时跟从租户的业务变化、方

学位

软件即服务表单管理平台规则引擎规则库管理系统租户权限数据隔离

基于Hadoop节点监控的任务调度的设计与实现

随着互联网、移动互联网的快速发展，互联网从开始的内容的传递者到内容的第一生产地，从社会精英的通信、信息管理和计算工具到社会大众的身边事分享、娱乐及日常购物工具，互联网

学位

Hadoop平台作业调度节点监控Deadline技术计算性能系统吞吐率

基于业务量预测的无线接入网节能方案生成方法

随着人类对能源消耗的增长，能源稀缺和环境污染问题越来越严重。研究显示，近五年来信息与通信技术(ICT)行业消耗的能量在全球所占的比例由2％增长到10％，并且有快速增长的趋势。同时

学位

自组织网络触发条件业务量预测无线接入网节能方案生成方法

基于Click的Openflow路由机制的研究与实现

近年来，网络技术正得到飞速发展，与之同时得到快速发展的是网络试验床技术。由斯坦福大学提出的Openflow技术便是其中之一。Openflow是一种控制与转发相分离的网络结构，科研人员

学位

Click模块化路由器Openflow技术路由机制动态路由协议NOX控制器

基于BBS的网络舆情热点发现及演化的研究

在互联网快速发展的今天，网络已经成为人们各抒己见，品头论足的重要媒介之一。在这些互联网网站中，BBS提供了一个人与人交互意见、想法的平台，对网络舆情的传播和导向起着非常重

学位

BBS数据网络舆情热点发现事件演化子话题关联

基于遗传算法的中文文本特征选择方法研究

与本文相关的学术论文