企业经营范围字段自动分类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：Miss_Han

【摘要】

：

本文的研究内容是全国组织机构代码管理中心汉英共享平台的重要组成部分,研究企业经营范围的自动分类方法。随着网络技术的不断发展和成熟,各种各样的数字化的信息越来越多并

【作者】

：

范敏敏

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2010年期

【关键词】

：

经营范围自学习分词短文本分类数据校正朴素贝叶斯

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文的研究内容是全国组织机构代码管理中心汉英共享平台的重要组成部分,研究企业经营范围的自动分类方法。随着网络技术的不断发展和成熟,各种各样的数字化的信息越来越多并且还在不断的增长,文本自动分类方法的提出很好的解决大量文档信息的归类问题,并成为解决该问题的一项关键技术。而中文分词技术是中文信息处理中的重要环节,中文分词算法与中文分类系统的性能紧密相关。企业经营范围用于描述企业所从事经营活动的业务范围,这些业务范围是进行企业经济行业划分的重要依据。为了完成企业经营范围自动分类方法的研究,我们对企业经营范围进行了比较全面的分析。首先,从语言构成上来看,企业经营范围的长度通常较短(少则几个字多则几十个字),虽然语法结构并不复杂且结构较为单一,但其语法成份中包含大量的一般分词算法并不擅长处理的名词实体,现有分词算法在处理较长篇幅的文档分类时,如新闻报道、科技文献等,分词结果应用于文本分类时比较理想,而对于较短的文档或某一特殊领域的短文档,比如短篇的Email、聊天记录、企业经营范围等,直接使用传统的分词结果会出现明显的数据稀疏现象。其次,从数据质量上来看,企业经营范围数据集包含大量的噪声数据,这是由于企业经营范围数据规模较大(约为2千万),企业经营范围对应的经济行业类别是由各地分属机构的工作人员人工进行分类并录入的,由于人类个体间的差异,使录入数据存在一定程度的不一致现象和错分现象。最后,企业经营范围对应95类经济行业,类别数目较多,分类难度较大。为了解决上述问题,实现高效的企业经营范围自动分类系统,本文又提出:自学习分词算法,用于实现企业经营范围的自动分词及特征项提取;基于SVM的数据校正方法,用于消除企业经营范围数据集中包含的大量噪声数据;基于朴素贝叶斯的Boosting分类算法,用于实现企业经营范围的自动分类功能。综上所述,本文利用所提出的方法实现了一个实用、高效的企业经营范围自动分类系统,而且对分类系统的整体框架,及其各个模块的框架进行了说明,并给出了分类系统的实验结果和分析。实验结果得到了全国组织机构代码管理中心的认可,达到了实用程度。

其他文献

单轴气浮台测控系统的设计与实现

气浮转台作为一个数控转台，用于模拟外层空间的失重和低摩擦条件，从而实现卫星控制系统的全物理仿真。气浮转台依靠压缩空气在气浮轴承与轴承座之间形成气模，从而近似实现外太空

学位

单轴气浮转台测控系统系统设计软件设计模糊控制算法

分子三次分母一次第二类有理样条权函数神经网络灵敏度分析及其应用

传统的梯度下降类神经网络存在着诸如收敛速度慢、局部极小等无法避免的缺点,虽然很多学者从多方面进行了改进,但是这些改进无法从根本上解决问题。因此本文中,用分子三次、

学位

样条权函数神经网络有理样条插值误差分析灵敏度分析FPGA硬件实现

云计算环境下面向数据密集型应用的任务和资源调度研究

云计算已经在当前各个领域得到了越来越深入的应用。特别在科学计算领域,很多复杂的应用任务被部署到云计算环境下运行。因此,任务调度在云计算系统中非常重要。云平台因其独

学位

云计算虚拟机虚拟化任务调度资源分配

基于改进遗传算法的网络资源优化配置方法研究

随着因特网的发展，越来越多具有QoS 要求的业务接入因特网。网络规模的不断扩大以及业务种类的日趋多样化，使得业务QoS 需求与资源消耗代价之间的矛盾日益加剧。如何去协调两者

学位

网络优化遗传算法QoS

基于多约束的QoS组播路由算法研究

近年来,网络的迅速发展使“尽力而为服务”已经不能满足用户传输业务流时提出的要求。尤其是目前Internet发展迅速,而且其节点数还正在呈指数级增长;网络传输正在向大容量、

学位

组播QoS蚁群算法

一种企业数据空间可视化汇聚流程建模方法与查询优化策略

在信息化建设过程中,企业逐步开展业务系统建设,并积累了大量的业务数据,如何充分利用这些数据为企业提供高附加值信息是研究的热点问题之一。但由于业务系统的建设时期、建

学位

企业数据空间缓存可视化建模数据集成实时查询

基于GIS_GPS的武警作战指挥系统关键技术研究与实现

武警部队作战指挥系统研究是武警部队信息化建设的重要内容。本文研究了基于GIS_GPS的武警作战指挥系统中的三项关键技术,主要研究内容为：武警标号：研究了基于MapX控件实现武警

学位

GISGPS武警标号地图匹配路径规划

基于商用工艺的抗辐射SRAM设计与实现

静态随机存储器作为半导体存储器大家族的主要成员,是世界上应用最广泛的存储器,它是数字处理、信息处理、自动控制设备中不可缺少的部件。随着空间技术的快速发展,越来越多

学位

抗辐射静态随机存储器设计加固单粒子翻转

混合算法在物流运输问题中的研究和应用

物流运输是当今一个热门的问题。随着我国经济的快速发展,城市基础交通设施的建设,物流运输路线的选择就可以理解为一个组合优化的NP问题。如何合理的安排物流运输路线已成为

学位

物流运输组合优化混合算法遗传算子最短路径

互联网服务社区中服务资源的调用技术研究

伴随、Web2.0的发展,不同类型、风格各异的服务迅速的蔓延至整个互联网,并且越来越多的服务提供者加入其中,这对服务资源的管理带来了挑战。互联网服务社区作为一种Internet

学位

互联网服务社区动态调用调用框架类加载器

企业经营范围字段自动分类方法研究

与本文相关的学术论文