企业经营范围字段自动分类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Miss_Han
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的研究内容是全国组织机构代码管理中心汉英共享平台的重要组成部分,研究企业经营范围的自动分类方法。随着网络技术的不断发展和成熟,各种各样的数字化的信息越来越多并且还在不断的增长,文本自动分类方法的提出很好的解决大量文档信息的归类问题,并成为解决该问题的一项关键技术。而中文分词技术是中文信息处理中的重要环节,中文分词算法与中文分类系统的性能紧密相关。企业经营范围用于描述企业所从事经营活动的业务范围,这些业务范围是进行企业经济行业划分的重要依据。为了完成企业经营范围自动分类方法的研究,我们对企业经营范围进行了比较全面的分析。首先,从语言构成上来看,企业经营范围的长度通常较短(少则几个字多则几十个字),虽然语法结构并不复杂且结构较为单一,但其语法成份中包含大量的一般分词算法并不擅长处理的名词实体,现有分词算法在处理较长篇幅的文档分类时,如新闻报道、科技文献等,分词结果应用于文本分类时比较理想,而对于较短的文档或某一特殊领域的短文档,比如短篇的Email、聊天记录、企业经营范围等,直接使用传统的分词结果会出现明显的数据稀疏现象。其次,从数据质量上来看,企业经营范围数据集包含大量的噪声数据,这是由于企业经营范围数据规模较大(约为2千万),企业经营范围对应的经济行业类别是由各地分属机构的工作人员人工进行分类并录入的,由于人类个体间的差异,使录入数据存在一定程度的不一致现象和错分现象。最后,企业经营范围对应95类经济行业,类别数目较多,分类难度较大。为了解决上述问题,实现高效的企业经营范围自动分类系统,本文又提出:自学习分词算法,用于实现企业经营范围的自动分词及特征项提取;基于SVM的数据校正方法,用于消除企业经营范围数据集中包含的大量噪声数据;基于朴素贝叶斯的Boosting分类算法,用于实现企业经营范围的自动分类功能。综上所述,本文利用所提出的方法实现了一个实用、高效的企业经营范围自动分类系统,而且对分类系统的整体框架,及其各个模块的框架进行了说明,并给出了分类系统的实验结果和分析。实验结果得到了全国组织机构代码管理中心的认可,达到了实用程度。
其他文献
气浮转台作为一个数控转台,用于模拟外层空间的失重和低摩擦条件,从而实现卫星控制系统的全物理仿真。气浮转台依靠压缩空气在气浮轴承与轴承座之间形成气模,从而近似实现外太空
传统的梯度下降类神经网络存在着诸如收敛速度慢、局部极小等无法避免的缺点,虽然很多学者从多方面进行了改进,但是这些改进无法从根本上解决问题。因此本文中,用分子三次、
云计算已经在当前各个领域得到了越来越深入的应用。特别在科学计算领域,很多复杂的应用任务被部署到云计算环境下运行。因此,任务调度在云计算系统中非常重要。云平台因其独
随着因特网的发展,越来越多具有QoS 要求的业务接入因特网。网络规模的不断扩大以及业务种类的日趋多样化,使得业务QoS 需求与资源消耗代价之间的矛盾日益加剧。如何去协调两者
近年来,网络的迅速发展使“尽力而为服务”已经不能满足用户传输业务流时提出的要求。尤其是目前Internet发展迅速,而且其节点数还正在呈指数级增长;网络传输正在向大容量、
在信息化建设过程中,企业逐步开展业务系统建设,并积累了大量的业务数据,如何充分利用这些数据为企业提供高附加值信息是研究的热点问题之一。但由于业务系统的建设时期、建
武警部队作战指挥系统研究是武警部队信息化建设的重要内容。本文研究了基于GIS_GPS的武警作战指挥系统中的三项关键技术,主要研究内容为:武警标号:研究了基于MapX控件实现武警
静态随机存储器作为半导体存储器大家族的主要成员,是世界上应用最广泛的存储器,它是数字处理、信息处理、自动控制设备中不可缺少的部件。随着空间技术的快速发展,越来越多
物流运输是当今一个热门的问题。随着我国经济的快速发展,城市基础交通设施的建设,物流运输路线的选择就可以理解为一个组合优化的NP问题。如何合理的安排物流运输路线已成为
伴随、Web2.0的发展,不同类型、风格各异的服务迅速的蔓延至整个互联网,并且越来越多的服务提供者加入其中,这对服务资源的管理带来了挑战。互联网服务社区作为一种Internet