论文部分内容阅读
本文的研究内容是全国组织机构代码管理中心汉英共享平台的重要组成部分,研究企业经营范围的自动分类方法。随着网络技术的不断发展和成熟,各种各样的数字化的信息越来越多并且还在不断的增长,文本自动分类方法的提出很好的解决大量文档信息的归类问题,并成为解决该问题的一项关键技术。而中文分词技术是中文信息处理中的重要环节,中文分词算法与中文分类系统的性能紧密相关。企业经营范围用于描述企业所从事经营活动的业务范围,这些业务范围是进行企业经济行业划分的重要依据。为了完成企业经营范围自动分类方法的研究,我们对企业经营范围进行了比较全面的分析。首先,从语言构成上来看,企业经营范围的长度通常较短(少则几个字多则几十个字),虽然语法结构并不复杂且结构较为单一,但其语法成份中包含大量的一般分词算法并不擅长处理的名词实体,现有分词算法在处理较长篇幅的文档分类时,如新闻报道、科技文献等,分词结果应用于文本分类时比较理想,而对于较短的文档或某一特殊领域的短文档,比如短篇的Email、聊天记录、企业经营范围等,直接使用传统的分词结果会出现明显的数据稀疏现象。其次,从数据质量上来看,企业经营范围数据集包含大量的噪声数据,这是由于企业经营范围数据规模较大(约为2千万),企业经营范围对应的经济行业类别是由各地分属机构的工作人员人工进行分类并录入的,由于人类个体间的差异,使录入数据存在一定程度的不一致现象和错分现象。最后,企业经营范围对应95类经济行业,类别数目较多,分类难度较大。为了解决上述问题,实现高效的企业经营范围自动分类系统,本文又提出:自学习分词算法,用于实现企业经营范围的自动分词及特征项提取;基于SVM的数据校正方法,用于消除企业经营范围数据集中包含的大量噪声数据;基于朴素贝叶斯的Boosting分类算法,用于实现企业经营范围的自动分类功能。综上所述,本文利用所提出的方法实现了一个实用、高效的企业经营范围自动分类系统,而且对分类系统的整体框架,及其各个模块的框架进行了说明,并给出了分类系统的实验结果和分析。实验结果得到了全国组织机构代码管理中心的认可,达到了实用程度。