论文部分内容阅读
随着计算机技术在交通行业中的广泛应用,以及交通行业的迅速发展,推进交通信息化建设,既是实现交通现代化的必然选择,也是加快交通发展的重要手段,交通行业在信息化建设过程中,越来越需要统一的数据标准来提高交通数据信息的规范化,本文在“交通运输信息数据标准符合性检测”项目的支撑下,研究交通信息数据中文名称的对应方法,它是开发交通信息数据与标准规范符合性检测系统的重要功能模块,同时也是实现交通行业信息化标准化的基础,对推进交通信息化建设意义重大。本论文研究并实现了交通数据中文名称与标准术语的对应方法和相关模块。首先在对中文分词技术分析的基础上,采用基于ICTCLAS系统的统计方法进行分词,对ICTCLAS原有词库进行扩充,向其中添加描述交通领域的专业词语。实验证明,经过处理后,该系统分词结果能够满足本文的研究需要,能够对交通数据的中文名称进行合理切分;然后,进行特征词的提取,并根据TF-IDF方法进行特征向量权值的计算。本文在对中文文本预处理的基础上,对几种相似度计算方法进行了研究,并对各算法分别进行了设计与实现。其中包括传统编辑距离、编辑距离的改进算法、基于语境相似度算法,以及综合考虑编辑距离和语境共同影响的综合相似度计算方法。通过对以上算法的实验结果进行分析比较,选取综合相似度计算方法作为实现交通数据中文名称与标准术语符合性检测的方法,该方法能够较准确的实现本系统中用户数据的对应,能够实现交通数据中文名称的查找。本文将综合相似度计算方法应用到“交通运输信息数据标准符合性检测系统”中的“符合性检测”模块,系统运行比较稳定,主要功能基本能够实现,达到实际应用要求。