论文部分内容阅读
随着地理信息网络共享和志愿者地理信息技术(VGI)的发展,主题内容多样的开放式网络地图服务(Web Map Service,WMS)资源大量涌现,为地学研究与应用提供了丰富的数据资源。但现有元数据标准缺乏显式、细粒度和面向领域的内容描述机制,导致领域专家和服务用户无法快速定位目标专题内的资源数据。目标领域的服务检索需求对服务数据的主题多标签分类提出了迫切的要求。但WMS元数据文本内容纷繁复杂、长短各异、语言不一,地学术语和通识词汇混杂,且缺乏标注应用领域的元数据集,导致WMS元数据文本的精准多标签分类面临着巨大的挑战。本文提出了一种基于半监督学习的WMS元数据文本多标签分类方法,在仅依赖少量标记样本数据的前提下,实现了WMS元数据双层多标签主题匹配。该方法包含特征选择、多标签分类和二次主题提取三部分:1)特征选择:选取社会受益领域(Societal Benefit Areas,SBAs)作为粗粒度领域主题,引入语料库抽取与SBAs语义密切相关的典型词,基于Word2vec算法计算典型词与文本特征的空间距离,实现最优领域特征子集的选择。2)多标签分类:提出多标签分类基模型ML-CSW,该模型以语料库计算得到的文本特征与主题的语义相似度作为文本特征权重,训练主题预测模型。在此基础上,提出基于半监督学习的多标签分类算法SML-SWKNN,将ML-CSW与经典的多标签分类算法ML-KNN(Multi-label K Nearest Neighbor)结合进行协同训练,实现WMS元数据的多标签分类。3)二次主题提取:基于粗粒度领域主题分类结果,利用LDA算法进行二次主题提取,构建双层领域主题目录,获得WMS元数据与双层领域主题的匹配映射关系。为了验证本文多标签分类方法的可行性,本文分别以WMS和图层元数据作为研究对象,开展了特征选择准确性、协同训练基模型准确性和SML-SWKNN算法的分类准确性、语义合理性、适用场景等验证实验。实验结果表明本文提出的特征选择算法能够有效提升分类性能,协同训练基模型单独在数据视图中分类性能也较好。SML-SWKNN算法相比经典的多标签分类算法有较大的提升,且算法在富含主题信息的长英文文本中性能最优。多标签分类和双层主题匹配具备语义合理性,能够推广应用于地理信息门户或目录服务中辅助WMS资源的检索发现。