论文部分内容阅读
当前基于语料库的方法通常受制于所采用的语料库从而难以避免数据稀疏问题,而基于知识的方法虽然简单有效不使用语料库进行训练但多受人的主观意识影响。本文意图探索即简单有效又无需受制于大规模语料库的单词语义相似度度量方法。结合语言的不精确性,本文基于朴素贝叶斯模型、主观Bayes方法、证据理论、确定因子、云模型和模糊集对单词语义相似度进行建模,探讨不确定性理论用于单词语义相似度度量的可行性。利用人工标注样本集采用云模型和模糊集建模部分群体依据单个特征判定语义相似度,然后再将证据合成量化单词语义相似度;并分析了特征模糊化对单词语义相似度的影响。在数据集R&G(65)上,对比算法评判结果与人类评判结果的相关度,其样本Pearson相关系数均高于0.91,比当前最优方法高出至少0.4个百分点,比经典算法高出7~13个百分点;Spearman相关系数均高于0.86,比经典算法高出9~19个百分点。在数据集M&C(30)和WordSim353上也取得了比较好的实验结果。同时本文所提方法的执行效率和经典算法相当。实验结果显示使用不确定性理论量化单词语义相似度是合理有效的,其中利用云模型建模单词语义相似度效果最佳。