论文部分内容阅读
在自然语言处理(NLP)中,当前词语相关性研究对象主要局限于词对相关性,且计算方法和评测手段皆独立于待分析文本。词对相关性是目前已明确提出并得到广泛研究的一种相关性。但由于相关度的特性,要找寻一种接近人类的的直觉的计算方法仍然是困难的,“词对相关性度量”这一项基础技术就在信息检索等任务上都有着广泛的应用前景。因此词对相关性研究仍是计算语言学深入研究的内容,是NLP众多任务中的一个基础性研究课题。如果能解决词与各种语义单元的相关性度量问题,可以使NLP各项任务有所突破。不同于词对相关度(一对词语之间的相关度)的研究,本文提出了短文本与词语的相关度序列的概念。用于度量相关性的两方分别是:短文本及短文本中的语义单元(无论该语义单元是否语言学上严格的词);相关度序列主要指短文本中一系列词语与该短文本之间的语义相关性按照某种方式排序所得的有序序列。对相关度序列的获取,本文以语义单元间多种形式的NOIR和语义单元与短文本相关度建立相对应的关系,提出了升权值排序、最优路径排序、最和谐排序、关系和降权排序4种相关度序列的计算方法,并由计算方法按一定的途径获取相应的相关度序列。由相关度计算方法所获取的相关度序列,如何评价其优劣,即对计算方法的评测,这便涉及到评测数据的构建和参数的选取。本文通过寻找参与者对语义单元与短文本的相关性强弱进行评价,对评价数据按照一定的计算方法,获取基于人类直觉的相关度序列,完成任务所需要的评测数据的构建。对计算方法的评测,本文选取了四种参数来评测计算方法获取的相关度序列与人工获取的相关度序列之间的相似度。本文提出了一个新问题,提出了多种相关度序列的计算方法,并对所获取的相关度序列评测提出了多种参数。对上边提到相关度序列的计算方法,由语义NOIR和语义与短文本相关度联系起来,这种研究思路具有一定的新颖性。在对相关度序列的计算方法评测中,有序序列的相似度计算在相关度序列的计算方面有一定的应用价值,本文的工作在词汇语义的相关度研究上具有一定的意义。