短文本与词语的相关度计算与评测方法

来源 :贵州师范大学 | 被引量 : 0次 | 上传用户:serena_gy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理(NLP)中,当前词语相关性研究对象主要局限于词对相关性,且计算方法和评测手段皆独立于待分析文本。词对相关性是目前已明确提出并得到广泛研究的一种相关性。但由于相关度的特性,要找寻一种接近人类的的直觉的计算方法仍然是困难的,“词对相关性度量”这一项基础技术就在信息检索等任务上都有着广泛的应用前景。因此词对相关性研究仍是计算语言学深入研究的内容,是NLP众多任务中的一个基础性研究课题。如果能解决词与各种语义单元的相关性度量问题,可以使NLP各项任务有所突破。不同于词对相关度(一对词语之间的相关度)的研究,本文提出了短文本与词语的相关度序列的概念。用于度量相关性的两方分别是:短文本及短文本中的语义单元(无论该语义单元是否语言学上严格的词);相关度序列主要指短文本中一系列词语与该短文本之间的语义相关性按照某种方式排序所得的有序序列。对相关度序列的获取,本文以语义单元间多种形式的NOIR和语义单元与短文本相关度建立相对应的关系,提出了升权值排序、最优路径排序、最和谐排序、关系和降权排序4种相关度序列的计算方法,并由计算方法按一定的途径获取相应的相关度序列。由相关度计算方法所获取的相关度序列,如何评价其优劣,即对计算方法的评测,这便涉及到评测数据的构建和参数的选取。本文通过寻找参与者对语义单元与短文本的相关性强弱进行评价,对评价数据按照一定的计算方法,获取基于人类直觉的相关度序列,完成任务所需要的评测数据的构建。对计算方法的评测,本文选取了四种参数来评测计算方法获取的相关度序列与人工获取的相关度序列之间的相似度。本文提出了一个新问题,提出了多种相关度序列的计算方法,并对所获取的相关度序列评测提出了多种参数。对上边提到相关度序列的计算方法,由语义NOIR和语义与短文本相关度联系起来,这种研究思路具有一定的新颖性。在对相关度序列的计算方法评测中,有序序列的相似度计算在相关度序列的计算方面有一定的应用价值,本文的工作在词汇语义的相关度研究上具有一定的意义。
其他文献
本文讨论了概率密度函数的估计及其众数的决定问题,给出了构建密度函数p(x)及其众数的函数估计类的方法,且证明了此函数类具有弱相合性和渐近正态性.Ryzin给出了多元随机变
  本文设λKυ为完全多重图,G是一个无孤立点的有限简单图,λKυ关于G的图设计(填充,覆盖)记作GD(υ,G,λ)(PD(υ,G,λ),CD(υ,G,λ))=(X,B),其中,X是完全图Kυ的顶点集,B是同构于G的Kυ
本论文致力于研究用Magnus级数方法求解时间相关的Schrodinger方程时的一些特点和应用.论文给出了由Magnus级数方法和不同求积公式结合得到的三个公式,分析给出了它们的阶,并
  本文利用可积系统研究从偏微分方程uxxx=~F(u,ux,ut)到非线性偏微分方程G(v,vx,vt,…,xv,…,ltv)=O的Miura变换u→v。在一些限制条件下,我们对Miura变换进行了分类,并把经典的从M
内容摘要:本文在第一和第二章主要证明了以下结论:( Ⅰ)设m,d都是正整数,且m≥2,G是一个(2md+1)-正则图,证明了若G不含(2m-3)d+4条割边,则G有一个2d-因子,进而说明上述结果是
学位
本文主要内容包括两部分:  第一部分:详细讨论了上下文无关文法理论上的一些新发展以及在并行编译中的应用.重点介绍两种特殊文法:LL(1)文法和乔姆斯基范式的并行处理基础和判