使用WMD度量文本距离时为特殊句子增加距离

来源 :清华大学 | 被引量 : 0次 | 上传用户:qifasoft2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文旨在寻找一种方法来增加含有一类特殊词的句子之间的WMD。WMD作为衡量文本间距离的方法具有很多优越性质,但对于诸如编号和特定称谓的一类词语,如果它们的替代性较强,则WMD可能将它们的距离计算得较近,这为实际的应用带来了不便。尽管这一现象的产生与神经网络进行的词嵌入有较强的关系,从词嵌入的角度进行修正往往需要附加额外的语料信息,而对于编号或是特定称谓,在实际应用中经常难以找到合适的语料信息,因而需要寻找不借助额外语料信息的方法。本文使用从银行的智能语音问答系统中所提出的问句作为样本。为解决问题,本文提出三种方法,全部三种方法均未额外利用任何的语料信息,建立在以BOW表示句子中单词权重所计算出的WMD之上,且未对词向量进行任何改动。第一种方法旨在增加编号及特定称谓在计算WMD时的权重,其中权重的提升有一定上限;第二种方法旨在WMD求解之后距离的计算阶段,对包含有编号或特定称谓的那部分距离额外按照一定比例扩大,比例各不相同,且取决于这两个句子;第三种方法则是对所有含有编号或特定称谓的句子之间的距离都按一定比例进行扩大,比例各不相同且取决于这两个句子。对着三种方法进行理论分析表明,使用第一种方法进行计算,所得结果未必仍然能够满足距离的三角不等式条件,而其余两种方法所计算出的结果仍然能满足距离的全部性质。此外,第二种和第三种方案能从细节上保持原先按照WMD所构造出的距离模型的结构。其中第二种方法的理解更为直观,而第三种方法的预期效果更好。用来评价实验好坏的方法包含距离增加的比率、距离最大的增加值以及KNN错误率。其中,距离增加的比率旨在衡量在我们的方法下有多少需要增加的距离有实际上的增加,而KNN错误率则用来衡量新的距离下模型的结构相比于WMD的变化。结果显示,方案二与方案三的距离增加比率均达到0.998,方案二的KNN错误率增加了-0.0017,方案三的错误率增加了0.0011,而方案二的距离最大增加值比方案三小。方案一则在全部指标上表现不佳。因此方案一可看作是无效方案,而方案而与方案三对我们所面对的问题有效。
其他文献
近年来,伴随国内经济的高速崛起,我国黄金产量、用金量逐年攀升,现已跃居为世界第一大产金国和黄金消费国。但与此同时,我国在黄金市场的地位却与市场规模极不匹配,国际市场
党的十八大报告指出,要千方百计增加居民收入。实现发展成果由人民共享,必须深化收入分配制度改革,努力实现居民收入增长和经济发展同步,提高居民收入在国民收入分配中的比重
大豆富含蛋白质、异黄酮、低聚糖、皂苷及磷脂等营养因子,具有改善体质和增强机体的抗病能力。因此,大豆及其制品深受广大消费者的青睐。然而,大豆又属于八大类过敏食物之一
捕收剂与矿物颗粒表面的相互作用是决定浮选效率的前提条件,捕收剂在浮选过程中可以产生疏水引力以克服静电排斥作用。目前关于捕收剂在煤表面的吸附动力学与热力学已进行了
“中国制造”有着十分久远的发展历史。“丝绸之路”开辟以来,中国就已经开始了对外的出口贸易发展,中国的丝绸、陶瓷以及造纸、冶铁等技术相继传入西方,扩大了古代中国在世
在新型政产学研协同创新过程中,以专利技术为代表的创新成果只有跨越了实验室与工厂之间的“死亡之谷”真正推动产业发展,才显示出其经济价值。校企双方以专利技术为标的发生的转让关系强弱是衡量科技创新对社会生产力提升程度的重要指标。本文首先阐述背景意义、研究思路及方法,对国内外现有研究进行评述。其次确定数据范围、来源,检索式并对数据筛选原则进行详细介绍。实证部分以20112018年《高等学校科技统计资料汇编
学位
生活中广泛存在气-液两相流,因其流动的非线性、耦合的复杂性和相态的非连续性,成为目前亟待解决的基础理论研究课题。能源工程中,页岩气开采要保持长期的开采速率,而二氧化
500米口径球面射电望远镜(Five hundred meters Aperture Spherical radio Telescope,FAST)是当前国际上口径最大、分辨率和灵敏度最好的单天线射电天文望远镜。相位阵馈源是
目的:通过观察加减毓麟珠对肾虚血瘀型薄型子宫内膜患者内膜厚度的改善情况,并比较治疗前后患者中医证候评分、月经量评分、子宫肌层血流RI和PI值、激素五项的变化情况及不孕患者妊娠率,探讨加减毓麟珠治疗薄型子宫内膜的作用机制。方法:采用随机平行对照的实验方法,收集符合中西医诊断标准的患者共60例,随机分为A、B两组,每组30例。A组为治疗组,运用西药芬吗通+中药加减毓麟珠联合治疗;B组为对照组,仅运用西