非监督中文短文本相似度算法的研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:Ada111222333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随着人们在互联网平台上越来越多的中文信息日常交流、获取和存储,互联网上同时出现了大量的不规范的短文本信息,这些短文本大多来源于拼音打字和语音输入,它们缺乏完整的语法结构,存在很多的同音错别字,给数据分析和处理工作带来一定的困扰。因此,如何对这些文本进行及时有效的处理,从中提取出准确的信息,一直都是自然语言处理领域的重要的任务。短文本相似度的计算就是其中的重要课题之一。由于通过人工标记短文本相似度的数据集非常耗时耗力,所以非监督的短文本相似度算法是需要重点关注的算法。而非监督短文本相似度一直存在着准确率偏低的问题,因此本文针对非监督中文短文本相似度算法做了分析与研究,并提出了改进算法。本文以提高非监督中文短文本相似度算法准确率为目的,提出了两个改进算法。本文对基于语义和基于空间向量的两大类相似度算法中的几个经典算法进行了细致的研究和分析,与本文提出的两个算法做了大量的对比实验,并且用大规模中文问题匹配语料库LCQMC对这两个算法进行了实验验证。本文提出的的第一个算法是基于《同义词词林》的特征扩展算法。该算法可以解决短文本向量存在的特征稀疏问题,本文借助外部语义知识库《同义词词林》做短文本的特征扩展算法,并用五种常用的经典空间向量模型做对比实验。实验证明,该特征扩展算法能够有效地提升短文本相似度的精度,在五种经典空间向量算法上,准确率和F1-score都有3%左右的提升。本文提出的第二个算法是一种基于字音和词意的融合算法,主要针对结构不完整,容易出现同音错字的口语化短文本。该算法将短文本的字音、字符、词意(包括词序、词性等内容)作为文本特征,并通过这些特征来分别构建特征向量,计算每一种向量的相似度,然后通过融合算法计算出文本的综合语义相似度值,最终完成了融合字音、字符和词意的融合相似度计算方法。该方法在LCQMC数据集上得到的准确率和F1-score分别达到了83.6%和85.8%,比基于TF-IDF权重的句向量算法得到的结果高出6.5%和9.8%,比基于SIF的句向量算法得到的结果高出5.3%和8.3%,通过对比实验证明该算法是一个比较可靠的非监督中文短文本相似度算法。
其他文献
因其制作方法简单、结构参数可调,使得阳极氧化铝在纳米结构模板上应用广泛。即便表面组装多数材料后,阳极氧化铝(Anodic Alumina Oxide,AAO)仍能保持稳定的机械性能,所以目前在光电转换、海水过滤、物质催化合成还有等离子体光学和生物分析上,阳极氧化铝均发挥着巨大的作用。为了探究更多的应用,除了可以利用不同的附载的材料外,制备方法的不同对最终应用也会有影响。所以,本文基于不同制作方法上
在有机发光二极管(Organic light-emitting diode,OLED)的经典三层结构中,发光层是决定OLED器件最终性能的重要组成部分。传统荧光材料是第一代应用于发光层的材料,经量子统计可知,传统荧光材料的发光仅由占比为25%的单重态激子完成,所以内量子效率(Internal quantum efficiency,IQE)最高仅能达到25%,因而其应用研究受到了限制。相比之下,作为
许多与老龄化相关的退行性疾病和代谢性疾病均与淀粉样多肽/蛋白的错折叠以及随之而产生的细胞表面不溶性淀粉样沉积息息相关,这些淀粉样沉积物都含有大量的β-折叠纤维状聚集体。人胰岛淀粉样多肽(hIAPP)在胰岛β细胞表面的纤维化聚集过程与II型糖尿病(T2DM)的病理学有着密切的联系,而生物可利用的二价金属离子(如钙、锌、铜离子)对hIAPP的纤维化聚集和细胞毒性具有重要的影响,它们在人体内的失衡可加重
近年来儿童烧伤发病率持续升高,早期覆盖创面是治疗大面积烧伤的关键,然而儿童皮肤薄且供皮区少,容易形成瘢痕增生,如何增大皮片扩展比以及减少瘢痕增生是儿童烧伤创面修复的关键。MEEK微型皮片移植技术20世纪90年代起开始应用于临床,因其具有较高的扩展比、较短的手术时间及创面修复时间、较轻的瘢痕增生等优势,逐渐应用于烧伤创面覆盖。本文对MEEK微型皮片移植技术的临床应用及研究进展进行综述。
有机光电功能材料具有独特的电子结构和光电特性,因此在有机发光二极管,有机固态激光器和有机场效应晶体管等领域中展现出广阔的应用前景。对于有机发光晶体,除了发光分子本身的化学结构之外,分子聚集态结构是决定其光学性能的主要因素。有机共晶发光材料通过多种组分有序组装而成,其特殊的分子堆积方式、聚集态结构以及不同组分之间的协同效应,使其不仅保留单一组分的固有性质,而且展现出更多新颖的宏观光电特性。这使得有机
对大多数人来说,屠呦呦这个名字并不陌生。她是中国中医科学院终身研究员,以"发现青蒿素,开创疟疾治疗新方法"荣获诺贝尔生理学或医学奖。这项成果,为人类带来了一种全新结构的抗疟新药,解决了长期困扰医务工作者及相关研究人员的抗疟治疗失效难题,标志着人类抗疟步入新纪元。
期刊
地震波走时层析成像方法是通过对地震波的地震走时数据的分析反演就能得到地下介质的速度结构。地震波走时层析成像反演主要分为正演和反演两个环节,其中正演的射线追踪是近年来研究的热门技术。射线追踪的方法种类由很多,基于射线理论的传统射线追踪方法打靶法和弯曲法;还有基于在网格单元中扩展的有限差分法、最短路径法、基于程函方程的快速行进法;基于上述两种理论的波前构造法等。基于程函方程的快速行进法在多年以来前人的
反射率光谱通常与矿物类型和丰度相关,它还与矿物的化学成分及其细微变化相关,反过来也可以根据矿物的化学成分变化解释光谱数据。氧化铁广泛分布在地球表面,它的矿物形式如赤铁矿、针铁矿、黄钾铁矾,野外研究表明它们的富集带通常分布在矿床周围,如斑岩铜矿床,因此氧化铁在地质环境勘探中很重要,常用于矿物勘探的指标。本文研究基于小波包分析方法提高氧化铁丰度的定量反演精度。从ASTER光谱库选取35个已知氧化铁含量
纳米反应器由于其独特的纳米限域环境,不仅能将内腔中的酶分子与外界环境分隔保护起来,还可使不同的酶在空间上彼此临近,缩短其底物传输距离,实现多酶级联催化,増强其协同作用和转化效率。然而,如何进一步改善纳米反应器的靶向识别能力,使其能够选择性富集,并利用外界环境变化调节其膜的通透性,使多酶级联反应的底物与产物可自由内外交换,同时又限制了酶分子的逃逸,模拟生物膜的半透性屏障,仍是纳米反应器设计与制备的难
重力勘探可以获取地下不均匀密度分布的综合响应,对大区域数据的精细、高效率密度成像是重力勘探中一个重要需求。然而,反演一个复杂且耗时的过程,它非常依赖于初始模型和使用的约束,并且考虑到计算量和计算时间问题,反演在进行实际数据处理时会面临计算效率的限制。高效计算设备和计算技术快速发展,密度分布实时成像仍具有未开发的潜力。若对调查区域进行整体三维建模,将面临两个主要瓶颈:一是需要大量的计算机内存来存储灵