基于共现的汉语词的分布表示学习与改进

来源 :计算机科学 | 被引量 : 0次 | 上传用户:fondfood
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词与其上下文的共现矩阵是词的分布表示学习的关键。在构造共现矩阵时,可采用不同方法来度量词与其上下文之间的关联。文中首先介绍了3种词与其上下文的关联度量方法并构造了相应的共现矩阵,使用同一个优化求解框架学习得到词的分布表示,在中文词语类比任务和语义相似性任务上的评价结果显示,GloVe方法的结果最好;然后进一步对GloVe方法进行了改进,通过引入一个超参数校正词与其上下文的共现次数,以使校正后的共现次数近似服从Zip’f分布,并给出了求解该超参数估计值的方法。基于改进后的方法学习得到的词的分布表示在词语类比
其他文献
相比传统的图像识别方法,利用深度网络可以提取到表征能力更好的特征,从而获得更好的识别效果。现实中任务提供的数据多为无标签数据或部分有标签数据,其为深度网络的学习带来了困难。而迁移学习的方法可以将从源域数据中学习到的知识迁移到目标任务的学习中,以解决有标签数据不足的问题。为了在迁移过程中减小源域和目标域间的图像数据差异,文中提出基于深度动态联合自适应网络的图像识别方法。对网络进行训练时,首先在多层网
优化问题是工程领域常见的问题之一,大多数工程问题的本质是函数优化问题。金字塔演化策略(Pyramid Evolution Strategy, PES)在求解函数优化问题时虽然能够很好地建立种群"
区别于传统光纤传感器、图像识别和Kinect深度图像的旗语动作识别方法,提出了一种基于9轴姿态传感器的旗语动作识别方法。该方法通过佩戴在手腕处的9轴姿态传感器来采集旗语
性能骨架分析技术通过刻画并行应用程序的程序结构,为并行应用程序性能建模提供输入,是大规模并行应用程序性能分析、性能优化的基础。文中针对数值模拟领域中的一类构件化并
近年来,对卷积神经网络的轻量化工作更多的是根据滤波器的范数值来进行裁剪,范数值越小,裁剪之后对网络的影响就越小。这种思路充分利用了滤波器的数值特性,但也忽略了滤波器的结构特性。基于上述观点,文中尝试将凝聚层次聚类算法AHCF(Agglomerative Hierarchical Clustering Method for Filter)应用到VGG16上,并利用此算法的结果对滤波器进行冗余性分析和
流媒体服务器集群的整体负载能力很大程度上受其服务时延和带宽负载均衡程度的影响。因此如何提高服务实时性和均衡带宽负载是提升流媒体服务器集群服务能力的关键。为此,提
群智感知中,如何保护用户的地理位置隐私是核心问题之一。传统地理位置隐私保护方法通常需要对攻击者的先验知识进行假设,才能保证相应的保护效果。近期,一种新型的地理位置
基于知识库的问答系统旨在通过解析用户的自然语言问句直接在知识库中提取出答案。目前,大多数知识库问答模型都遵循实体检测和关系识别这两个步骤,但是此类方法忽略了知识库
对疾病相关风险项的分析是数据挖掘理论在医疗领域应用的一个重要内容,可以帮助医生分析疾病成因,从而有效地开展防治工作。医学领域的疾病数据有其自身的特征,例如其高度不
格上基于身份的加密机制(Identity-Based Encryption, IBE)能够有效抵抗量子攻击,并且该机制将每个人的身份信息作为公钥,能够简化公钥基础设施(Public Key Infrastructure,