基于同义词词林和规则的中文远程监督人物关系抽取方法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:cuibo1000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
远程监督是一种根据知识库自动对齐实体进行大规模语料标注的方法,但过强的假设导致获取的语料混有大量的噪声。针对这一问题,提出了一种基于同义词词林和规则的中文远程监督人物关系抽取方法,该方法基于多示例学习思想将人物关系句子划分为包(bag)级,利用同义词词林对人物关系触发词做词频统计,确定最大词频候选关系和次大词频候选关系,再结合特定的人物关系判别规则判断人物关系。对bag判断出某个人物关系后,再对其进一步进行多关系预测,最终得到人物关系预测结果。在大规模的中文远程监督人物关系抽取公开数据集(IPRE)上的实
其他文献
灰狼优化算法在优化后期易陷入局部最优,在求解高维函数时因其复杂度更高,陷入局部最优概率更大,针对上述问题提出基于醉汉漫步和反向学习的混合灰狼优化算法(DGWO)。在迭代过程中对每代种群中优势狼与最差狼进行反向学习并进行比较、重新排序后保留前3的狼,同时将采用醉汉漫步机制更新领导狼,参数A和C采用系数标量而不是GWO原始算法中的系数向量。通过10个标准测试函数(100维、500维和1000维)以及10维的CEC2013测试函数验证了算法的性能,并与PSO、GWO-CS和GWO算法进行了比较,结果表明,该混合
传统方法在进行异构数据库强制访问控制时,未有效控制授权时间,存在系统占用率过高、访问控制准确性差、授权正确率问题。提出一种量化行为的异构数据库强制访问控制方法解决以上问题。建立用户访问权限关系,根据用户内部角色初步判断是否允许操作;采用量化行为方法对用户的信任度与用户行为的信任度进行量化,定量主体行为属性,并评价访问情况的安全等级,实现了异构数据库强制访问控制。实验结果表明,此次研究的异构数据库强
行人再识别是在不同环境下再次对特定行人进行检索,近几年来受到国内外学者的广泛关注。目前行人再识别算法多采用局部特征与全局特征相结合的方法,在单一数据集上的训练和测试取得了非常好的成绩,但是在跨域测试中成绩并不理想,泛化能力较低。提出一种基于深度胶囊网络的跨域行人再识别方法,通过视角分类训练任务,模型可以学习图像中行人的有效特征,这些特征可以直接迁移到行人再识别任务中,缓解了行人再识别泛化能力不足的
针对工业生产中的PCB图像边缘信息缺失且携带有大量噪声,现有去噪算法效果不佳、计算量庞大、复杂度高等问题,提出了一种基于改进NLM的PCB图像去噪算法,旨在提高PCB图像的去噪质量。首先,采用基于形态学的权重自适应算法对PCB图像进行图像增强,使PCB图像保留较好的边缘信息;其次,引入特征匹配模型对增强后的PCB图像与原始PCB图像进行特征点匹配融合;最后,通过改进NLM算法的权重值对PCB图像进
基于k-最近邻(kNN)的分类方法是实现各种高性能模式识别技术的基础,然而这些方法很容易受到邻域参数k的影响,在完全不了解数据集特性的情况下想要得出各种数据集的邻域是比较困难的。基于上述问题,介绍了一种新的监督分类方法:扩展自然邻居(ENaN)方法,并证明了该方法在不人为选择邻域参数的情况下提供了一种更好的分类结果。与原有的基于kNN需要先验k的方法不同,ENaN方法在不同的阶段预测不同的k值。因此,无论是在训练阶段还是在测试阶段,ENaN方法都能从动态邻域信息中学习到更多的信息,从而提供更好的分类结果。
针对传统语言模型的词向量表示无法解决多义词表征的问题,以及现有情感分析模型不能充分捕获长距离语义信息的问题,提出了一种结合BERT和BiSRU-AT的文本情感分类模型BERT-BiSRU-AT。首先用预训练模型BERT获取融合文本语境的词向量表征;然后利用双向简单循环单元(BiSRU)二次提取语义特征和上下文信息;再利用注意力机制对BiSRU层的输出分配权重以突出重点信息;最后使用Softmax激励函数得出句子级别的情感概率分布。实验采用中文版本的推特数据集和酒店评论数据集。实验结果表明,结合BERT和B
警察与强盗博弈是一个图搜索问题,解决该问题的关键是确定能成功捕获强盗的最少警察数。在零可视警察与强盗博弈中强盗不可见:任意时刻警察都不知道强盗所在位置。通过建立顶点清理模型对三维网格图的性质进行分析,将三维网格图的顶点集划分成2个子集,导出划分中较小子集与边界的关系,并利用划分中的结论,给出三维网格图中最少警察数的下界。结合图搜索的单调性原则,给出一种可行的单调性搜索策略,确定三维网格图中最少警察数的上界。最后提出一种在三维网格图中最少警察数范围内可行的搜索算法。
针对文本数据中含有大量噪声和冗余特征,为获取更有代表性的特征集合,提出了一种结合改进卡方统计(ICHI)和主成分分析(PCA)的特征选择算法(ICHIPCA)。首先针对CHI算法忽略词频、文档长度、类别分布及负相关特性等问题,引入相应的调整因子来完善CHI计算模型;然后利用改进后的CHI计算模型对特征进行评价,选取靠前特征作为初选特征集合;最后通过PCA算法在基本保留原始信息的情况下提取主要成分,实现降维。通过在KNN分类器上验证,与传统特征选择算法IG、CHI等同类型算法相比,ICHIPCA算法在多种特
多峰优化问题是一类存在多个全局最优解的复杂优化问题,不仅要求算法找到尽可能多的最优解,而且要求算法尽可能提高所找到的最优解的精度.演化计算方法是求解这类问题的重要手段.但是传统演化计算方法面临多样性和收敛性两个方面的挑战.针对这两个方面的挑战,提出了一种通过探索层和精炼层协同演化的双层协同差分进化算法.在探索层中,每个个体作为一个分布式搜索单元探索并定位到一个最优解.在协同过程中,探索层引入个体寿命机制,将耗尽寿命且定位到最优解的个体存入一个外部存档,然后重新初始化这些个体以找到更多的最优解.在精炼层中,
对大规模数据流统计的问题进行了研究,针对大流统计的典型结构Elastic Sketch替换策略中存在的问题进行优化,优化策略解决了冷流被误判为热流插入重部的问题。针对重部中保存的不一定是最大流的问题进行优化,提出了基于最大值和组相连的替换策略,保证了存储在重部的一定是最大的流,提高了大流统计的精度,同时大大降低了热碰撞发生的概率。相比于传统的测量统计方法,在提高了测量精度的同时,减少了内存占用。