两项中文记录匹配的贝叶斯估计

来源 :厦门大学 | 被引量 : 0次 | 上传用户:hhjscp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
记录匹配的主要工作是合并两个及多个不同来源的文件,当文件中缺乏唯一的标识符时,此问题的研究则被视为一个富有挑战性的问题。本文我们主要根据中文姓名的特征,年龄及职业的频率分布生成了相应的原始记录。随后,我们对原始记录进行干扰生成相应的扰动记录,并赋予其与原始记录一样的idd,以便于后面模型性能比较时计算模型的匹配率。又由于中英文记录在计算不同记录之间的距离有差异,我们在对生成的记录进行了数据预处理时,定义了自己的编辑距离。然后,我们讨论了模型中假设记录对之间的匹配状态独立是不合理的,而选用了两文件的匹配标签作为我们自己感兴趣的参数。之后,我们选择了模型参数的先验分布,并运用不同的损失函数推导出了不同的后验点估计。最后,我们阐述了从参数后验分布中抽样的Gibbs抽样算法,并展示了不同情形下模型的性能。另外,为了了解此模型的性能,我们计算了模型在不同情形下的精度以及召回率。结果显示,我们给出的方法表现的很好。
其他文献
传统抽样调查系统中的经典抽样方式都属于概率抽样,研究者通过利用抽样框的特点确定总体的规模,通过赋予固定的包含概率给涉及到的每一个总体单元,结合随机化抽样获取样本,最后根据样本权数进行统计推断。随着网络技术的发展和大数据理念的兴起,抽样调查的特征添加了新的元素:抽样方式的转变,跟随网络技术一起发展的网络问卷为抽样注入了新活力;研究总体的复杂性加强,大数据时代带给数据的新特点(数量大、构成复杂等)使总
传统铁道车辆的被动悬挂系统是依据标准的车轮和钢轨型面综合各项指标折衷优化设计的,在运营过程中其阻尼特性是无法实时改变的,不能适应外界条件的变化。当列车的运行条件、线路条件、轮轨磨耗等出现变化,而被动悬挂系统参数无法适应时,列车的动力学性能会出现恶化的现象。此外,随着运营里程的不断增加,被动悬挂系统本身也会出现性能退化,造成列车的动力学性能恶化。因此,为改善高速列车的运行品质,设计一种可以适应外界条
RXRα是核受体超家族中重要的一员,属于非类固醇类受体。RXRα是受配体调控的转录因子,参与了人体包括代谢、生长、发育、分化、死亡和免疫等在内的几乎所有的生理活动,其表
“跨界基因沉默”技术是一种全新概念的小分子干扰RNA传递技术,其主要方法是利用基因被人为改造的、能侵入哺乳动物细胞的细菌合成小分子干扰RNA,这种携带有可沉默特定基因的
背景随着社会的进步,人类在日常生活中接触电离辐射的机会越来越多,因此受到的辐射损伤也越来越多。男性的生殖系统对电离辐射高度敏感,射线会使精子浓度、活率、活力、形态
碱金属铌酸盐种类较多,如具有优良压电铁电性能的钙钛矿结构碱金属铌酸盐(K,Na)Nb O3(KNN)材料,具有优异光催化性能的四方钨青铜结构碱金属铌酸盐Na,K6Nb10.6O30,等。在同体系中,纳米结构的材料往往具有独特的性能和潜在应用,因而具有重要的研究意义。目前采用固相法制备超长微纳米线未见报道。本文对Na,K6Nb10.6O30微纳米线的无模板固相法制备、结构等进行研究,并探索采用相同方
目的:探究五味子甲素(Deoxyschizandrin)联合吉西他滨(Gemcitabin,GEM)对肝癌细胞HepG2增殖的影响及其可能的作用机制。方法:1.五味子甲素与吉西他滨单独及联合应用对肝癌细胞HepG2增殖及凋亡的影响:肝癌细胞HepG2分别经不同浓度的五味子甲素、吉西他滨单独及联合用药作用48h后,采用CCK-8法和平板克隆法检测细胞增殖活力;采用细胞流式术检测细胞凋亡比例的改变。2
[研究背景]癌痛是肿瘤患者最大的负担之一,癌痛控制不足的现象在我国仍较为普遍,癌痛给病人带来的心身影响极其严重,超过50%的患者遭受过癌痛的折磨。癌痛不仅给患者带来巨大的痛苦,还给家属带来一种负担。如果癌痛得不到控制,一方面会加速肿瘤的发展,另一方面会影响患者的睡眠、食欲、免疫力,加重患者的焦虑、抑郁等不良情绪。如果慢性疼痛不能解决将会发展成顽固性癌痛,导致患者自杀的重要原因之一。针对癌痛世界卫生
聚阴离子型Li2FeSiO4材料具有理论比容量高、循环稳定性良好等优点,是一种有前途的锂离子电池正极材料。然而,较低的电子传导率和较差的锂离子迁移速率限制硅酸亚铁锂的发展
非平凡简单连通无向图G =(V,E)的原子键连通性(ABC)指数定义为(?),其中V={V0,V1,…,Vn-1},d(vi)为G中vi的度.由于该拓扑指数在化学中有着广泛的应用,受到了众多学者的关注.然而其中两