条件随机场与最大熵在标签挖掘中的应用研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:jiaranerzhi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
标签的质量直接影响着资源的查找、定位与分享的效果,因此进行高效全面的标签挖掘极有必要。在标签挖掘研究中,标签推荐和标签冗余处理是其中的两个重点。针对现存标签推荐方法推荐结果不全面、遗漏隐性标签的问题,提出使用多阈连续条件随机场模型推荐标签,在连续条件随机场的基础上,综合标签间共现率、标签对语义相似度和用户相似性三重阈抽取特征,一并挖掘显性与隐性标签,使用L-BFGS算法迭代计算模型参数,代入建模实现标签推荐。在Bibsonomy数据集上的实验表明该方法可行,与基于连续条件随机场模型和最大熵模型的方法对比结果体现了本文的推荐模型得到的标签更精准更全面且模型的稳定性良好。为了提高标签质量,解决传统冗余标签识别方法的准确度不高的问题,采用了最大熵模型进行冗余标签处理。通过语义相似度阈值提取特征,利用SCGIS算法迭代训练出模型参数,构造模型识别冗余标签。在BibSonomy数据集上的测试验证了方法的可行性,实验结果与核K-Means聚类方法比对说明最大熵模型在处理冗余标签中性能更好,结果更精准。数据集的标签冗余度在本文的冗余处理后降低。最大熵模型在多阂连续条件随机场模型的推荐结果集上的冗余处理实验后,标签质量得到进一步提升。
其他文献
图像融合是由信息融合发展而来的,是多传感器信息融合中可视信息的处理,根据互补性,把来自多个传感器的数据信息综合起来,得到一个信息更丰富的图像。近年来,图像融合技术在
随着社会的进步和科技的飞速发展,人们的生活已经越来越离不开网络了,为了满足人们日益增长的需求,海量的网页信息也随之产生了,如何从这些海量的信息中找到人们所需要的信息
信息全球化的不断发展,网络技术发展不断成熟,信息交换的发展更加的细化,很多企业甚至是规模较小的企业都拥有自己的完善的内部网络系统,通过内部网络更加安全的完成企业内部
随着现代战争的突发性、快速性和复杂性的不断增强,这就要求通信必须迅速、准确和不间断地传输信息。因此,在指挥自动化系统中,良好的通信保障,是实施及时、正确指挥和快速作
电信运营商OSS(Operational Support System)即电信业务支撑系统,是一个自动化、高性能的电信业务引导、修复及开通运行的支撑系统,利用OSS可以向用户提供多种多样并且稳定可
隐喻是人类基本的思维方式之一,在自然语言中,隐喻的使用是一种非常普遍的现象。现今,隐喻已经成为了语言学家,心理学家和认知科学家所关注的课题之一。一切自然语言处理系统的本
随着计算机的普及和网络技术的飞速发展,互联网上出现了海量数据可供人们利用,关系型数据是其中最主要的数据组织形式之一。在关系数据库中,键集合信息是理解数据库结构和特征的
遗传算法是现代计算机科学与优化理论中被广泛关注的智能进化算法之一,在实际应用中,标准遗传算法存在着许多不足。针对搜索效率低和无客观判敛标准的缺陷,本文提出了一种基于单纯同伦算法的改进遗传算法。单纯同伦算法是求解不动点问题的有效算法,具有收敛快、局部搜索能力强的特点,与全局搜索能力强、无客观收敛标准的遗传算法相结合可以收到较好的效果。改进算法首先将优化问题转换为不动点问题,将n维函数优化问题放到高一
随着人们生活水平的进一步提高,车辆越来越多,高速公路交通拥堵、交通事故等重大交通问题日益凸显,为了解决此类问题,填补空白,创新性的设计了高速公路交通控制器。其利用外场设备
随着互联网和物联网技术的飞速发展,人们身边充斥着大量丰富多彩的网络信息,但是人们难以及时、准确地获取全部的有用信息。目前需要一种在不同环境下,满足不同用户的需求并