基于局部成对标签相关性的多标签学习算法及其在知乎话题的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:soso2009520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网经济的快速发展,知识共享模式已经逐渐成为了信息资源的传递方式。知识型问答社区是一种基于知识的社交平台,旨在实现信息资源的需求方和供应方之间的分享与匹配。提问者发布问题并给出标签,答问者则根据标签检索到问题并回答。二者的成功匹配依赖于平台的内容分发功能与信息检索系统,精准的标签能够提高用户体验、降低运营成本。目前,知识型社交平台都是由用户根据所提出的问题自行打标签,这种标注方式会造成标签与问题不相关或标签不够准确的问题,降低了平台内容分发效率和用户体验,并造成了一定的人工校验成本。因此有必要设计一种高效的话题标签自动标注算法,以期提高内容分发效率,降低人力成本。知识型社交平台上的标签自动标注问题本质属于多标签文本分类任务,每个问题都可能对应多个标签。多标签文本分类问题主要包括两个难点,其一是文本特征提取过程存在噪声和误差,降低分类模型性能,其二是多标签文本分类任务的标签之间存在许多复杂的语义关系,需要高效的多标签分类算法。深度学习在自动特征提取方面存在显著的优势,被广泛应用于自然语言处理领域。RAkEL是一种高阶的多标签分类算法,能够挖掘高阶的标签关联关系,但是在构建多分类器时忽略了标签组合相关性。因此,本文提出一种基于局部成对标签相关性的k标签子集算法LPCkEL,并结合深度自动编码器的文本特征提取技术实现了问题的自动标签化。LPCkEL算法通过k近邻分析方法和矩阵相似度捕捉标签的语义互斥和依赖关系,提出了改进的k标签子集生成算法和纠正机制两种优化策略,能够预测出更准确、更完整的标签集。最终,论文以知乎社交平台为例设计了一系列多标签实验,实验结果表明论文研究LPCkEL比经典多标签分类算法能够实现更好的分类效果,且两种优化策略均能提高RAkEL的分类性能。
其他文献
计算机断层扫描(Computed Tomography,CT)技术是医学诊断领域的一种重要技术手段,拥有广阔的发展前景。能谱CT为物质的鉴别提供了多种定量计算方法和功能型成像方式,解决了传
在重庆市长期以来开展的工业污染场地修复行动中,存在轻调查、重工程、资源利用效率低,二次污染严重等问题,工业污染场地治理修复模式需要得以改善与提升。国内外研究表明,可
近年来随着移动互联网的发展以及各种互联网+医疗的政策出台,我国移动医疗得到快速发展。但与此同时,我国医患关系紧张问题普遍存在,而医患矛盾大多来自于沟通不良。因此,方
Spice协议作为目前主流的桌面虚拟化协议,具备开源、跨平台、支持多种外设和丰富的多媒体的优势,用户能够享受到与传统PC一致的体验。但是Spice协议目前仍然存在着诸多问题亟待解决,例如带宽占用过大,视频区域识别效果不佳,画面容易卡顿。针对上述问题,本文对Spice协议进行了深入的研究和分析,提出了基于细粒度屏幕划分的图像命令优化方法和使用Quic协议作为网络传输协议的方法并实现了Quic-Spi
随着全国经济的飞速发展,高速铁路事业全面发展,运行速度不断加快,舒适度的不断提高,对测量工作提出了更高的要求。为满足《高速铁路工程测量规范》中投影长度变形不大于10mm
生姜(Zingiber officinale Roscoe)作为药食同源的香辛类作物,具有较高的食用价值与经济价值。研究生姜中一些重要的功能基因对生姜的生长发育有着重大帮助。实时荧光定量PCR
研究目的:蒽林(1,8-二羟基-9-蒽酮,dithranol,dit),又称地蒽酚,是现今治疗及控制寻常型银屑病的一线药物。目前普遍认为,其作用机制为该药在体内抑制了角质形成细胞的增殖及
甲基叔丁基醚(Methyl Tert-Butyl Ether,MTBE)作为一种添加剂被广泛地应用于化工生产及医药制造中,然而其在生物机体内的毒性研究甚少。秀丽隐杆线虫在土壤中分布广泛,具有较
近断层地震动的破坏性效应主要体现在速度大脉冲对结构的影响,常导致近断层工程结构更严重的破坏。不同于一般建筑结构,由于桥梁结构受地形、经济条件和联络特性等因素的制约
随着现代航空科学技术的不断发展,为了满足飞机综合性能的需求,飞机结构设计思想不断更新。在满足静强度设计的前提下,以断裂力学为基础的损伤容限设计技术已成为飞机结构设