基于Lingo3G聚类算法的机构知识库跨库知识整合与知识指纹服务实现

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:weifeng151
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】基于主题跨库检索服务相关研究成果,集成优化Lingo3G算法并结合Solr打分规则,实现机构知识库的跨库知识整合和知识指纹服务。【方法】分析用户的实际需求,构建知识整合分析与可视化功能框架,选择其中关键的技术和方法搭建平台,探索知识整合的可行性。【结果】在机构知识库中研究计算知识指纹特征,以可视化的形式组织呈现知识指纹图谱,聚类实现与第三方数据库的跨库知识整合服务。【局限】由于跨库检索的数据库结构和设计方法各不相同且很多数据库没有公开资源检索接口,还无法普遍解决跨库检索的局限性。【结论】基于Lin
其他文献
民办高等教育已成为我国高等教育事业的重要组成部分。营造公平、良性、可持续发展的政策环境,成为民办高等教育治理的当务之急。通过梳理变迁脉络及其背后的治理逻辑发现,民办高等教育政策经历了酝酿、构建、转向、重构、创新五个阶段,其制定及其发展深受社会环境、利益冲突和价值前提的影响,并在民办高校属性“、合理回报”等问题上存在模糊不清、诠释灵活甚至矛盾冲突等情况,呈现出明显且多样的“模糊性”。民办高等教育这一牵涉众多利益群体的公共领域,正是遵循“模糊性”治理逻辑形成政策系统,该系统两难情境下的策略性模糊和
【目的】实现社交媒体虚假新闻早期检测,遏制虚假信息的广泛传播。【方法】在同时利用图像与文本特征的基础上,通过将图像映射为语义标签,设计了一种图像与文本内容语义一致性计算方法,构建虚假新闻检测模型,并采用虚假新闻检测标准数据集FakeNewsNet验证模型的性能。【结果】融合新闻图像与文本语义一致性特征的全特征模型在PolitiFact数据上的检测F1值达到0.775,在GossipCop数据上的F1值达到0.879,说明该模型具有良好的检测效果。【局限】由于现有图像语义标注模型标注能力的局限性,尚无法准确
【目的】针对在自然语言处理领域中高质量的标签数据较难获取的问题,设计基于多层次数据增强的半监督中文情感分析方法。【方法】采用简单数据增强和反向翻译的文本增强技术获取大量无标签数据,通过对无标签数据计算一致性正则提取无标签数据的数据信号;对弱增强数据计算其预判标签,将强增强数据与预判标签一起构建监督训练信号,通过置信度阈值过滤使模型得出置信度高的预测结果。【结果】在三个公开情感分析数据集上进行实验,在Waimai和Weibo数据集上仅使用1000条有标签文档就可以分别获得超过BERT 2.311%和6.72
教育教学工作是高校的中心工作,是办学之本。后疫情时代线上线下混合式教学成为高校教学的新常态,这对高校教师的教学能力提出了更高的要求,对高校教学管理也提出了新的挑战。教学质量的高低关系到学校的生存和发展。后疫情时代,高校在线教学管理应不断完善教学质量管理制度,加强教学过程管理和教师技能培训,为师生提供更优质的线上教学平台。同时,创建完善的线上线下混合式教学评价体系,以全面提升在线教学质量和高校人才培养质量。
【目的】使用文本挖掘技术从西方媒体的新闻文本数据中提取中国的经济形象。【方法】基于人类的认知图式分析了形象的文字呈现方式,提出从主题、观点、倾向三个层次来提取国家形象,进而提出相应的文本挖掘方法和流程。【结果】从达沃斯论坛期间的西方媒体新闻中提取的中国经济形象可以概括为:充满活力、有巨大成就、为世界带来机遇和挑战、可能撼动世界格局的新兴发展中国家。【局限】主题模型使用人工解释,会带来个体差异。【结论】从主题、观点、倾向三个层次进行文本挖掘有利于把新闻数据和媒体形象联系起来,该方法对国家、地区、城市等媒体形
【目的】针对音乐信息检索中的声乐分类问题,将音频的统计特征和图像特征进行融合,探索效果更好的分类模型。【方法】抽取音频信息的统计特征以及梅尔频谱图图像特征。将机器学习方法用于统计特征,并设计了一种多层卷积神经网络架构用于图像特征,将声乐分类问题转化为图像分类问题,最后提出一种融合统计特征和图像特征的深度学习方法。【结果】在声乐分类任务上,基于图像特征的深度学习方法比机器学习方法 F1值提高约6个百分点,基于特征融合的深度学习模型F1值可达到69%以上,超过基于图像特征的深度学习模型3.4个百分点。【局限】
【目的】针对现有模糊重叠社区划分算法执行效率较差和准确度较低的问题,提出一种基于节点向量表示的模糊社区划分算法。【方法】使用由节点重要性引导的随机游走策略生成节点序列,将节点序列视作语料库中的句子,利用Skip-gram模型训练得到节点向量,并将高斯混合模型引入模糊社区划分算法FCM(Fuzzy c-Means)中实现多峰值节点数据拟合,通过最大化模块度得到最佳的社区数目。【结果】相比经典的社区划分方法,该算法在真实网络Jazz和人工网络N1(mu=0.5)上的EQ值分别提高了7.0%和9.7%,能够更准
[目的]优化已有的基于疾病知识图谱的自动问答系统,为公众提供一种准确率更高的疾病知识查询工具.[方法]在疾病知识图谱构建基础上,采用AC多模式匹配算法和语义相似度计算获
【目的】将类目式文档中的类目单元表示成语义特征AND-OR逻辑表达式,使类目文档实现语义化表示,为类目语义匹配、语义检索等应用提供语义化数据。【方法】以类目单元描述/注释文本AND-OR逻辑语义标注数据为基础,利用UniLM模型,通过学习词性特征、显式AND-OR逻辑文本描述特征以及改进Beam Search搜索排序策略等方法构建Seq2Seq生成模型,解决类目单元内语义特征AND-OR逻辑表达式的生成问题。通过融合上下文层次语义,解决类目单元外部语义的扩展问题。【结果】在人工标注的国际专利分类表数据上展
【目的】针对推荐系统的异构信息融合问题,提出融合标签和内容数据的矩阵分解方法 TCMF,减小预测误差,克服评分数据稀疏问题,提升矩阵分解算法鲁棒性。【方法】使用Embedding实现内容文本数据的结构化,使用卷积神经网络(CNN)提取深层次内容特征,利用深度神经网络(DNN)融合内容与标签信息得到综合特征,基于矩阵分解算法提出TCMF评分预测方法。在真实电影数据集上的实验进一步探究了不同特征融合方式、不同电影内容和正则化参数对算法预测性能的影响。【结果】在MovieLens-20m数据集上的实验显示,TC