知识驱动的特定领域文本分类方法

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:jh_viso1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,各行各业的信息化程度也越来越高,涌现出大量的特定领域文本。特定领域文本由于其特殊性和专业性,在语义理解上不同于通用领域,普遍存在难以通过字面含义理解、需要结合专业领域知识理解等的情况。除此之外,由于特殊性和专业性,人工标注的代价比通用领域更高,实际可用于训练的有标记语料很少,难以支持大规模训练,导致更难学习语义。(1)针对特定领域有标记样本少、无标记样本多,难以通过字面含义理解的问题,本文提出了一种基于互联网知识的半监督学习文本分类算法。首先,利用互联网知识对样本进行文本扩展,以克服特定领域样本难以通过字面含义理解的问题。然后,提出一种基于浅层学习和深度学习的双视图半监督分类算法(称为Co-DSL算法),使用少量有标记样本和大量无标记样本,以半监督的方式训练分类模型。最后将该方法应用于App分类领域,通过实验证明,该方法在分类效果上明显优于其他传统算法。(2)针对特定领域文本分类任务中,除了样本稀缺之外,特定领域文本一般是非常专业的,包含很多难以从样本中学习到的专业领域知识。针对该问题,本文提出了一种基于知识图谱的深度学习文本分类方法。首先,通过互联网半自动的构建知识图谱。然后,通过实体识别技术,将问题中与知识图谱存在链接的实体的特征引入原文本,达到特征扩展的目的,并使用Bi-LSTM模型进行文本分类。最后,将该方法应用于环保文本分类领域,通过实验证明,通过引入知识图谱,可以有效的提高文本分类准确性。(3)设计并实现了一个多意图混合式智能问答系统。该系统首先基于多领域文本分类识别用户提问的意图,然后基于用户意图调用相应的智能问答模块回答用户的问题。
其他文献
目前,计算机视觉系统被广泛应用到监控、导航等领域,由其捕获的图像质量对计算机视觉方面的许多应用如图像分类、目标检测以及交通监控等产生较大的影响。然而,在雾天环境下,
混凝土建筑作为现代基建的首选材料,其结构强度与人民的生命财产安全息息相关,因此针对混凝土结构检测仪器的研发也成为工程界竞相研究的热点。而决定混凝土检测仪性能的两个
随着社会的快速发展,汽车产生的交通问题急剧增加。提高汽车自身的感知能力避免交通事故的研究,成为学术界的前沿领域。在车载摄像头的基础上,高质量的车辆检测算法可以增加汽车的视觉感知能力,减少车辆碰撞事故,在智能交通系统、自动驾驶等领域有着广泛的应用。近些年,虽然传统车辆检测算法已经在实际使用,但是由于车辆外型种类多、背景环境变化大、运动形变及检测范围局限等因素的影响,使得其在车载视频下性能表现一般。本
近年来,我国处在高速铁路建设的高潮阶段。随着客运专线的密集化部署,虽然很大程度上减轻了铁路运力的紧张并且以运营里程位居世界首列,但是其行车安全的重要性日渐凸显并且颇受人们的关注。当前我国大部分高速铁路的列车速度已经达到350km/h,这对高速铁路运行的安全性与可靠性有了更高的要求,而作为一种列车安全保障机制的高铁应急D2D(Device-to-device,终端直通)通信也成为了时下的研究热点之一
华中大学是由英美五个差会合作共办的教会大学。作为一所由五个差会联办且以美国差会资助为主的教会大学,华中大学的经费管理体制实际上是在特殊的历史环境下美国私立高校经
本文通过二十四式太极拳联合减压鞋垫共同干预糖尿病足轻度溃疡患者,观察两者作用对足部损伤恢复情况以及运动功能(步态、支撑期、平衡和压力情况)改变,尝试解决糖尿病足轻度
在数字档案资源管理工作中,美国十分重视合作与共享,现如今有政府与企业、政府与政府之间、政府与民众这三种合作模式。其中政府与政府之间的合作模式,包含了平级、上下级以
大气偏振模式蕴含着十分丰富的时空信息,通过研究大气偏振模式的建模表征方法与实测获取方法,分析其分布特征,可以获得时间信息、空间方位信息以及大气成分等信息,对利用偏振
随着医学影像技术的发展,基于心脏MR(Magnetic Resonance,MR)图像左心室分割的心脏功能参数估算,对于诊断和治疗相关疾病有着重大的意义。传统的左心室分割方法存在分割准确
在近些年,氮化镓(GaN)材料得到了大量的研究。作为第三代半导体材料的典型代表,GaN具有出色的性能,由GaN制成的器件得到了广泛的应用。虽然,在GaN材料研究方面人类取得了明显