面向电商领域的智能问答系统若干关键技术研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:guyisun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和人工智能的飞速发展,智能问答系统由于能够为用户提供精准的答案和智能化的服务而成为目前的研究热点,它正逐步进入商业化领域代替部分人工工作,电商领域服务正在从线下转为线上,人工客服成本激增,智能问答系统可帮助节约80%的人工客服工作量。因此,研究电商领域的智能问答系统具有较大的应用需求和实用价值。智能问答系统的核心就是理解用户问题并给出正确的答案,基于结构化数据问答系统是目前事实类问答的主流方法,然而,复杂丰富的专业词汇、中文口语表达的弱语法性和多样性,使得自然语言转化成为逻辑查询语言成为目前研究的难点。海量的知识是问答系统具有智能性的关键,然而,人工构建大规模行业数据的代价很大,自动化信息抽取的准确率有限,存在语义模糊、数据缺失以及不确定性和矛盾性而且电商领域知识更新速度快,因此,快速准确构建语义关系丰富、表达清晰的大规模知识库是目前的需求和难点,高效的自学习能力是未来智能问答系统的发展趋势。智能问答系统具有很强的领域相关性,结合领域特点,增强对语义理解、知识表示和推理能力是提升领域问答系统效率的核心问题。本文针对电商领域的实际需求和目前存在的问题,在问句理解方面,实现了中文领域基于模板自动生成的语义解析方法,并且在相关算法上进行了改进;在知识库构建方面,提出了改进的知识表示模型以及知识自动融合和补全的方法,实现了电商领域更为精准的并且支持推理、计算功能的智能问答系统。具体研究内容如下:针对在问句理解和知识库构建时存在的别名、缩写尤其是中英文混杂的商品领域名词的问题,提出了基于CRF的实体识别算法,在电商领域标题数据中训练,识别准确率高达95%以上,并且提出了融入语义特征的CRF同义词抽取算法,解决了由于中英文混合词性标注容易错误引入噪声等问题,提高了同义词抽取的准确性,实体识别和同义词关系抽取是问句语义理解和知识库构建的重要基础和关键技术。针对问句理解常用的模板法准确率高,但是不能解析中文并且模板定义固定,不能处理同一语义不同表达的问句语义理解的问题,提出了中文问句模板自动生成的语义解析方法,为了解决目前语义依存分析工具对于领域问句解析复杂化的问题,提出了依赖缩减的方法,准确率提升了40%,并利用Word2vec语义特征对实体链接进行改进,缓解在缺少领域数据词典的情况下难以正确将多样化表达与知识库资源进行语义链接的问题,CQPT算法较Baseline算法准确率提升了近80%。针对目前知识库中知识表示模式复杂、语义模糊、难以扩展等问题,本文提出了归纳和演绎知识库构建框架,并将本体语义清晰严谨的模式和知识图谱数据驱动的特点相结合,提出了CyberSchema核心本体知识表示模型,内核简化、易于扩展、领域无关,提高了语义表达确定性和自动化构建效率,从模型上保证自动问答系统准确率和推理计算能力。由于知识库数据来源于多个异构网站,而且电商领域数据属性深度深、格式复杂,多源异构数据存在的属性数据表示不统一、不确定和矛盾等问题,本文提出了基于图模型的异构知识融合算法,实现了基于词形和语义的属性模式匹配和基于数据源置信度最优值决策算法,自动生成统一、完备、准确的CyberSchema商品属性模式和实体属性的最优值。对于知识库中蕴含着大量的隐式关系,可以通过对知识库自动推理和预测获得,本文结合张量分解和词嵌入的优点,提出了基于张量和词嵌入的知识补全算法,综合利用知识库本身的统计、语义等特性,对知识库进行统一模型表征,预测任意两个实体间的具体关系类型,满足问答系统逻辑推理和大规模知识库进化需求,算法能够适合于本文提出的CyberSchema知识库,效果达到最优。最后,本文基于以上算法,提出了面向电商领域的中文智能问答系统,分为语义理解、知识抽取、知识融合和知识补全四大模块。提高了电商领域问答系统语义解析和专业术语识别的准确性,有效提高了知识库中细粒度知识表达的准确性和一致性,支持统计、比较和推理的知识的问答,具有较大的研究及应用价值。
其他文献
中国自改革开放以来经历了史无前例的城镇化进程,其速度、规模堪称世界之最。然而,城市化进程中存在的粮食安全问题、资源配比问题、生态环境问题同样不容忽视。本研究为了解湖北省农地城市流转状况,分析了流转效率的空间分布及效率差异原因,以湖北省县级行政单位为研究对象,首先运用SBMUndesirable模型测度了农地城市流转效率,其次用聚类方法分析了效率空间分布状况,最后运用决策树方法识别农地城市流转模式并
职业教育作为国家教育体系的重要组成部分,是推进现代教育改革的重要突破口,是促进中国实体经济高质量发展的重要支撑,肩负着传承技术技能、培养多样化人才的重任,国家一直非常重视职业教育的发展。近年来,职业教育基地作为整合职业教育资源、优化职教院校布局的新型空间而被各地大规模兴建起来。但是目前我国职教基地建设运营成功的案例较少,特别是各地的新区型职教基地大都面临着生源萎缩、资金紧缺、师生钟摆式通勤、整合效
高校智慧校园面向学校管理者和师生开展智能化泛在信息服务,主要包含智慧教学、智慧服务、智慧管理等。二维码技术为智慧校园的泛在学习服务提供了有力的技术支持。分析了二
燃料电池汽车作为一种极具发展潜力的新能源汽车,以其清洁、高效、高功率密度等优势,成为汽车领域研发重点之一。但由于其散热量需求远大于普通汽车发动机,燃料电池汽车的整车散热系统的设计存在很大挑战。针对这一现状,本文主要围绕燃料电池整车散热系统仿真模型进行研究,并对散热系统中的重要部件散热器的结构参数进行优化,以满足系统的散热性能。本文在深入剖析燃料电池汽车系统散热过程的基础上,基于MATLAB/Sim
个人贷款业务是银行的核心业务,近年来个人贷款业务发展迅速,贷款规模近十年间增长了六倍。由于我国金融市场逐渐开放,互联网金融、小贷公司以及各类银行都在个人贷款市场上进行角逐,银行在发展个人贷款业务时面临较大的竞争压力。在竞争压力下,各类风险事件也层出不穷,给银行带来了较大的损失。个人贷款业务具有贷款对象范围广、单笔贷款金额较小、风险较为分散等特点,个人贷款业务的竞争最终是风险控制能力的竞争。在保持业
正交层状锰酸锂(o-LiMnO2)是高能量密度锂离子电池正极材料之一,是当前的研究热点。利用水热合成法制备层状锰酸锂,颗粒细小,形状均匀,更利于电池的装填。但是,水热法制备锰
随着社会信息化进程的加快以及人工智能的迅速普及,人脸识别技术因为具有直接性、友好性、便利性以及非侵犯性,广泛地被使用在视频监控、身份识别以及人机交互等重要领域。随
以建筑可再生能源系统为研究对象,选取天津气象条件下一单层住宅建筑进行分析,利用TRNSYS模拟建筑可再生能源系统(RES),分析在年、月、时不同的时间尺度下可再生能源系统的负
科技馆展品作为科技馆核心内容,不仅强调科学性与知识性,也注重趣味性和娱乐性。虽然视错觉在很多领域应用广泛,但在科技馆展品设计中存在局限性,特别是关于莫尔动画的展品较
作为政治精英,党政领导备受关注。研究县级党政一把手是研究基层政治的关键入口。通过对40位县级党政一把手的简历进行分析,发现了一些普遍特征:县级党政正职领导分布于多个