基于知识图谱的电影知识问答系统研究与实现

来源 :重庆师范大学 | 被引量 : 13次 | 上传用户:glittering789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络数据内容呈现爆炸式增长的态势。由于互联网内容的数据量大、信息类型多元、结构不统一的特点,给人们有效获取信息和知识提出了挑战。知识图谱(Knowledge Graph)以其强大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础。知识图谱作为近两年在大数据时代下新颖的知识组织与检索技术,其知识组织和展示的优势逐渐体现出来,受到众多行业的重视。知识图谱被用来表示现实世界中存在的实体和实体间的关系。随着人工智能的技术发展和应用,知识图谱已成为智能搜索、自动问答、个性化产品推荐等领域的关键技术之一。目前,我国电影行业发展迅速,观影需求持续扩大。但是用户主动了解电影信息的途径还是搜索引擎和专业的电影网站,对于想要快速知道电影相关信息或者根据条件个性化查找电影的用户不够友好,因此,本文构建了信息较全的电影领域知识图谱,并实现了基于模板匹配的电影知识自动问答系统。本文的具体研究工作如下:⑴利用浏览器开发工具抓包测试,找到豆瓣电影数据json网页链接,采用requests、bs4和正则表达式相结合的方法抓取豆瓣电影数据存入Mysql数据库。使用IP池和随机user-Agent规避网站的反爬虫限制并构建多线程网络爬虫工具提高爬虫效率。根据抓取的豆瓣电影数据设计电影知识图谱的实体、关系和属性,将抓取的数据处理之后导入图数据库Neo4j,构建了信息较全面的电影领域知识图谱。⑵设计电影知识查询模板并构建用户问句训练集,采用TF-IDF算法提取文本特征,训练朴素贝叶斯问句分类模型;爬取电影类新闻数据,标注电影名称命名实体语料数据集,在基于BiLSTM-CRF的命名实体识别模型中加入预训练的Word2Vec字向量语言模型,提高了命名实体识别模型的识别效果。⑶在最终的答案查询任务中针对用户输入问句可能存在错别字、命名实体识别可能存在识别错误的问题,采用基于双向最大匹配的模糊查询,并通过计算余弦相似度排序输出结果,提高了系统的实用性。最后实现了基于微型网站开发框架Flask的web系统展示平台。
其他文献
分析了影响膜法脱硝装置运行的各种工艺控制因素,对各因素进行了细致的剖析并提出了优化方案及解决方法。
<正>1.统计学符号按GB3358-1982《统计学名词及符号》的规定一律采用斜体排印。(1)样本的算术均数用英文小写x珋,中位数用M;(2)标准差用英文小写s;(3)标准误用英文小写Sx;(4)
旅游景观异质性原理是旅游景观规划的核心理论,景观异质性的变化导致了景观多样性的变化。旅游路线是旅游景观排列组合的结晶,景观多样化对旅游线路多样化具有催化作用。基于
任何社会管理活动,都必须有坚实的民意基础,才能提高效率、降低成本、优化效果$$    8月28日,公安部“打四黑除四害”官方微博开通。开通两天,“粉丝”已过万。微博的“个人
报纸
为全面反映城市主干电网220kV同塔双回输电线路防雷性能差异性,研究多雷地区输电线路的防雷特征,提出了应用雷电定位系统(LLS)长期监测数据统计的雷电参数,对输电线路进行雷
综述了国内外利用非平衡等离子体处理工业废气的研究进展,分别讨论了处理无机污染物和有机污染物所使用的等离子反应器的结构、反应条件及其反应机理,并提出了今后等离子体处
写作是一种连贯有序的思维活动,有效的写作指导要基于学生的思维过程。引导学生捕捉学习生活中即时生成的表达意愿,驱动写作真实发生;考虑不同的目的和对象,选择言语表达的方
近年来,心脑血管病发病率逐年升高,对已患心血管合并脑血管的那些患者,减少这些事件的再发,,迫在眉睫。对以往单纯用阿司匹林抗血小板,减少发病,已不能满足需要。双联抗血小
艺术不受时间和空间的限制,不同阶段的艺术表现均具有其存在的价值,笔者认为后现代设计中应用传统元素就是两种艺术表现在冲撞、融合过程中的吸取与再利用的过程,这是艺术魅
在养分亏缺条件下,玉米根系形态和生理的改变对养分资源获取具有极其重要的作用。揭示不同基因型玉米根系对低铁、低磷胁迫的响应及玉米在磷铁交互作用下的变化对玉米磷铁营养研究具有至关重要的意义。本论文通过营养液培养试验,研究了两种不同氮效率基因型玉米郑单958(Zea mays L.cv.ZD958)和先玉335(Zea mays L.cv.XY335)根系形态和养分吸收对低铁、低磷胁迫及铁磷耦合的响应,