论文部分内容阅读
随着互联网的发展,网络数据内容呈现爆炸式增长的态势。由于互联网内容的数据量大、信息类型多元、结构不统一的特点,给人们有效获取信息和知识提出了挑战。知识图谱(Knowledge Graph)以其强大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础。知识图谱作为近两年在大数据时代下新颖的知识组织与检索技术,其知识组织和展示的优势逐渐体现出来,受到众多行业的重视。知识图谱被用来表示现实世界中存在的实体和实体间的关系。随着人工智能的技术发展和应用,知识图谱已成为智能搜索、自动问答、个性化产品推荐等领域的关键技术之一。目前,我国电影行业发展迅速,观影需求持续扩大。但是用户主动了解电影信息的途径还是搜索引擎和专业的电影网站,对于想要快速知道电影相关信息或者根据条件个性化查找电影的用户不够友好,因此,本文构建了信息较全的电影领域知识图谱,并实现了基于模板匹配的电影知识自动问答系统。本文的具体研究工作如下:⑴利用浏览器开发工具抓包测试,找到豆瓣电影数据json网页链接,采用requests、bs4和正则表达式相结合的方法抓取豆瓣电影数据存入Mysql数据库。使用IP池和随机user-Agent规避网站的反爬虫限制并构建多线程网络爬虫工具提高爬虫效率。根据抓取的豆瓣电影数据设计电影知识图谱的实体、关系和属性,将抓取的数据处理之后导入图数据库Neo4j,构建了信息较全面的电影领域知识图谱。⑵设计电影知识查询模板并构建用户问句训练集,采用TF-IDF算法提取文本特征,训练朴素贝叶斯问句分类模型;爬取电影类新闻数据,标注电影名称命名实体语料数据集,在基于BiLSTM-CRF的命名实体识别模型中加入预训练的Word2Vec字向量语言模型,提高了命名实体识别模型的识别效果。⑶在最终的答案查询任务中针对用户输入问句可能存在错别字、命名实体识别可能存在识别错误的问题,采用基于双向最大匹配的模糊查询,并通过计算余弦相似度排序输出结果,提高了系统的实用性。最后实现了基于微型网站开发框架Flask的web系统展示平台。