【摘 要】
:
基础教育资源中蕴含了丰富的知识,研究如何从海量的基础教育资源中获取丰富的语义信息,构建基础教育知识图谱,对扩展类人智能系统的知识库以及提高其智能水平具有重要意义。
论文部分内容阅读
基础教育资源中蕴含了丰富的知识,研究如何从海量的基础教育资源中获取丰富的语义信息,构建基础教育知识图谱,对扩展类人智能系统的知识库以及提高其智能水平具有重要意义。为了构建基础教育知识图谱,需要有海量的基础教育资源数据作为支撑,因此构建一个基础教育资源数据库是构建基础教育知识图谱的基础和关键。本文依托于863项目《面向基础教育的类人智能知识理解与推理关键技术》(2015AA015403)主要围绕基础教育资源数据的获取、存储和处理这三个方面进行了研究,其主要工作如下:1)构建了一个基础教育资源数据库。利用设计的基于Scrapy框架的简单分布式网络爬虫从互联网上获取基础教育资源数据,并在MapReduce框架中对获取的基础教育资源数据进行处理,最后将处理后的数据存入HBase数据库中,构建一个基础教育资源数据库。2)提出了适合基础教育资源在HDFS中的存储方案。基础教育资源具有小文件特性且数量较多,不适合直接存储到HDFS中。本文提出了一种适合这些资源小文件存储的存储方案,该方案首先将这些资源文件在内容上进行合并为较大文件,然后使用Sequence File技术将这些较大文件存储到HDFS中。实验结果表明,本文提出的存储方案有利于节省存储空间以及提高对这些基础教育资源的处理效率。3)改进了基于行块分布函数的网页正文提取算法。基于行块分布函数的网页正文提取算法会错误地将网页中包含的链接块当作正文信息提取出来。针对这个问题,本文对该算法进行了改进。在提取正文信息的过程中,增加了对标点符号的个数和链接文本个数与总字符个数的比例这两个限制条件地判断,并增加了对压缩型文件地处理。实验结果表明,改进后的算法能较好的解决错误提取链接块的问题。
其他文献
数据挖掘又称数据库中的知识发现,是指从大型数据集中发现有趣的、有用的且预先未知的知识的过程。数据挖掘是数据库研究最活跃的领域之一,通过数据挖掘可以从大型数据集中提取
延长集团炼化公司是陕西省的重点发展企业,随着企业信息化进程的推进,该企业在使用原有信息平台系统的过程中遇到了很多问题。尤其是当企业组织机构和业务流程发生改变时,原
XML(Extensible Markup Language可扩展标记语言)技术的出现使得对各种不规则信息、规则信息的标准化描述成为可能,并逐步成为Internet中描述数据的标准。XML的自描述性使得X
脑电信号(EEG)的存在为研究脑的病理、生理、认知等功能状态提供了有效的手段,但是,EEG 信号非常微弱(一般在5-100 微伏),而且很容易被外界伪迹干扰。因此,EEG信号中的伪迹消除成
H.264/AVC是由ITU-T VCEG(Video Coding Experts Group)和ISO/IECMPEG(Moving Picture Experts Group)联合制定的新一代视频压缩国际标准。H.264/AVC以其强大的压缩性能和良
图像分割是图像处理的主要问题,是图像处理的经典难题之一,而彩色图像由于提供了比灰度图像更加丰富的信息,因此彩色图像处理,尤其是彩色图像分割受到了越来越多的关注。 本文
硅晶片是制造集成电路的主要部分,而且对硅晶片表面的清洁度有很高的要求,硅晶片表面常见的污染主要包括:有机物、固体颗粒和金属离子污染等,这就需要很高的清洗技术才能保证硅片
操作系统内核调度算法历来是人们改进系统性能的研究热点。作为主流操作系统之一的linux,它的调度算法几经改进,表现出优异的性能,在越来越多的领域逐渐占据重要地位。而基于
人脸研究一直是计算机视觉、模式识别和计算机图形学领域中的热点研究问题之一。现今,通过监视器得到的人脸图像分辨率不高,以至于给人脸识别和跟踪等后续应用带来很大的难度
目前基于网络攻击的信息安全存储技术已发展得比较成熟,如防火墙技术、入侵检测技术等,而基于内网的信息安全存储技术的发展还远远达不到企业信息安全的需求。由于企业员工更