论文部分内容阅读
随着Web2.0和网络技术的发展,网络用户不仅是Web信息的消费者,也是Web信息的生产者,这就导致了网络上的信息量呈爆炸性增长。如何有效利用Web信息资源成为需要面对和解决的重要问题。对于这个问题,学者们也进行了Web信息集成方面的一些研究,但是这些研究工作主要集中在新闻、电影、音乐、博客等领域,而面向教育领域的工作却不多。基于此,本文提出了一种面向教学的试题抽取与分类方法,该方法基于用户输入的书籍名称和作者信息以及题型,自动在Web中爬取相关的书籍目录和试题,并通过计算书籍目录和题目之间的相似度来进行题目分类,从而可以达到自动化地建立试题库的目的。本文的主要工作如下:(1)提出了面向教学的书籍目录抽取方法。通过研究发现,由于亚马逊上的书籍目录相对其他网站(当当网、京东网等)比较完整,本文选择了亚马逊作为书籍目录的数据源。当用户输入书籍的名称和作者名时,通过PHP语言的simplehtmldom爬虫技术和模式匹配,能够从亚马逊上爬取该书籍的目录信息,然后通过DOM技术解析获得该书籍的章节信息;(2)提出了面向教学的书籍试题抽取方法。本文主要在百度文库上进行书籍试题抽取,通过用户输入书籍名称和试题类型来获得该书籍的相关试题,在这个过程中,需要对爬取过的文本和链接通过队列进行去重,过滤之前已经爬取得信息,然后对爬取得信息进行解析,最后获得每一道试题;(3)提出了面向教学的试题分类方法,在爬取书籍目录和书籍试题之后,通过下面步骤来进行试题分类:首先,本文需要利用PHPAnalysis和TF-IDF方法对书籍目录和试题进行分词和计算关键词,然后使用Jaccard方法进行相似度计算,获得每道试题的所属的章,即对试题进行按章分类,最后存入试题库,达到按章出题的目的;(4)基于上面这些方法,本文使用PHP语言设计和开发了一个原型系统,原型系统主要包括两方面的内容:手动输入试题和自动从网上集成试题,最后分类到试题库中。本文经过实验验证了这些方法的准确性和可行性。