论文部分内容阅读
随着信息技术的迅速发展和Internet的普及,人们对网络的依赖性越来越大,网络已经融入了人们生活和工作的方方面面。面对越来越复杂的信息系统,人们往往会有很多疑问,但总得不到快速的解答。这就对自动答疑系统产生了需求。
中考平台为广东省教育考试院组织开发的平台,实现高中阶段招生的一系列业务,包括初中毕业生基本信息采集,考试志愿填报,普通高中、中等职业学校网上申报招生计划,教务管理等。由于考生众多,报名时往往遇到各种各样的问题,而报名时间又比较紧,招办人员往往来不及一一回答,从而导致报名工作延误,甚至造成没能报名成功。但由于报名业务的特性,考生遇到的问题总是重复性的问题。于是,基于此需求,本文设计了一个基于中考平台上的答疑系统,实现对问题库已有问题的自动回答,以提高效率。
首先研究了过去答疑系统的情况,总结优点和缺点,并据此改进。分析了原中考平台中的功能结构和网络结构,得出答疑系统与中考平台的结合点。在此之上,分析答疑系统的相关技术全文检索技术,倒排索引,中文分词,研究全文检索系统的内部结构,研究向量空间模型以计算文档的相关度。然后再研究开源全文检索工具包Lucene,了解它的索引结构和组织结构,分词器。设计了基于全文检索工具包Lucene的检索系统,作为答疑系统的核心,设计索引结构Document,使用内存索引与磁盘索引相结合的方式建立索引,以提高建立索引效率。对数据库表和附件相关文件,如Word文件,PDF文件,HTML文件这样的非结构化文件进行索引,以提高检索准确率。答疑系统结合人工答疑与自动答疑。增加专业词典,以提高分词准确率。另外,设计双索引库,除了索引问题,还索引原平台中对问题有帮助的数据,以使检索时提高查全率。
用户提出问题时,系统先对语句进行分析与分词,得出关键词序列,然后快速对问题库利用倒排索引快速定位相关的答案,并以TF/IDF策略另加人工调节权重的方式,用向量空间模型计算相关度,得到相关且重要的答案,最后把结果返回给用户,从而实现自动答疑。如果找不到答案,则人工答疑,管理员把问题加入索引库中,以备下次能自动回答相同的问题。为了答疑系统更好地与基于Weblogic集群中的中考平台相结合,使用了作业调度框架Quartz实现可调节地定时更新索引,用Web Service同步在集群中的各个索引库。最后对系统进行性能分析,时间和空间上的比较,进一步确认了全文检索的高效,此系统设计的有效性。