基于中考平台的答疑系统的研究与设计

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:xyz880330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展和Internet的普及,人们对网络的依赖性越来越大,网络已经融入了人们生活和工作的方方面面。面对越来越复杂的信息系统,人们往往会有很多疑问,但总得不到快速的解答。这就对自动答疑系统产生了需求。   中考平台为广东省教育考试院组织开发的平台,实现高中阶段招生的一系列业务,包括初中毕业生基本信息采集,考试志愿填报,普通高中、中等职业学校网上申报招生计划,教务管理等。由于考生众多,报名时往往遇到各种各样的问题,而报名时间又比较紧,招办人员往往来不及一一回答,从而导致报名工作延误,甚至造成没能报名成功。但由于报名业务的特性,考生遇到的问题总是重复性的问题。于是,基于此需求,本文设计了一个基于中考平台上的答疑系统,实现对问题库已有问题的自动回答,以提高效率。   首先研究了过去答疑系统的情况,总结优点和缺点,并据此改进。分析了原中考平台中的功能结构和网络结构,得出答疑系统与中考平台的结合点。在此之上,分析答疑系统的相关技术全文检索技术,倒排索引,中文分词,研究全文检索系统的内部结构,研究向量空间模型以计算文档的相关度。然后再研究开源全文检索工具包Lucene,了解它的索引结构和组织结构,分词器。设计了基于全文检索工具包Lucene的检索系统,作为答疑系统的核心,设计索引结构Document,使用内存索引与磁盘索引相结合的方式建立索引,以提高建立索引效率。对数据库表和附件相关文件,如Word文件,PDF文件,HTML文件这样的非结构化文件进行索引,以提高检索准确率。答疑系统结合人工答疑与自动答疑。增加专业词典,以提高分词准确率。另外,设计双索引库,除了索引问题,还索引原平台中对问题有帮助的数据,以使检索时提高查全率。   用户提出问题时,系统先对语句进行分析与分词,得出关键词序列,然后快速对问题库利用倒排索引快速定位相关的答案,并以TF/IDF策略另加人工调节权重的方式,用向量空间模型计算相关度,得到相关且重要的答案,最后把结果返回给用户,从而实现自动答疑。如果找不到答案,则人工答疑,管理员把问题加入索引库中,以备下次能自动回答相同的问题。为了答疑系统更好地与基于Weblogic集群中的中考平台相结合,使用了作业调度框架Quartz实现可调节地定时更新索引,用Web Service同步在集群中的各个索引库。最后对系统进行性能分析,时间和空间上的比较,进一步确认了全文检索的高效,此系统设计的有效性。
其他文献
图像匹配是计算机视觉和图像处理领域一项重要的研究工作,本文主要对图像匹配领域进行了深入细致的研究。 本文主要研究了两类图像匹配算法:基于灰度信息的算法和基于特征的
对于大型金融机构,金融基础数据存放在较多的分布于全球的数据服务器中,而与基础数据相关的数据不一致、不准确或不完整问题是金融服务行业中交易失败的主要原因。因基础数据
近年来,随着生物医学文献的快速增长,生物文献中的信息抽取技术已经得到广泛的研究,目前为止,生物医学文献信息抽取中的大部分工作都涉及到关系抽取。生物领域中的关系抽取主
矢量量化是一种高效的数据压缩技术,具有压缩比大且解码简单因此广泛应用于图像压缩、语音编码等多个领域。数字水印技术是将序列号、文字、二值图像等信息嵌入到多媒体数据
随着计算机技术与网络通信以及信息产业的高速发展,网络入侵攻击的事件频繁发生,因此计算机网络安全形势也日益严峻,所以需要能过各种网络安全技术来解决问题。而入侵检测技
随着计算机网络和数据库技术的发展,在企业信息化建设和管理过程中,数据库的应用越来越广泛,几乎所有大型的商业应用系统都是和数据库相关联的,许多应用程序都使用数据库来管
终端直连技术(Device-to-Device, D2D)作为5G中的关键技术和提高频谱利用率以及网络质量的重要手段,得到广泛关注。D2D技术可以提高网络吞吐量,降低基站负荷,减少终端设备发
随着网络技术的发展,当今社会互联网上信息量越来越大。传统的基于文本的图像检索以及基于内容的图像检索由于各自的缺点,必然不能满足人们的需要,从而也推动了自动图像标注
由于无人机(UAV)的零人员伤亡,成本低,生存能力强,机动性好,使用性强等特性,使得其在在现代战争中有极其重要的作用,在民用领域更有广阔的应用前景;近年来,UAV技术引起了世界
Forrest提出的否定选择算法建立在传统的“自我/非我”识别模式基础上,该算法对自体集的完备性和洁净性要求较高,在实际应用中存在无法克服的局限性。SNS模型受到了挑战,新的