论文部分内容阅读
随着信息技术的发展,计算机应用已经渗透到人们工作、生活和学习的各个方面。考试的信息化要求能对不同考试题型进行自动处理,而不需要人工干预。目前中文考试系统仅能对选择、判断等客观题进行自动评分,而无法实现中文主观题自动评分。原因在于中文主观题自动评分算法涉及自然语言处理、模式匹配、和人工智能等多个领域的深入研究,并且汉语系统本身是一个复杂开放的系统,要实现机器自动对汉语的自动理解,还需要进行深入的研究。中文分词是中文自然语言处理的基础,分词效率和精度直接影响上层应用。主观题自动评分模型建立在中文分词基础之上。因此,本文首先对中文分词的相关技术进行了深入研究。深入分析了三类分词方法,并比较各自的优缺点。归纳分析了影响中文分词系统准确度的歧义问题和命名实体识别问题。结合有限自动机的思想提出了基于二级索引词典的分词算法,并将该算法与K-最短路径算法相结合,实现了中文分词。算法采用N-gram模型进行歧义处理和命名实体识别,并取得了不错的识别效果。在中文分词的基础上提出了基于文本分类模型的主观题自动评分模型。结合同义词词林计算得到文本的词性相似度,作为分类器的条件属性,在一定程度提高了文本的语义理解。同时结合了文本的一些浅层相似度一起作为分类器的条件属性,提高了文本的语义理解。通过对已有文本的机器学习,采用ID3算法构建决策树分类器,使用考生分数作为分类类别。最后将待测文本输入决策树分类器从而实现答案的分类,即实现了自动评分。通过与人工阅卷过程对比,验证了系统是有效可行的,符合人工阅卷的过程。