论文部分内容阅读
信息检索技术就是从信息的集合中识别和获取信息的技术,这种技术对人们的学习和科研有着重大意义,尤其是在互联网广泛应用的今天,信息数量激增,信息检索技术已经成为人们有效地开发和利用各种信息资源,更广泛、更快捷、更全面地吸收和获取信息的一条重要途径。本文的研究主要涉及文本检索中的文档处理、文本分类、查询优化等相关技术,主要成果包括: 1.文本分类中的特征选择 本文对常用的互信息函数进行了改进,引入了绝对可信度、相对可信度和综合可信度的概念,提出了基于互信息可信度的特征选择方法,该方法不仅考虑了某个词与某类的相关程度,还考虑了该词与各个类之间相关程度的差别,也就是与类别间互信息最大值的可信度,实验数据表明,相对于基本的互信息函数,基于互信息可信度的特征选择算法能够有效提高分类的准确率、召回率和F1值。此外,本文还提出对几种常规的评估函数进行归一化,或者基于这些常规评估函数进行局部特征选择,实验数据表明,归一化的特征选择和局部特征选择都或多或少地提高了系统的分类准确率。 2.多类判别问题 对于多类别文本的判别问题,通常需要对每个类别确定阈值,当文本与某类的相似度在该类的阈值之上,就将文本归于该类中。本文在多类判别问题的阈值确定方面进行了研究,提出了评估指标最大化阈值确定法,对任一类别,以最大化该类的分类评估值为准则,寻找该类的闽值。实验结果表明,该方法能够将部分多类样本正确分类,但是还需要进一步的研究。 3.查询优化 本文针对已有的带有衰减因子的词共现模型,提出了基于向量距离的改进互信息的查询扩展方法,将检索词在文档空间中的距离引入到互信息计算中,实验数据表明该算法能够有效提高信息检索系统的性能,此外,本文提出了可变权值的伪反馈算法,利用初次检索结果中前列文档与查询的相似度对Ide公式进行修改,实验数据证明该方法能够取得较好的反馈效果。 4.对文本图像的识别处理 本文研究了传统OCR技术中的相关内容,对经典滴水算法进行了改进,提出了一种惯性大水滴滴水算法,增大水滴的尺寸,并且使水滴具有了惯性,当它遇到连笔字符或者字符表面的凹槽时,不会像传