文本检索中若干问题研究

来源 :北京邮电大学 | 被引量 : 38次 | 上传用户:watertnt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索技术就是从信息的集合中识别和获取信息的技术,这种技术对人们的学习和科研有着重大意义,尤其是在互联网广泛应用的今天,信息数量激增,信息检索技术已经成为人们有效地开发和利用各种信息资源,更广泛、更快捷、更全面地吸收和获取信息的一条重要途径。本文的研究主要涉及文本检索中的文档处理、文本分类、查询优化等相关技术,主要成果包括: 1.文本分类中的特征选择 本文对常用的互信息函数进行了改进,引入了绝对可信度、相对可信度和综合可信度的概念,提出了基于互信息可信度的特征选择方法,该方法不仅考虑了某个词与某类的相关程度,还考虑了该词与各个类之间相关程度的差别,也就是与类别间互信息最大值的可信度,实验数据表明,相对于基本的互信息函数,基于互信息可信度的特征选择算法能够有效提高分类的准确率、召回率和F1值。此外,本文还提出对几种常规的评估函数进行归一化,或者基于这些常规评估函数进行局部特征选择,实验数据表明,归一化的特征选择和局部特征选择都或多或少地提高了系统的分类准确率。 2.多类判别问题 对于多类别文本的判别问题,通常需要对每个类别确定阈值,当文本与某类的相似度在该类的阈值之上,就将文本归于该类中。本文在多类判别问题的阈值确定方面进行了研究,提出了评估指标最大化阈值确定法,对任一类别,以最大化该类的分类评估值为准则,寻找该类的闽值。实验结果表明,该方法能够将部分多类样本正确分类,但是还需要进一步的研究。 3.查询优化 本文针对已有的带有衰减因子的词共现模型,提出了基于向量距离的改进互信息的查询扩展方法,将检索词在文档空间中的距离引入到互信息计算中,实验数据表明该算法能够有效提高信息检索系统的性能,此外,本文提出了可变权值的伪反馈算法,利用初次检索结果中前列文档与查询的相似度对Ide公式进行修改,实验数据证明该方法能够取得较好的反馈效果。 4.对文本图像的识别处理 本文研究了传统OCR技术中的相关内容,对经典滴水算法进行了改进,提出了一种惯性大水滴滴水算法,增大水滴的尺寸,并且使水滴具有了惯性,当它遇到连笔字符或者字符表面的凹槽时,不会像传
其他文献
中国哲学和思想史中"生"、"生生"、"日用"以及"民生"、"人生"等概念与"生活"概念的共生与歧义的语用关系史表明,"生活"概念是一种体现独特的中国经验、中国价值的意识形式。
为了解凤凰县植烟土壤pH分布和变化特征,分析了2000年和2015年凤凰县植烟土壤pH的描述性统计特征、适宜性分布和成土母岩、乡镇的植烟土壤pH变化情况。结果表明:(1)2015年凤凰县
一、爱如阳光,认真呵护每个学生的自尊心每个人都有自尊心,孙子日:“赠人以言,重于珠宝,伤人以言,重于剑戟。”日常,我细心留意每个学生的闪光点,尽可能地去表扬每一个学生,让学生切实
右岸35kV施工变电所担负着丹江口大坝加高工程的供电任务,该变电所的初步设计着重考虑其供电可靠性,应相关方要求,水电公司在实现供电可靠性的同时兼顾经济性,对其方案进行了
非水电解液是锂离子电池的四大关键材料之一,在正负极之间主要发挥离子导电和调节电极/电解液界面的功能,与电池的循环寿命、高低温特性和安全性等关键技术性能密切相关。目前
理清关系掌握溶液知识浙江徐雪明,朱新芳初中化学中围绕溶液方面的概念有20多个。它们大都是成对出现的,如溶质和溶剂、溶液和浊液、饱和溶液与不饱和溶液、溶解与结晶、风化与潮
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技