文本检索中若干问题研究

来源 :北京邮电大学 | 被引量 : 38次 | 上传用户：watertnt

【摘要】

：

信息检索技术就是从信息的集合中识别和获取信息的技术，这种技术对人们的学习和科研有着重大意义，尤其是在互联网广泛应用的今天，信息数量激增，信息检索技术已经成为人们有效地开

【作者】

：

王秀娟

【出处】

：

北京邮电大学

【发表日期】

：

2006年01期

【关键词】

：

信息检索文本图像滴水算法文本分类特征选择查询优化查询扩展相关反馈互信息

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息检索技术就是从信息的集合中识别和获取信息的技术，这种技术对人们的学习和科研有着重大意义，尤其是在互联网广泛应用的今天，信息数量激增，信息检索技术已经成为人们有效地开发和利用各种信息资源，更广泛、更快捷、更全面地吸收和获取信息的一条重要途径。本文的研究主要涉及文本检索中的文档处理、文本分类、查询优化等相关技术，主要成果包括： 1．文本分类中的特征选择本文对常用的互信息函数进行了改进，引入了绝对可信度、相对可信度和综合可信度的概念，提出了基于互信息可信度的特征选择方法，该方法不仅考虑了某个词与某类的相关程度，还考虑了该词与各个类之间相关程度的差别，也就是与类别间互信息最大值的可信度，实验数据表明，相对于基本的互信息函数，基于互信息可信度的特征选择算法能够有效提高分类的准确率、召回率和F1值。此外，本文还提出对几种常规的评估函数进行归一化，或者基于这些常规评估函数进行局部特征选择，实验数据表明，归一化的特征选择和局部特征选择都或多或少地提高了系统的分类准确率。 2．多类判别问题对于多类别文本的判别问题，通常需要对每个类别确定阈值，当文本与某类的相似度在该类的阈值之上，就将文本归于该类中。本文在多类判别问题的阈值确定方面进行了研究，提出了评估指标最大化阈值确定法，对任一类别，以最大化该类的分类评估值为准则，寻找该类的闽值。实验结果表明，该方法能够将部分多类样本正确分类，但是还需要进一步的研究。 3．查询优化本文针对已有的带有衰减因子的词共现模型，提出了基于向量距离的改进互信息的查询扩展方法，将检索词在文档空间中的距离引入到互信息计算中，实验数据表明该算法能够有效提高信息检索系统的性能，此外，本文提出了可变权值的伪反馈算法，利用初次检索结果中前列文档与查询的相似度对Ide公式进行修改，实验数据证明该方法能够取得较好的反馈效果。 4．对文本图像的识别处理本文研究了传统OCR技术中的相关内容，对经典滴水算法进行了改进，提出了一种惯性大水滴滴水算法，增大水滴的尺寸，并且使水滴具有了惯性，当它遇到连笔字符或者字符表面的凹槽时，不会像传

其他文献

“生活”概念的历史解说

中国哲学和思想史中"生"、"生生"、"日用"以及"民生"、"人生"等概念与"生活"概念的共生与歧义的语用关系史表明,"生活"概念是一种体现独特的中国经验、中国价值的意识形式。

期刊

生生生日用生活

凤凰县植烟土壤pH分布和变化特征

为了解凤凰县植烟土壤pH分布和变化特征,分析了2000年和2015年凤凰县植烟土壤pH的描述性统计特征、适宜性分布和成土母岩、乡镇的植烟土壤pH变化情况。结果表明：（1）2015年凤凰县

期刊

植烟土壤pH变化特征凤凰

心会跟爱一起走——浅议班主任的表扬之术、批评之方

一、爱如阳光，认真呵护每个学生的自尊心每个人都有自尊心，孙子日：“赠人以言，重于珠宝，伤人以言，重于剑戟。”日常，我细心留意每个学生的闪光点，尽可能地去表扬每一个学生，让学生切实

期刊

师生关系管理艺术班主任

税收犯罪研究

学位

税收犯罪新刑法纳税人妨害公务罪偷税罪抗税罪

对丹江口大坝加高工程供电系统设计及运行的分析

右岸35kV施工变电所担负着丹江口大坝加高工程的供电任务,该变电所的初步设计着重考虑其供电可靠性,应相关方要求,水电公司在实现供电可靠性的同时兼顾经济性,对其方案进行了

期刊

右岸35kV施工变电所设计调整运行方式铁磁谐振35KV substation for construction on the right bank d

新型氟磺酰亚胺锂盐应用于锂离子电池的研究

非水电解液是锂离子电池的四大关键材料之一,在正负极之间主要发挥离子导电和调节电极／电解液界面的功能,与电池的循环寿命、高低温特性和安全性等关键技术性能密切相关。目前

学位

锂离子电池非水电解液氟磺酰亚胺锂(氟磺酰)(全氟丁基磺酰)亚胺锂六氟磷酸锂热稳定性电化学稳定性电极/电解液界面

理清关系　掌握溶液知识

理清关系掌握溶液知识浙江徐雪明，朱新芳初中化学中围绕溶液方面的概念有２０多个。它们大都是成对出现的，如溶质和溶剂、溶液和浊液、饱和溶液与不饱和溶液、溶解与结晶、风化与潮

期刊

硝酸钾溶解度不饱和溶液

循环经济下企业环境成本控制及评价指标的探讨

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

期刊

环境成本控制废弃物处置事后控制事前规划

文本检索中若干问题研究

其他学术论文