大规模真实中文文本的检索与分类

来源 :西安交通大学 | 被引量 : 0次 | 上传用户:mm963258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文从面向大规模真实文本的角度出发,初步介绍并讨论了大规模真实中文文本的处理技术和特点:首先,在文本表示方面,该文采用向量空间模型,并在此基础上,介绍了获取字、词等文本特征项的词汇技术,包括自动分词、歧义识别、未登录词识别和术语识别等;在排歧中,我们采用规则和统计并举的方式;在姓名识别中,我们建立了由一万多个姓名组成的姓氏库和名字用字库,并组织了姓名识别规则库;此外,基于统计的自动分词研究是该文的实现重点,也做了详细研究.其次,在文本检索方面,该文介绍了布尔检索、概率检索和向量检索三种主要检索方式,并在向量检索的基础上,讨论了文本检索系统中的数据压缩技术,包括文本压缩和索引压缩;最后,在文本分类方面,该文介绍了文本分类的全过程,即文本表示、特征项提取、分类模型选择和阈值确定.该文对文本分类技术的讨论是基于向量空间模型展开的,重点讨论了文本分类技术中的向量维数压缩和分类模型选择问题.在以上理论研究的基础上,我们运用已有的知识基础,通过统计信息,建立了姓氏库、名字用库、姓名识别规则库、数词识别规则库,提出了中文内嵌词处理的新思路.最后实现了一个原型系统,进行了实验,并分析了实验结果,同时提出了改进思路.
其他文献
该文研究了目前这一方面研究的发展现状,提出了通用的交互模型分析工具IMAA和交互过程分析工具IPAA两个模型.在这两种新的模型下,用户可以借助于以往分析工具的组合的特性和
国内许多行业如冶金、医药、水泥等行业都对各种原材料有贮存及配料要求,也建立了一些数学模型来解决生产中有关配料方面的问题,也有很多行业如港口、铁路、仓储行业对于原料的
众所周知,Web应用是典型的浏览器/服务器(简称B/S,下同)架构的产物,B/S架构以其轻量级、易用性强、使用灵活等优点已经逐渐成为主流的应用程序架构,但是Web应用开发领域也面临着许
该文研究嵌入式系统的软硬件划分和综合的技术.提出了一种基于并行语言PL的协同设计方法.着重介绍了基于PL的软硬件划分方法,软硬件协同综合技术.PL的形式化语义为软硬件划分
为了适应国内Web网站占绝大多数的现状,我们工作的主要目的在于,使呼叫中心无需重新建立一个WAP网站,移动终端可以直接访问呼叫中心的已经建立的Web网站,以减少重复建设,我们
在后基因时代,蛋白质组学已逐渐取代基因组学成为生命医学研究的重点。如何根据蛋白质间的相互作用关系来系统的分析复杂的生命活动已成为当下的研究热点。尤其是在蛋白质网
针对特征造型系统智能化的一系列问题,通过对目前特征造型方法与理论归纳分析的基础上,首先,研究了混合特征建模系统与基于特征的约束求解,分析了现有所谓的特征造型系统的实
学位
学位
该论文以RBF神经网络的学习算法为研究中心,在分析了近几年来国内外的相关研究成果和发展前景后,提出一种自适应进化学习算法,它是以规则化正交最小二乘(ROLS)算法确定的隐节