面向企业信息检索的中文分词系统的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:shnoonkids
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业信息的飞速增长,企业信息检索逐渐成为信息检索领域研究的热点,中文分词作为信息检索的文本处理阶段一个重要步骤,直接影响着检索结果的准确性。学术界关于分词技术的研究一直比较多,但是目前的研究大多是通用的分词算法,专门针对企业检索应用的分词技术研究相对较少。因此,研究中文分词技术在企业信息检索中的应用有重要的理论和现实意义。本文研究了中文分词的关键技术及难点,分析了分词对大规模信息检索的影响,在此基础上结合企业信息检索中分词技术的特点,设计了中文分词系统(EIRCWS)。由于面向企业信息检索的分词算法对时间性能要求较高,本文设计了一种新的多字哈希结构的词典,改善了词典查询算法,提高了分词效率。歧义消除和未登录词识别是分词的两大技术难点。考虑到企业信息检索应用的特点,在歧义消除部分,本文重点解决交叉歧义问题,利用双向匹配结果进行比较来检测歧义,采用自定义规则来消除歧义。在未登录词识别部分,本文提出了一种新的未登录词识别方法,利用数量词识别规则和虚字辅助切分分词碎片,通过局部词频统计结合单字非词概率,使得算法在不依赖大型语料库的前提下可以有效地识别多个领域中各种类型的未登录词。实验结果表明,本文设计的分词系统,分词速度快,准确率高,而且对未登录词具有很强的识别能力,符合企业信息检索对中文自动分词的要求。
其他文献
我国长江水域港口中的浦口、汉口、裕溪口和枝城,即“三口一枝”   一直是长江水域煤炭运输大港,多年来一直牢牢占据长江煤炭运输市场的半壁江山。随着长三角地区对煤炭需求
随着计算机网络技术的应用越来越广泛,各种网络中的应用服务也变得越来越复杂,其运行变得脆弱而不可靠,与网络服务相关的故障变得司空见惯。而目前在这些引起系统故障的因素
利用计算机模拟人的思维对图像中的内容进行识别,是计算机视觉领域重要的研究方向。根据是否针对特定对象,图像内容识别可分为物体分类和物体检测,它们都是图像分割、特征匹
血吸虫病是严重危害人民身体健康,阻碍社会经济发展的地方性传染病。钉螺作为血吸虫唯一的中间宿主,其地理分布决定了血吸虫的空间分布。为了掌握钉螺的分布,并对血吸虫病进
随着网络技术的迅速发展和互联网规模的不断扩大,互联网已经成为了全球最大、最广泛使用的信息库,人们能够获得的信息资源也日益丰富。网络信息的指数级膨胀给信息检索带来了
目前,Agent技术已经成为十分炙手可热的研究领域,特别是多Agent技术相关的研究课题和应用已急剧增加,这是因为智能Agent的快速发展可以使人类的工作和生活变得更加方便和舒适
实时多媒体业务以及各种非实时业务在Internet上的应用愈加广泛,而这些应用有不同的QoS需求,如不同的带宽、延迟和抖动要求。由于TCP/IP采用尽力而为的思想,随着业务流量显著
测量商标图像的知觉相似性并为其定义适当的相似度测量准则存在很大的不可预见性。大多数学者使用欧式距离或者Hausdorff距离。 任意两个p维向量的欧式距离被看作其幅值上
在J2EE应用程序开发中,框架和模式是很重要的软件重用技术,框架技术通过重用提高了软件的开发效率,J2EE项目通过框架,模式的设计应用达到了控制软件质量的目的。虽然框架技术的应
随着网络的迅速发展,网络的服务质量QoS(quality of service)保证成为当前网络研究的热点问题。将Internet网络和工业控制系统相结合,既能节约实时网络构建成本,又便于统一管