词语领域性分析方法研究及应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:gnbsr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的快速发展,各个领域的信息呈现指数级增长的趋势。领域性分析是知识构建、语义理解、文本分类、数据发掘等研究的基础,具有非常重要的意义。本文从词的层次上研究领域性分析方法,旨在获取领域词语,即表示领域内概念、特征或关系的具有显著领域性的词语,基于多种语料和单种语料分别提出了领域词语的获取方法,并进一步研究如何将领域词语用于自然语言处理的相关任务中。  基于多个领域的语料,本文抓住领域词语的领域内和领域间特性作为词语领域性度量的关键。领域内的高使用性和领域间的高差异性,分别体现了词语的使用重要性和领域显著性。我们提出了一种在分词基础上的链接分析方法计算词语的使用度分数,依靠相邻词语间推荐作用引入词语的上下文信息,度量词语在领域中的重要性,其后基于方差提出了一种基于领域差异性的计算方法计算词语的差异度分数,度量词语在各个领域的领域度。  针对领域词语表现出的不同语义层次,本文在单个领域的语料上进一步对词语的领域性层次进行划分,认为领域词语可以分为背景层、文档层和主题层。这里,我们提出了一种改进的层次话题模型对领域文档进行建模,更好地模拟了不同语义层次领域词在文档中的分布过程。利用层次领域词的分布范围的联系与差异,加入有指导思想的模块,加强了模型对不同领域层次的区分程度。  此外,本文还将词语领域性的分析方法应用于多文档摘要提取和术语提取任务中。通过实验表明,将词语的领域性信息加入后,能够在词语级别上增加信息量,提高了应用任务的性能。
其他文献
近年来,软件服务化、云计算、物联网等新技术、新形态、新领域快速扩展,互联网作为一台计算机(Internet As A Computer)的概念逐渐为大众所接受,运行在互联网上的互联网应用
云计算是产业界、学术界、政府等各界均十分关注的焦点,是当前信息技术领域研究及应用的热点之一。它在资源合理应用及租用费用上的优势不容置疑,但其用户的隐私安全问题也备
生物特征识别技术作为新一代的身份认证技术,近年来己经走出实验室,越来越多的在社会生活中的得到广泛使用。本论文对于生物特征识别技术的一个新兴的分支——手指静脉识别技
几何建模是计算机图形学和计算机辅助设计中的一个基本问题。本文中,我们以产品设计为主要应用,对几何建模中几何体形状和位置的优化问题进行了研究。同面向图形学应用的几何
学位
相似词是自然语言处理领域重要的知识资源,在查询扩展、机器翻译、自动摘要、问答系统中都有广泛的应用。本文对汉语相似词的自动获取进行了系统的研究,主要使用基于大规模语
随着多核技术、云计算技术的发展,我们常常会面临一台多核机上运行若干组不同的计算任务的情景。在这样的情景下,内存、高速缓存、总线等存储相关的竞争会对计算性能产生较大影
随着信息时代的到来,在各式各样的现实应用中,由于度量误差、数据不完整性等原因,产生了大量的不确定数据,不确定数据扮演着十分重要的角色。同时,数据仓库与OLAP(On-Line An
近年来,随着计算机硬件和软件的快速发展,使得软件工程面临着严峻的挑战:软件系统变得越来越复杂,大大增加了开发和维护的难度。如何更快地开发出满足需求的应用系统已经成为软件
为了解决PC机自身结构缺陷,改变传统安全技术(如防火墙、杀毒软件和入侵检测系统等)在应对如今与日俱增的信息安全问题情形下的被动局面,从芯片、硬件结构和操作系统等方面综合