Web中文信息抽取技术与命名实体识别方法的研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:lsyuanxue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,人们被包围在信息的汪洋大海之中。准确、高效地从信息海洋中抽取有用的信息,正是信息抽取任务要解决的问题。信息抽取是自20世纪80年代末以来,自然语言处理研究领域的热点研究问题。美国、欧洲都制定了相应的信息抽取技术及评测计划。有关汉语的信息抽取研究起步较晚,尚处在探索阶段。信息抽取任务的研究在近年来应对突发事故中表现得尤为亟需。随着各种煤矿安全事故频繁发生,应对突发事故的能力己经成为考验政府执政能力的一个重要方面。应对突发事故是一个系统工程,其中一个重要环节就是信息的收集、整理、加工和发布。及时、客观、准确地收集信息,快速、高效地提取有用信息,这己经成为提高突发事件应对能力的一个重要方面,也是衡量应对突发事件能力的一个重要指标。本文在对煤矿安全事故新闻报道特点广泛分析基础上,以同一突发事件的多个新闻报道(即同事件多文本)为处理对象并考虑到时间的重要性,从中获取支持煤矿安全信息抽取的地名实体识别特征与时间识别特征,在此基础上实现了煤矿安全信息抽取系统。与英语信息提取相比,中文在文本处理深度、知识资源支持等方面都有较大的差距。因此,在研究过程中,对于每一项研究内容,我们都分析了现有资源和文本加工深度对信息提取任务的支持和制约,探索性地研究了具有一定鲁棒性的时间信息识别方法,以期为进一步的研究奠定基础、找到突破口,以便为下一步的工作提供经验。
其他文献
海浪的模拟是计算机图形学中的重要研究领域之一,它不仅在虚拟现实应用、军事仿真、三维游戏动画等领域上有重要意义,而且对于气象预报、现代水力学、流体力学等都具有重要的
文本分类是文本挖掘领域的一个主要分支。提高文本分类的速度和准确度-直是研究人员追求的目标。本文主要工作:1.分析研究文本分类技术的研究现状。基于LDA主题模型的文本分类
Web2.0概念的出现使互联网新媒体发展进入了新阶段。博客作为Web2.0概念下的典型应用正在推动整个互联网业的发展。近几年来,作为一种新兴事物,博客正处于高速的发展时期,互
网络技术的迅猛发展带来了电子商务的广泛应用,其年交易额不断增长,交易者双方的不确定性对交易成败的影响也越发凸显出来。为了减小网络实体间不确定性带来的信任缺失对电子
数据交换平台是为解决政务、企业和高校内的各种数据交换与共享需求而提出的一种综合性服务平台,以实现各部门之间的政务资源的整合、交换和共享,消除逻辑上的信息孤岛,为各业务
进入21世纪,互联网的发展和应用为越来越多的人所关注。由于互联网的开放性特点,使得网络信息不断丰富。一方面,为用户获取信息提供了很大的便利,另一方面,由于信息量的飞速
随着互联网及数字媒体技术的快速发展,视频点播服务已发展成为互联网时代涉众面最广、用户量最大的规模化应用之一,并逐渐显露出其产业发展的巨大市场前景。随着视频资源与用户
随着企业通信技术的发展,企业对视频和协同的功能需求越来越高,现有的视频和协同功能主要依赖于智能网的业务实现,本文从RIA的角度给出了新的实现方案选择。本文首先对企业通
互联网的迅速发展和普及,网上信息资源越来越多,给用户搜索、定位和获取信息资源带来了巨大的困难。搜索引擎的出现解决了用户搜索信息的难题。   传统的搜索引擎采用集中式
随着服务计算的兴起,以分布在网络上的服务组件为功能模块建立特定应用已成为目前学术界的研究热点。服务计算作为极有前途的一种分布式计算模式,它涉及服务网格、SOA、云计