非结构化数据信息提取的研究和实现

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:zhm4150175
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网这个新兴的信息传递媒体的迅猛发展,互联网信息急剧膨胀,如何从海量网络电子文档中及时准确地找到需要的信息己经成为一个函待解决的问题,信息抽取正是在这样的背景下产生并发展起来的,它是一冲用于处理各种类型文本文档的非常有效的方法。   信息抽取把文本里包含的信息进行结构化处理,输入是原始文本,输出的是固定格式的信息内容。信息内容从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的应用领域范围而定。   本文主要对中文信息抽取中规则的数字号码信息和中文人名进行了研究。规则的数字号码信息作为独立性强的信息可以基于正则表达式来识别,识别得到的结果可以通过上下文环境来判断其准确性;人名提取相对复杂,本文针对中文姓名构成的一般规律和特点,提出一种基于姓氏用字驱动的统计与规则相结合的混合中文姓名识别算法,以姓氏用字为线索,通过分析上下文中汉字形成普通单词的可能性来进行人名识别。   创新点在于把对提取结果的判准放在了与提取过程同等重要的位置,通过证据融合的方法对提取的结果做出判决,这很好地融合了信息所在的上下文环境,也使得最终的提取结果准确可信。在处理高冲突证据合成时,先做基于权重的预处理,突出重点证据,然后用Dempster法则进行组合。这样即避免了D-S证据理论在处理冲突证据时的不足,也使信息提取的问题得到解决。实例表明,该方法对提取结果判准能起到有效的作用。
其他文献
认知无线电(Cognitive Radio,CR)作为提高频谱利用率、解决频谱资源紧张问题的有效手段已经受到了广泛的关注和研究,它允许认知用户(Cognitive User,CU)利用主用户(Primary U
近年来,随着网络带宽、计算机处理能力和存储容量的迅速提高,以及各种视频信息处理技术的出现,视频监控进入了全球数字化的网络时代。随着微电子、通信以及计算机技术的迅速
随着近年来多媒体技术的飞速发展,许多应用领域对视频图像的实时压缩提出了更高的要求,快速、高效的压缩算法是解决这一问题的关键。运动估计作为实现视频压缩的核心技术,也
学位
如今,数据业务的迅猛发展推动了电信传送网络向着高带宽和多业务的方向发展。光传送网络的引入使得传送网络获得了潜在的无限带宽。在这样一种高速、多业务的光传送网中出现任
近年来,随着人们对安全方面越来越高的需求,视频监控得到了越来越广泛的应用,人们对于数字化视频监测系统的要求也随之提高。但是在恶劣环境下,通过视频监测系统获取图像的质
MIMO技术与OFDM技术作为第四代移动通信系统的关键技术,广泛应用于各种无线通信系统中。然而,其较好的系统性能建立在已知发送端信道状态信息的基础上。有限反馈系统能够为发送
图像语义标注作为图像场景理解的核心之一,已成为图像处理与计算机视觉领域的研究热点。室内场景存在大量语义类别、互相遮挡、低层视觉特征辨识力较弱以及不均匀光照等问题,