论文部分内容阅读
随着互联网这个新兴的信息传递媒体的迅猛发展,互联网信息急剧膨胀,如何从海量网络电子文档中及时准确地找到需要的信息己经成为一个函待解决的问题,信息抽取正是在这样的背景下产生并发展起来的,它是一冲用于处理各种类型文本文档的非常有效的方法。
信息抽取把文本里包含的信息进行结构化处理,输入是原始文本,输出的是固定格式的信息内容。信息内容从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的应用领域范围而定。
本文主要对中文信息抽取中规则的数字号码信息和中文人名进行了研究。规则的数字号码信息作为独立性强的信息可以基于正则表达式来识别,识别得到的结果可以通过上下文环境来判断其准确性;人名提取相对复杂,本文针对中文姓名构成的一般规律和特点,提出一种基于姓氏用字驱动的统计与规则相结合的混合中文姓名识别算法,以姓氏用字为线索,通过分析上下文中汉字形成普通单词的可能性来进行人名识别。
创新点在于把对提取结果的判准放在了与提取过程同等重要的位置,通过证据融合的方法对提取的结果做出判决,这很好地融合了信息所在的上下文环境,也使得最终的提取结果准确可信。在处理高冲突证据合成时,先做基于权重的预处理,突出重点证据,然后用Dempster法则进行组合。这样即避免了D-S证据理论在处理冲突证据时的不足,也使信息提取的问题得到解决。实例表明,该方法对提取结果判准能起到有效的作用。