基于隐马尔可夫模型的中文信息抽取算法研究

来源 :辽宁科技大学 | 被引量 : 6次 | 上传用户:bobo20092009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络高速发展的时代,文档数据在Internet上的量非常具大,而且在以很快的速度增长。怎样从如此巨大的网络信息中获取用户需要的信息是人工智能和网络的一个主题。为了便于用户从信息资源中获取各种信息,各种各样获取信息的技术被人们研究、发明出来。在严格意义上说,信息检索包括文档的检索、分类、过滤、聚类等多项技术,这些技术可以使用户在一个大的信息集合中找到需要的文档,然而,网络层面的技术则是使用户从这些需要的相关文档中找到更精细的事件,从而满足了用户对信息抽取的更高需求。综上所述,信息抽取(IE)可以丰富信息检索(IR)技术。IE将Internet中杂乱无章的文本信息通过条理化简化为某些特定条件的集合,可作为数据整理的基础。此外,还能对信息检索、知识问答、自主化信息服务等的实现起功能上的支持作用或者提高它们的性能。传统的一阶隐马尔可夫模型HMM(1),观察值的输出概率仅与模型此刻的状态相关联;改进一阶隐马尔可夫模型HMM(2),观察值的输出概率不仅与模型此刻的状态相关联,还与模型此刻的前一个状态相关联;二阶隐马尔可夫模型HMM(3),不仅仅是观察值的输出概率与模型此刻的状态和此刻的前一个状态相关联,同时模型的状态转移概率也与模型此刻的状态和此刻的前一个状态相关联。HMM较高的准确度是通过使用释放概率矩阵,对具体的文本词汇进行统计训练。但是,它并没有考虑到文本与其前后文信息的关系和信息文本本身所含有的特定信息,并且,上述内容在信息抽取过程中十分重要。基于最大熵的隐马尔可夫模型ME-HMM之所以能在一定程度上,大大的提高信息抽取的精确度,就是因为它基于最大熵的角度,考虑文本与其前后文信息的关系和信息文本本身所含有的特定信息。但是,它也有一点不足,就是它没有统计特定的信息文本词汇,只单单考虑了信息的抽象部分的特征,所以,有时其准确度低于HMM。本文提出一种HMM(2)和一种HMM(3),并分析最大似然算法(ML)和维特比(Viterbi)算法,以此对比这三者在信息抽取中的抽取精确度,通过仿真实验证明,HMM(2)和HMM(3)都比HMM(1)有更高的抽取精确度。同时本文将HMM和最大熵结合在一起来研究中文信息抽取的算法,分析抽取的精确度。
其他文献
为了解决镍镉电池快速充电过程中产生充电时间过长,过充,电池寿命缩短等问题。本文提出一种以Atmegal16单片机和Tea1100充电电路芯片为控制核心的新型快速充电器设计方案,该
结垢在油田生产中是最具有危害性的问题之一。本文以衣康酸(IA)等为主体,过硫酸铵为引发剂,合成新型防垢剂ISCA、IPBS、ISTA。以顺丁烯二酸酐(MA)、三乙醇胺(TEA)为单体,过硫酸
中央经济工作会议确定1996年农业和农村工作的要求和任务是继续加强农业基础地位,力争农业和农村经济有新的发展。今年要切实把加强农业放在发展国民经济的首位。这是一个必
土鳖虫、芙蓉叶的特殊功用南京中医学院(210029)孟景春1土鳖虫擅治腰痛土鳖虫性寒、味咸,有毒。入心、脾、肝三经。功能逐瘀破积,通络理伤。至于主治腰病,诸家本草尚无明确记载。近来偶见
自从北京奥运会成功举办以来,我们可以看到大量外国人来到中国访问,学习,甚至生活在中国。在日常生活中,公示语随处可见,特别是双语公示语给来到中国的外国友人予以了极大的帮助。
近些年以来,无线通信技术在军事、商务等一系列的行业被普遍地应用,对当前我国无线通信技术的发展现状以及发展趋势进行正确地认知,有助于我国更好地发展无线通信技术。
To evaluate the risk of transmission of carbapenem-resistant Enterobacteriaceae(CRE) and their related superbugs during gastrointestinal(GI) endoscopy. Reports
CN3058E是可以对单节磷酸铁锂电池进行恒流/恒压充电的充电器电路。本文主要介绍了CN3058E的使用方法和注意点。
介绍张从正(1156~1228)报道的具有震麻痹特征的病例。通过复习古代中医经典著作,发现2000多年前的《内经》对震颤、强直、姿势障碍和运动麻痹及其中医学的发病机理已有认识。约在公元220年,《华氏
近几年来,我国的工业化进程逐渐加快,对电力系统继电保护的要求有所提升,再加上科学技术的不断完善,将电力系统的继电保护与科学技术相结合已经十分常见。本文将主要针对110kV坨九变电站主变压器的继电保护进行研究。