基于遗传算法和隐马尔可夫模型的Web信息抽取的改进

来源 :计算机科学 | 被引量 : 0次 | 上传用户:linjinlong19880927
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了进一步提高Web信息抽取的准确性和效率,针对Web信息抽取的遗传算法和一阶隐马尔可夫模型混合方法在初值选取和参数寻优上的不足,提出了一种遗传算法和二阶隐马尔可夫模型内嵌结合的改进方法。在分层预处理阶段,利用格式信息和文本特征将文本切分成文本行、块或单个的词等恰当的层次;然后采用内嵌的遗传算法和二阶隐马尔可夫混合模型训练参数,保留最优和次优染色体,修正Baum-Welch算法的初始参数,多次使用遗传算法微调二阶隐马尔可夫模型;最后用改进的Viterbi算法实现web信息抽取。实验结果表明,改进方法在精确
其他文献
针对视频会议中存在的安全隐患问题及产生的原因,提出了在视频会议中使用多对一加密认证方案加密会话密钥的方法,该方法使用二次加密的方法保证了会话密钥的安全性,分析证明了该
分析了漫画构成文法,提出一种漫画结构定义法;分析了漫画帧排布特点和分治思想的关联性,提出基于二叉树结构的漫画帧迭代识别排序法;分析了漫画分割线特点,提出一种基于分割比的分割线选择算法。本方法可以对漫画帧进行自动识别、抽取与排序,帮助减少手动分割的工作量。分割后的漫画帧可以放在屏幕较小的手机或PDA上阅读,使漫画阅读方便、简单、生动。实验证明该方法对大多数漫画帧的识别分割和故事情节的先后顺序排列具有
在IDS的检测引擎模块设计中,基于Pattern-Matching的误用检测算法是设计师们最常用到的一种核心技术实现途径,而IDS丢包率和误报率的高低以及检测引擎匹配速度的快慢都取决于模
在以往电子投票方案中,验票工作都是由一名验票员承担,该验票员若不诚实,可能不记录合法选票,却统计不合法选票。为了解决该问题,提出了一种基于门限的电子投票方案。在该方
为了解决普通用户对于Web数据库的不精确查询问题,提出了一种基于语义相似度的Web数据库不精确查询方法。对于一个给定查询,该方法首先在查询历史中找出一个(或若干)与其相似度
基于流形正则化框架提出一种分类算法(MLD-RLSC),以解决高维文档分类问题。该算法通过构建训练样本的最近邻图来估计数据空间的几何结构并将其作为流形正则化项,结合多变量线性回
流数据噪声检测是一个比较困难的领域。由于流数据的一些特殊性,使得以前的一些处理静态数据的算法对于流数据的处理而言都不理想。在局部离群点(LOF)思想的基础上,引入信息熵
为了解决多关系频繁模式挖掘面临的统计偏斜问题和效率问题,提出了基于ER(实体-联系)概念模型的方法。其以ER模型的联系集为核心,利用扩展的关系数据库SQL统计原语,在用户给定
基于Peer-to-Peer(P2P)技术的流媒体应用具有部署效率高及可扩展性好等突出优势。而采用分层视频编码技术的P2P流媒体系统把原视频流分解为多个视频层数据进行分发,让节点能够
实施西部大开发,是党中央、国务院着眼全局、面向未来的大战略、大决策,也是21世纪实现我国现代化建设宏伟目标的必然选择.如何抓住历史所提供的发展机遇,加快我盟教育的改革
期刊