基于概率模型的Web信息抽取

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户:xielianqin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对Web网页的二维结构和内容的特点,提出一种树型结构分层条件随机场(TH-CRFs)来进行Web对象的抽取.首先,从网页结构和内容两个方面使用改进多特征向量空间模型来表示网页的特征;第二,引入布尔模型和多规则属性来更好地表示Web对象结构与语义的特征;第三,利用TH-CRFs来进行Web对象的信息提取,从而找出相关的招聘信息并优化模型训练的效率.通过实验并与现有的Web信息抽取模型对比,结果表明,基于TH-CRFs的Web信息抽取的准确率已有效改善,同时抽取的时间复杂度也得到降低. Aiming at the characteristics of two-dimensional structure and content of Web pages, this paper proposes a TH-CRFs model to extract Web objects.Firstly, we use improved multi-eigenvector Space model to represent the characteristics of web pages; secondly, the introduction of Boolean model and multi-rule attributes to better represent the structure and semantic features of Web objects; third, the use of TH-CRFs for Web object information extraction to find the relevant And optimize the training efficiency of the model.Compared with the existing Web information extraction models, the experimental results show that the accuracy of Web information extraction based on TH-CRFs has been effectively improved and the time complexity of the extraction has also been reduced .
其他文献
高中英语是初中英语的延续。初高中英语教学衔接,关系到学生能否从初中英语学习顺利过渡到高中的英语学习,并且是为高中英语学习打下坚实基础的关键。在教学实践中,笔者觉得
吴庆东:我的书法初学米芾蜀素与大王圣教序,尤喜米芾手札的天真浪漫与不拘小节,早期在创作中多以行书为主,略加少幅草意,近年加强了对二王手札、阁帖和唐代诸家的临习,陶醉干
传染病档案工作是疾病预防控制档案工作的一个分支,随着国家基本公共卫生服务和疾病预防控制系统绩效考核标准的实施,对传染病管理工作及其档案提出了更高的要求,如何加强基
目的 :探讨脐动脉彩色多普勒血流频谱分析在胎儿畸形中的临床意义。方法 :1997年 10月至 1999年 11月于本院行彩色多普勒超声检查胎儿发育异常 5 9例 ,全部病例在出生或引产
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
中职学生定位不准确、期望值过高、目标不明确、独立意识欠缺及年龄偏小等特点,针对这些特点以帮助学生明确目标,树立信心;细心了解学生的个性特点,做好就业心理辅导,使其更
患者 2 3岁 ,孕1 产 0 。因停经 9月 ,规律性腹胀痛 2 h,于1999年 8月 10日 9∶ 0 0 Am,急诊入院。既往月经规律 ,末次月经 1998年 11月 7日。孕期未接受过任何药物治疗及接
目的 :为了解孕妇不同碘营养水平对胎儿甲状腺功能和体格发育的影响 ,并对昆明市市区孕妇碘营养状况作出初步评估 ,以便为临床是否需针对性补碘提供理论依据。方法 :本研究测
患者 ,2 4岁 ,孕 3产0 ,停经 39+ 5周 ,头痛 1天 ,抽搐 2次 ,于1998年 7月 4日 4:0 0 pm入院。妊娠期一直未作检查 ,近 2个月双下肢水肿。 3日晚 6时出现头痛 ,逐渐加剧 ,伴