基于概率模型的Web信息抽取

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户：xielianqin

【摘要】

：

针对Web网页的二维结构和内容的特点,提出一种树型结构分层条件随机场(TH-CRFs)来进行Web对象的抽取.首先,从网页结构和内容两个方面使用改进多特征向量空间模型来表示网页的

【作者】

：

王静刘志镜

【机构】

：

西安电子科技大学计算机学院,

【出处】

：

模式识别与人工智能

【发表日期】

：

2010年06期

【关键词】

：

Web对象条件随机场(CRFs) 信息抽取(IE)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对Web网页的二维结构和内容的特点,提出一种树型结构分层条件随机场(TH-CRFs)来进行Web对象的抽取.首先,从网页结构和内容两个方面使用改进多特征向量空间模型来表示网页的特征;第二,引入布尔模型和多规则属性来更好地表示Web对象结构与语义的特征;第三,利用TH-CRFs来进行Web对象的信息提取,从而找出相关的招聘信息并优化模型训练的效率.通过实验并与现有的Web信息抽取模型对比,结果表明,基于TH-CRFs的Web信息抽取的准确率已有效改善,同时抽取的时间复杂度也得到降低. Aiming at the characteristics of two-dimensional structure and content of Web pages, this paper proposes a TH-CRFs model to extract Web objects.Firstly, we use improved multi-eigenvector Space model to represent the characteristics of web pages; secondly, the introduction of Boolean model and multi-rule attributes to better represent the structure and semantic features of Web objects; third, the use of TH-CRFs for Web object information extraction to find the relevant And optimize the training efficiency of the model.Compared with the existing Web information extraction models, the experimental results show that the accuracy of Web information extraction based on TH-CRFs has been effectively improved and the time complexity of the extraction has also been reduced .

其他文献

初高中英语教学重在衔接

高中英语是初中英语的延续。初高中英语教学衔接,关系到学生能否从初中英语学习顺利过渡到高中的英语学习,并且是为高中英语学习打下坚实基础的关键。在教学实践中,笔者觉得

期刊

英语学习效率高中英语教材学习态度思考能力语言点复习巩固语法学习自主学习语言运用听说课

第四届中国书法兰亭奖佳作奖作者获奖感言

吴庆东:我的书法初学米芾蜀素与大王圣教序,尤喜米芾手札的天真浪漫与不拘小节,早期在创作中多以行书为主,略加少幅草意,近年加强了对二王手札、阁帖和唐代诸家的临习,陶醉干

期刊

获奖感言米芾佳作奖遒媚圣教序临习论书二王王羲之行书

疾病预防控制档案中传染病档案问题与对策

传染病档案工作是疾病预防控制档案工作的一个分支,随着国家基本公共卫生服务和疾病预防控制系统绩效考核标准的实施,对传染病管理工作及其档案提出了更高的要求,如何加强基

期刊

疾病预防控制档案传染病档案问题对策

胎儿畸形的脐动脉彩色多普勒血流频谱分析

目的 :探讨脐动脉彩色多普勒血流频谱分析在胎儿畸形中的临床意义。方法 :1997年 10月至 1999年 11月于本院行彩色多普勒超声检查胎儿发育异常 5 9例 ,全部病例在出生或引产

期刊

胎儿畸形脐动脉血流彩色多普勒频谱S/D值

范扬的作品

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

范扬行书五言七言金猴谢池春百福具臻三言无极鹤寿

信仰的捍卫者——对霍桑短篇小说·牧师的黑面纱·中胡波牧师的人物解读

期刊

中职生就业的现状、存在的问题及对策

中职学生定位不准确、期望值过高、目标不明确、独立意识欠缺及年龄偏小等特点,针对这些特点以帮助学生明确目标,树立信心;细心了解学生的个性特点,做好就业心理辅导,使其更

期刊

中职生中职毕业生工作岗位专业技能择业技巧学习态度文化课基础第一线工作教学计划团队合作精神

脐带绕颈9周半1例报告

患者 2 3岁 ,孕1 产 0 。因停经 9月 ,规律性腹胀痛 2 h,于1999年 8月 10日 9∶ 0 0 Am,急诊入院。既往月经规律 ,末次月经 1998年 11月 7日。孕期未接受过任何药物治疗及接

期刊

脐带绕颈孕期月经有毒物质药物治疗胎动妊娠晚期急诊入院规律性产前检查腹胀痛患者分娩

孕妇碘营养水平与新生儿甲状腺功能及体格发育的相关性研究

目的 :为了解孕妇不同碘营养水平对胎儿甲状腺功能和体格发育的影响 ,并对昆明市市区孕妇碘营养状况作出初步评估 ,以便为临床是否需针对性补碘提供理论依据。方法 :本研究测

期刊

尿碘甲状腺功能体格发育

子痫新式剖宫产术后腹腔内出血性休克1例

患者 ,2 4岁 ,孕 3产0 ,停经 39+ 5周 ,头痛 1天 ,抽搐 2次 ,于1998年 7月 4日 4:0 0 pm入院。妊娠期一直未作检查 ,近 2个月双下肢水肿。 3日晚 6时出现头痛 ,逐渐加剧 ,伴

基于概率模型的Web信息抽取

与本文相关的学术论文