一种DOM树标签路径和行块密度结合的Web信息抽取方法

来源 :智能计算机与应用 | 被引量 : 0次 | 上传用户:zhengwei2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取。该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行块分布函数的方法进行抽取,获得正文文本。实验结果表明,这种抽取方法有效地防止了正文内容误删及噪音内容漏删的现象,使得提取的正文信息更加准确,准确度达到91%,召回率达到95%,F值达到93%。本算法对于包含过多短文本的网页抽取的准确度还有待提高。
其他文献
目的评价医院抗精神病药的应用状况及趋势。方法对2008-2010年该院抗精神病药的应用品种、用药金额、用药频度(DDDs)等进行统计分析。结果 3年中,抗精神病药的应用品种、用药
<正>近年来,医疗纠纷频发各级各类医疗机构都难以摆脱。频发的医疗纠纷干扰了医疗机构的正常工作秩序。频发的医疗纠纷增加了社会管理成本,成为全社会关注的热点、焦点问题,
7月10日,湖南省市场监管局(以下简称:省局)标准化处和湖南省质量和标准化研究院(以下简称:省院)组织到“国家智能网联汽车(长沙)测试区”开展调研,省局标准化处处长李少阳、
近年来,我国资本市场发展迅猛,自愿性信息披露受到更多投资者的关注。自愿性信息披露能够更加全面真实地反映公司的“特质”信息,更加客观地反映公司的经营业绩,从而消除信息
为实现铁路运输企业与路外企业运输相关信息电子数据交换,更好地体现路企协同,提高双方效率和效益,降低社会物流总成本,从铁路运输生产实际和货运客户需求入手,阐述各方数据
以在建的阿尔及利亚东西高速公路项目水环境保护设计为例,简要阐述了在法国规范体系下,高速公路水环境保护的设计方法与保护措施。 Taking the design of the water environ
粮食及其加工成品都含有一定的水分,一般可分为游离水和胶体结合水两类。通常说的粮食含水量就是这两类水分的总和,而在粮食储藏过程中所要控制的则是游离水。 游离水也叫自由
2005年,东海划界问题成为中日关系的焦点问题,日方借春晓油气田即将投产之机,以所谓国际法依据和“吸管效应”指责中方侵害其海洋权益。东海海底蕴藏着丰富的油气资源,所以东
电网中无功控制已成为影响供电质量和系统稳定的主要问题,现代电力电子技术的发展为静止无功补偿器(SVC)的控制手段提供了更加广阔的空间。本文采用研究SVC的控制策略来改善无
随着中国经济的迅速发展,中国境内大量的国企、民企需要通过融资、重组、注资、收购及兼并等途径来与全球经济融合,其中最明显的一种途径就是走海外上市(IPO)之路,进行融资,以提