基于二次定位的构件描述信息抽取

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wohaha163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前软件行业不断发展,开发与维护成本也在不断增加,软件复用,特别是基于构件的软件研发,成为一种有效的解决途径。网上越来越多的构件加大了用户查找自己感兴趣产品的难度,通过网页信息抽取技术搜集互联网上的构件产品,并将构件的描述信息进行结构化整理,可以极大的提高软件开发人员寻找所需构件的效率。因此有必要对构件描述信息的抽取方法做进一步的研究。  基于二次定位的构件描述信息抽取算法结合了页面结构与文本内容的特征,通过URL聚类将爬取到的相关页面进行分类,使得聚类中的页面具有一定的相似性,而聚类间的页面具有较大的差异性,然后对这些HTML页面进行规格化修复、剔除噪声信息,并将文档解析为DOM树,以便于对文档内容进行后续操作。将构件信息页面分为三个区块:构件信息块、模糊信息块和非信息块,模糊信息块定位算法利用同一聚类页面中有效内容相异的特点,提取出若干个模糊信息块,构件信息块定位算法使用属性名匹配与无关信息所占比例来筛选出具体的构件信息块。通过构件属性模式识别的方法判断属性对的页面布局格式,再由属性名、属性值的同义词组,属性值的特征格式来匹配构件的每一个描述信息子项,从而达到构件描述信息抽取的目的。  详细的实验表明,算法对多个构件信息网站均能达到良好的抽取效果,并且通过对比实验结果可以看出,该算法对构件描述信息抽取的召回率、准确率和综合指标都有较大的提升。
其他文献
软件测试是保证软件质量及可靠性的关键,软件测试的开销常常占整个工程预算的很大比重。随着图形用户界面(GUI)在当今软件中的应用日益广泛,GUI测试逐步成为软件测试中的重要
自从上世纪移动通信系统问世以来,移动通信技术一直以极其迅猛的的速度在发展。在淘汰了第一代模拟蜂窝系统,大规模商用了第二代系统之后,我们开始步入3G的时代。2G/2.5G/3G
近年来,随着计算机硬件技术的不断增强,普通计算机已经可以完成复杂运算,由此推动了三维重建技术的发展。虽然经过国内外科研工作者的不断研究,涌现出许多三维重建系统,但大多存在
验证最终设计的正确性,对设计复杂的芯片起到了关键性的保证作用。有资料显示,芯片一次投片成功率只有35%左右,造成芯片重复投片的主要原因就是验证不够充分。随着设计规模的
随着现代信息技术的快速发展,新的视频压缩标准不断推出。MPEG-4是由国际运动图像专家组(MPEG)在继MPEG-1和MPEG-2之后,制订的又一个新标准,全名为ISO/IEC 14496。MPEG-4能够
医学图像三维可视化技术是目前的一个研究热点问题,是数字化虚拟人的重要的技术基础。对医学图像序列进行可视化,得到人体组织、器官以及病变体的三维图像,可以帮助医生进行
21 世纪的竞争是供应链之间的竞争,而库存管理则是供应链管理中非常重要的环节,本文就是选择先进的库存管理方式——供应商管理库存(VMI)进行探讨。产品的多样化及顾客需求改变的
在高校招生规模不断扩大的情况下,学生收费管理已成为整个高校管理工作中的关键环节之一。因此,迫切需要开发一套高校学生收费管理系统来实现收费管理工作的系统化、自动化、规
客观现实中的物体,其表面往往有某种纹理,纹理绘制是增强图形真实感的重要手段,是真实感图形绘制中的重要研究课题。物体表面纹理可分为颜色纹理和几何纹理两大类。颜色纹理
WebGIS是Internet技术与GIS相结合的产物,WebGIS为公众获取GIS数据和地理信息服务提供了一个有效的工具。在目前的地理信息相关的系统软件开发中已经大量的运用了WebGIS模式