基于网页分块技术主题爬行器的实现

来源 :吉林大学学报:理学版 | 被引量 : 0次 | 上传用户:zkk81950868
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对目前通用搜索引擎搜索到的结果过多、与主题相关性不强的现状,提出一种基于网页分块技术的主题爬行器实现方法,并实现了一个原型系统Crawlerl.实验结果表明,本系统性能较好,所爬网页的相关度在55%以上.
其他文献
随着肝移植的日益增多,免疫抑制药物的进展以及手术方法的完善使原位肝移植迅速发展,成为治疗终末期肝病的有效方法.超声检查以其无创、简便、可重复对比观察等特点而在肝移
彩色多普勒阴道超声对绝经后阴道出血患者的诊断价值宋伊丽①为了了解彩色多普勒超声对绝经后阴道出血患者的诊断价值,本科对绝经后阴道出血患者进行了彩超检查(不包括明显宫颈
在对禹潼河段近期冲淤特点深入分析后指出:该河段近期河道淤积量尤其是主槽淤积量明显增加,滩槽高差减小,河槽排洪能力下降,已建工程防洪标准降低,工程临背差加大,险情频繁发
自1998~2004年,笔者在西药常规治疗的基础上,配合黄葵胶囊治疗IgA肾病20例,取得了较好疗效,现报道如下.
提出一种基于最优化控制模型的文本主题域划分方法,采用主题域内距离、主题域间距离、主题域内夹角和主题域间夹角等相关要素,构建了最优化模型的目标函数,进而通过对模型求解得
提出一种基于条件随机域模型的方法用于中文文本组块分析.该方法将中文组块分析转化为对每个词语赋予一个组块标注符号,再根据条件随机域对标注好的训练语料建立模型,从而预测测
选取老哈河流域为研究区域,以2007年的两景Landsat5的TM影像为数据源,对该地区进行土地利用/覆盖分类。由于该区域土地覆盖类型复杂,影像较难区分且容易造成错分类。该研究中采用支持向量机(Support Vector Machine,SVM)分类法,通过引入径向基核函数进行非线性变换映射至高维空间,提取它们的非线性特征,增强不同类型之间的可分性,减少错分现象,提高遥感图像分类的精度。通过试验