面向网站群的主题爬虫研究

来源 :软件导刊 | 被引量 : 0次 | 上传用户:yjcog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚焦爬虫(Focused Crawler)又称为主题爬虫,是从网络上获取特定主题数据的有效工具。为了避免传统聚焦爬虫预训练主题相关性分类器的繁复工作,提出一种自举聚焦爬虫(Bootstrapping Focused Crawler),用于从特定网站群中收集主题数据。自举聚焦爬虫省略了预先训练分类器的步骤,转而采用一些样本页面以相似度排序的方式替代分类器功能。在实验中,自举聚焦爬虫以牺牲一定准确率为代价,取得了0.62的召回率以及0.45的F1值,表现优于传统聚焦爬虫(召回率0.16、F1值0.25)。对于
其他文献
目的分析针对性护理对进行手术治疗的胃癌患者术后胃肠功能的影响。方法纳入118例在该院接受手术治疗的胃癌患者为研究对象,治疗时间是2017年3月—2019年3月。按照就诊时间的
随着全球变暖和环境污染的日益加重,建设资源节约型、环境友好型社会已经成,为未来几年的重大课题。中国电信作为国家信息化建设的主力军,针对环保行业的业务和管理特点推出了“
为了对现有小型汽车号牌识别系统进行优化,改善车牌字符识别系统性能,借助OpenCV图像处理开源库,在车牌图像预处理阶段采用均值滤波方法提高图像质量,采用Sobel边缘检测算子对图像边缘进行提取,利用交替的膨胀、腐蚀操作结合车牌长宽比实现车牌轮廓定位,并根据列像素值对车牌字符进行切割,最后采用改进的K近邻算法对分割后的单个车牌字符进行识别。实验结果表明,基于改进K近邻算法的车牌识别系统处理时间为2.
由于城市交通信号灯控制存在着非线性动态特性,对其进行控制时很难进行精确的数学建模,同时路口交通流具有重复性特点,呈现明显的周期性特征。为了减少路口车辆等待时间、提
晋华宫矿是大同煤矿集团公司下属的一个国有煤矿,矿井位于大同市西12.5公里处.与世界文化遗产云冈石窟仅隔一河,地理位置优越,交通十分便利。矿井于1956年投产,原年设计能力为120万
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的研究曲格列酮对甲状腺滤泡状癌细胞FTC-133生长的影响。方法将甲状腺滤泡状癌细胞FTC-133与不同浓度的曲格列酮共培养,4-甲基偶氮四唑蓝(MTT)法观察其对FTC-133细胞增殖
近日,本田发布了旗下经典街车CB1300SUPERFOUR SP和CB1300SUPERBOLD’ORSP的新款配色,并宣布于10月25日起在日本上市销售。CB系列作为本田街车的代名词,最早起源于1959年,型
期刊
2010年以来,临桂县公、检、法三机关采取取保候审强制措施的犯罪嫌疑人共105件125人,其中公安机关89件104人法院13件18人,检察院3件3人。其中实行财保的90人,人保10人,财保与
以无人机代替卫星遥感实现三维重建技术的影像拼接是一种成本低、灵活度高的实现方式。室外无人机影像拼接通常存在深度相机对环境光照条件十分敏感等问题,以运动恢复结构(SFM)和多视角立体(MVS)技术结合构建拍摄区域的密集点云,再通过密集点云实现影像拼接的方法能够解决上述问题,但存在计算量较大和实时性较差的缺点。采用SURF特征描述子和最近邻匹配方法降低计算量,优化算法实时性能,同时提出一种增量式SFM