【摘 要】
:
随着互联网的快速发展,人类的活动得以进一步扩展,各行各业累积的数据规模急剧膨胀,数据量越来越大,如何从海量的网络资源中快速准确地获取主题信息逐渐成为搜索行业研究热点。主题网络爬虫可以专业化、精准化的提高搜索信息的准确度。准确度的评价指标主要有查准率和查全率,查准率依赖于主题相关性计算,查全率则取决于网页搜索策略的选择。因此,本文围绕主题爬虫的两大关键技术:网页主题相关度计算方法和网页搜索策略开展研
论文部分内容阅读
随着互联网的快速发展,人类的活动得以进一步扩展,各行各业累积的数据规模急剧膨胀,数据量越来越大,如何从海量的网络资源中快速准确地获取主题信息逐渐成为搜索行业研究热点。主题网络爬虫可以专业化、精准化的提高搜索信息的准确度。准确度的评价指标主要有查准率和查全率,查准率依赖于主题相关性计算,查全率则取决于网页搜索策略的选择。因此,本文围绕主题爬虫的两大关键技术:网页主题相关度计算方法和网页搜索策略开展研究工作。(1)主题相关性的研究。无论采用哪种主题相关度算法均离不开主题关键词确权。传统的确权方法是通过邀请相关有经验的专家对主题关键词进行确权,这种确权方式查准率虽高,但具有强烈的主观性和经验依赖性。为了解决这个问题,本文提出了一种基于改进五行环优化算法的主题关键词确权方法,在人工确权的基础上建立确权模型,对已有关键词在专家样本上进行训练,然后对模型进行测试评估,根据评估结果优化模型,直到查准率达到一定令人满意的值。(2)网页搜索策略的研究。深度优先搜索策略、广度优先搜索策略以及最佳优先搜索策略等算法在面向少量网页的爬行或者简单的网络结构时,具有优秀的搜索性能。但是,随着网页数目的增多,网络结构更加复杂时,这些常用的网页搜索策略搜索性能不高。本文提出的基于改进差分进化算法的网页搜索策略可以有效解决这些问题。(3)实践验证。为验证改进算法对主题爬虫性能的影响,本文将改进算法应用于中小型企业政策主题项目“中小型企业政策查询系统”,通过实验验证,相比常用的主题爬虫技术,本文算法能扩大爬虫的搜索范围,提高相关度计算精度,在一定程度上提高了主题爬虫的查准率和查全率,检索出的网页更加贴合主题需要。
其他文献
云计算被认为是互联网技术的一次伟大的革新,随着信息化技术的不断发展,传统的任务处理模式已经无法满足人们的需求,云计算的出现是时代发展的必然趋势。云计算利用虚拟化技术将软件和硬件资源虚拟成一个庞大的共享资源池,通过网络以服务的方式供用户使用。云任务调度策略影响云系统的运行性能和调度效率,并且关系到用户和云服务商的利益问题,因此云任务调度是云计算的核心问题之一。目前采用启发式搜索算法对于云任务调度问题
近些年,我国的机器人行业也在不断蓬勃发展,机器人已开始代替人工,广泛应用于各个行业。在过去,机器人的自动化、智能化程度不高,主要用于完成抓取、搬运、焊接等只需要精确的位置控制便可的简单任务,但随着社会的不断发展,机器人只完成简单的工作任务已经无法满足社会发展需求,我们需要将机器人应用于运输、打磨,装配等智能化程度更高的任务。本文主要针对装配机器人中的轨迹规划和柔顺性力控制问题进行研究,主要研究内容
在数字公共交换电话网络中,因为语音采集设备、编解码方式和信道带宽限制等原因,语音信号的频带通常限制在0Hz~4k Hz的窄带范围,缺失了高频部分的窄带语音,在听觉感受上往往表现低沉且厚重,严重降低了语音的情感、说话人和发音辨识度。语音频带扩展技术旨在恢复窄带语音缺失的高频频谱,提高语音质量和清晰度。传统语音频带扩展技术大都是基于语音产生机理的源-滤波器模型,将语音频带扩展任务分为了高频谱包络估计和
教与学优化算法(Teaching-Learning Based Optimization,TLBO)是一种新型启发式群智能优化算法,近年来被广泛应用于解决生产生活中的优化问题。TLBO算法具有参数少、收敛速度快的优点,但是在进行高维复杂优化时,会不可避免地出现早熟收敛、陷入局部极值等问题,难以达到人们的优化需求。本文针对TLBO的缺陷进行改进,并将其应用到实际问题中,使其发挥自身的应用价值。具体工
传统的白铜合金的耐腐蚀性预测都是通过人工选择较为简单显著的特征或通过物理实验方法预测,而目前这些方法存在主观因素强、预测效果不好、成本高等问题。如何对晶界图像进行快速、确切的特征提取并预测成为了需要迫切解决的问题。深度学习已经成为当下计算机应用领域的研究热门,并且在各大工业领域内取得了较好的成果。近年来,材料铜合金的应用范围越来越广,更关注其使用寿命和用于海洋船舶材料时对海水的抗腐蚀性能。合金的抗