基于词频差异特征选取的Context Graph算法改进

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:wangxd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决传统主题爬虫效率偏低的问题,在分析了启发式网络爬虫搜索算法Context Graph的基础上,提出了一种改进的Context Graph爬虫搜索策略。该策略利用基于词频差异的特征选取方法和改进后的TF-IDF公式对原算法进行了改进,综合考虑了网页不同部分的文本信息对特征选取的影响,及特征词的类间权重和类中权重,以提高特征选取和评价的质量。实验结果表明,与既定传统方法进行实验对照,改进后的策略效率更高。
其他文献
为解决目前网络负载异常入侵检测领域缺乏有效、针对性的测试数据集的问题,提出一种基于虚拟关键字的构造模拟网络数据集的方法。并用它对基于字节频度分布的异常检测模型进行
从高职教育的特点指出教师掌握专业技能的重要性,分析了机械类专业教师核心技能中存在的问题。通过机械制造专业人才培养方案分析高职机械类专业学生应掌握的核心技能,及其与
在高职《化工制图与识图》课程教学实践中,结合教材内容、专业特点和课程特点,对课程设计进行了优化探讨。在有限的课时内,根据学生技能培养的要求,将课程分解成3大模块、5个学习
为了提高网络入侵检测效果,提出一种粒子群优化算法(PSO)和K最近邻相融(KNN)的网络入侵检测模型(PSO-KNN)。首先特征子集和KNN参数作为一个粒子,然后通过粒子之间的信息交流和相互协
最大方差差分嵌入算法(VDE)最大化全局方差和局部方差之差,该算法直接通过求解一个特征值问题而获得投影矩阵,无需矩阵求逆运算,因此VDE克服了无监督鉴别投影(UDP)算法的小样本问题,为了进一步增强VDE算法的非线性描述能力,提出了核最大方差差分嵌入算法(KVDE),该算法首先采用核函数将样本映射到非线性高维空间,然后采用核方法得到一个低维子空间,人脸和掌纹数据库上的实验表明KVDE算法比VDE算
1946年5月4日,中共中央发出《关于土地问题的指示》,标志着中共土地政策的一大转折。当时,陕甘宁边区是中共中央所在地,它的土地改革对各解放区乃至全国都有着重要的影响。近
随着国际会展业的发展,《会展英语》课程深受广大学生的喜爱。基于该课程的实践性和应用性特点,该课程实施形成性考核,以全面、科学地评估学生学习该门课程的教学成果,及时进
本文以Solid Works课程为载体,在课程改革过程中实现了课程设置对接岗位,教学内容对接岗位典型工作任务,教学组织与实施对接岗位能力形成过程,采用多途径多方法实施能力分阶
为了降低移动终端的能量消耗以及对基站空口资源的占用,IEEE 802.16e标准定义了休眠模式。针对计数器驱动的休眠工作模式与IEEE 802.16e标准不能较好兼容的局限,提出了改进的计
晋城职业技术学院艺术团集体创编演出的民俗音画《农颂》,在社会上引起了强烈的反响。本文分析、探究了该剧成功的秘诀。《农颂》讴歌的主题是农耕文明;元素是民俗文化;载体