基于主题语义 URL 的信息搜索方法研究

来源 :计算机应用与软件 | 被引量 : 1次 | 上传用户:zzzj1019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为提高主题网络爬虫的效率及收获率,提出一种基于主题语义URL的信息搜索方法。该方法将种子URL映射到主题树的主题结点上,以主题路径上的主题文本扩充种子URL的语义,引导爬虫高效准确地抓取主题页面,并利用链接重要度与页面重要度因子在抓取过程中自动选育新的URL优良种子。重点阐述上述搜索方法的原理及其在系统中的实现。实验结果表明,该搜索方法能有效改善网络爬虫的搜索效率及收获率,且种子链接的选育性能良好。
其他文献
为提高轨迹分类和异常检测的准确率,充分利用轨迹特征信息,提出基于轨迹多特征的运动模式分类和异常检测方法。首先通过由粗到细的分层聚类来提取轨迹运动模式,每层分别采用Bhattacharyya距离和基于线段插值的改进Hausdorff距离衡量轨迹间运动方向和空间位置的相似度,并引入Laplacian映射以降低计算复杂度并自动确定每层聚类数目。在此基础上,同时考虑待测轨迹与运动模式在起点分布、位置和方向
为解决干洗店等清洗行业排放的含四氯乙烯(PCE)三废的环境污染问题,开发一种使用经济、适用、有效且无污染的处理技术,需要收集相关的基础参数。文章研究了活性炭及兰州市的三种
论述了图书馆利用馆藏文献资源对搞好毕业设计的意义;对如何利用馆藏文献资源为毕业设计服务提出了自己的看法.
通过反歧化合成α-MnO2,并以α-MnO2为氧化剂,研究了不同锰氧化物剂量、不同磺胺嘧啶初始浓度和不同pH值下α-MnO2/水界面磺胺嘧啶的氧化降解动力学,并讨论了不同的反应条件对反
分析消费行为,挖掘消费因素之间关联关系,可以辅助指导生产和销售企业的管理和决策。针对海量消费数据引起的内存不足问题,对数值型数据进行离散化,以数据库关系表为频繁模式树存储结构,并建立高效索引,实现频繁模式树中节点快速检索,最终采用Oracle数据库存储过程实现FP_Growth算法。以B/S体系结构,实现了基于关联规则的消费行为关联分析系统,并取得很好应用效果。
局部纹理映射可以增添三维模型的局部细节,加强模型的真实感。为了实现对三维模型的局部特征描写,增强局部纹理映射的用户可交互性,提出一种基于区域增长和平面投影的方法来实现三角网格模型的局部纹理映射。区域增长是以指定的三角面片为初始种子面片,搜索与种子面片共顶点的增长规则扩散出待映射区域。算法不仅保证了选取区域的完整性,不会出现缺角的情况;同时用户可以改变待映射区域的位置和大小。采用平面投影法对待映射区
莫斯科钢与合金研究所已成功合成出一种特殊的准单晶物质,在该物质中,3种金属原子的排列虽不像普通单晶那样具有相同的晶格,但仍具有严格的顺序,呈现出几何排列。研究发现,在该准
为了促进对含硼、氮金刚石的研究和开发,使金刚石的品种、质量与应用技术等得到迅速的发展,介绍了硼、氮元素对合成金刚石晶体的结构、性质与应用技术的影响,详细叙述了含硼
近日,据信息产业部电子信息产品管理司负责人介绍,软件和集成电路近年来已被确立为我国信息产业发展重点。今年要推动出台进一步鼓励软件和集成电路产业发展的若干政策,不断完善
以珠海6座典型中小型供水水库为研究对象,通过对水库沉积物中磷形态和释放速率的测定,分析这些水库沉积物中磷形态特征和释放速率及它们与水体磷的关系,了解库容和调水对沉积物