论文部分内容阅读
播存网络中,广播源点基于网络用户行为的无尺度现象,聚类整合互联网热门信息内容,对热门信息内容进行UCL(Uniform Content Label)信息标引并通过广播分发将热门信息内容的UCL和全文分别推送到所有用户终端和边缘网络接入服务器,实现信息的主动服务。这一过程被称为播存内容分发。其中,互联网热门信息内容的聚类整合是实现播存内容分发的关键。 本文根据播存内容分发的应用需求,研究通过信息采集聚类整合互联网热门信息内容的方法,从信息采集的范围、内容和方式三方面对播存网络信息采集中的关键技术问题进行分析。论文的主要工作体现在以下几个方面: 研究设计了播存网络信息采集技术框架,对播存网络信息采集中三个关键技术的结构和实现方法进行研究,并提出:基于网络用户行为模型的统计特性对网站热度进行评估,基于网页结构相似度的聚类方法对网页类型进行分析,基于网络爬虫实现播存网络信息采集的过程。 对关键技术中的算法进行深入研究,基于播存结构理论中用户行为分析的理论研究基础,借鉴网络科学研究中网络重要节点排序的研究,设计和实现了一种基于D-S证据理论的网站热度计算方法,为网站热度评估提供依据。根据网页信息内容的特点,对基于DOM树的网页结构相似度计算方法进行研究改进,使其更加符合播存内容分发对信息类型判断的要求。 根据技术框架的设计,对播存网络信息采集原型系统进行了实现,基于热度评估技术实现了用户行为分析单元的功能,基于信息类型分析技术实现了类型分析单元的功能,通过多种爬虫的并行设计实现了信息采集单元的功能。