论文部分内容阅读
RSS技术是一种基于XML格式的网络内容包装和投递的协议,可以用于生成RSS新闻并以RSS频道的形式发布在网站上。通过RSS Reader订阅相关的频道,用户可以选择自己感兴趣的频道,并且方便地获取实时更新的内容,因此越来越多的主流网站提供RSS新闻订阅服务。但之前的研究多集中于多RSS新闻的提取技术和其他RSS应用领域的研究,对于RSS新闻的发布和订阅特征的研究较少。由于RSS网站的更新与RSS Reader的更新不同步,用户通过RSS Reader订阅新闻的过程中可能出现诸如更新信息的丢失、冗余信息的大量产生等现象。因此在本文中,我们力求通过对RSS Reader客户端抓取的RSS数据分析RSS网站的行为特征和RSS Reader的设置对用户获取的频道更新内容的影响。本文主要的工作是建立了数学模型来描述RSS Reader的更新间隔设置与订阅得到的RSS更新内容之间的关系,给出了针对多个和单个频道的设定合理RSSReader更新间隔时间的方法,并且通过实际测量RSS频道的更新数据,分析RSS网站的更新特征和RSS Reader的订阅特征。在实验过程中,通过对RSS新闻发布和更新流程分析,设计相应的RSS数据的测量和分析方案,利用改进的RSS Reader实现了连续24小时对187个RSS新闻频道的更新数据实时地抓取。提出了基于频道列表大小的归一化RSS频道更新量的方法,得到新闻更新比例可以更好地衡量RSS频道和RSS Reader获取的频道文件的更新程度。通过对RSS新闻更新的测量和分析,总结RSS Reader订阅频道的更新内容特征,包括更新时间、更新量和更新比例分布。特别是RSS频道的更新比例间接反映了订阅的RSS新闻的实时性,由此推测RSS网站的更新特征。网站对RSS频道类型的设定和新闻发布时间控制,决定了RSS频道的更新量和更新时间分布。RSSReader更新间隔设置直接影响用户获取到的频道更新质量,包括更新信息的完整性和冗余信息的比例。RSS Reader的更新间隔需要按照RSS频道的更新强度做出适当的调整,以保证用户实时地、完整地获取频道的更新内容。通过对RSS频道的更新强度和更新时间分布的估计,利用数学模型可以很好的模拟出用户获取的频道更新内容随RSS Reader更新间隔设置的变化,则可以针对不同频道内容的实时性和完整性的不同要求设定合理的订阅更新间隔时间。本论文中共有图20幅,表7个,参考文献20篇。