基于语义的Web新闻时效性评估

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:guoyurun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的不断发展成熟,大量的信息开始充斥到日常的生活,工作,学习当中。网络已经成为人们一个非常重要的信息获取渠道。“信息爆炸”、“信息过载”现象,使不少用户产生了“资源迷向”的情况,即在如何利用网络信息资源的问题上产生了很大的疑惑。因此如何快速,有效的帮助用户从大量的信息中提取出所需要的、有用的信息,过滤掉过时的、无效的信息,提高网络的可用性,让Internet更好的为人类服务,成为当前迫切需要解决的一个问题。  近年来,语义提取技术不断发展,有学者提出将语义提取技术应用于Web可用性评估领域。通过对Web站点、页面的内容进行分析、挖掘来构建可用性评估模型。  本文在基于语义的Web可用性评估指标的基础上,对网页新闻时效性指标进行了深入的研究。提出了一套从大规模网页新闻数据中提取时间,以及时间对应的事件等语义信息的评估流程。该流程由数据获取,数据分析,数据过滤,生成时效性区间四部分组成。首先通过网页爬虫获得评估所需的新闻标题,发布时间,正文等文本数据。再对这些数据进行分词,提取时间词及相关事件。利用这些时间和事件计算出评估网页新闻与其他参照新闻之间的时间距离和语义相似度。过滤掉多余的噪声数据后,通过计算文本间的欧式距离获得评估新闻的时效性区间。最终利用时效性区间来判断评估新闻和Web站点的时效性。  实验证明,本文提出的对Web站点的新闻内容进行时效性评估的方法能够有效的对网站的时效性进行评估。通过评估和改进网站的时效性,可以有效提高用户检索信息的效率,提升网站可用性,因此,该方法对Web站点的建设有积极的推动作用。
其他文献
随着web2.0的发展与普及,协同标注系统作为具有代表性的社会性软件逐渐进入人们视野。在系统中,用户能够使用自定义的关键词对自己喜欢的资源,例如文本,图像,音乐,网页等等进行标注
编辑编排版面,犹如厨师烹调食品。丰富的原料加上高超的烹调术,就能做出色、香、味俱佳的食品。一个好的编辑,就要把内容丰富的稿件和尽可能完美的艺术形式相结合,设计出生
随着市场经济的飞速发展,市场环境越来越趋于不稳定,顾客需求和商品价格的可预测性也越来越低,多样性需求成为了时代的主旋律。在这种环境下,历史订货信息的可信度越来越低,如何制
随着我国证券市场的不断发展,上市企业在国民经济中发挥着越来越重要的作用。由于上市企业涉及到众多的投资者,其经营情况影响重大。资本结构管理是企业财务管理的一个重要方面
建筑业作为国民经济的支柱产业,在给人们提供住所的同时,也造成了巨大的能源消耗,而且带来了室内空气污染、水污染、大气污染等诸多环境问题。我国建筑业能否顺利实现可持续发展
湖南省桃源县枫树公社庄家桥大队党支部书记、全国著名劳模李光庆,牢记党的十一大路线,乘全国科学大会的东风,继续革命不停步,科学种麦攀高峰。今年他种的4.3亩麦稻稻三熟试
8月21日,广西柳州日报一版头条发表了记者采写的《请问东风、鱼峰一和五一水果店:你们到底繁荣谁家经济保障何人供给》的批评稿,并配发了一张现场照片。报纸一发出,轰动了五
“打破新闻‘框框’,把思想突出出来!”这是新闻界许多同志近来探讨改进新闻报道时经常考虑的一个问题。不久前,我从一篇新闻采写中对这一点有了更亲切的感受。那是今年五月
拔节期是小麦生长的一个重要转折关头。拔节以前小麦处于苗期,是营养生长为主的阶段,拔节以后转入到营养生长和生殖生长并重阶段,除了幼穗迅猛增大外,地面上5—6个节间及最
用户界面是整个软件系统的重要组成部分,用户界面的开发约占一半的开发资源。因此,用户界面开发效率的高低已成为整个软件系统开发效率得以提高的关键因素。同时,早期的界面模型
学位