基于NEWSML的新闻专题的组织和生成

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:sunjian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络新闻专题的开展已经如火如荼,如何才能更准确、更快捷向网民提供及时的新闻专题资料是一个值得研究的问题.而如果要作到这一点就应该实现新闻事件专题的自动组织.在该文中,作者在国内新闻单位将普遍采用NEWSML新闻标识语言统一规范发稿格式的前提基础上,提出了采用文本挖掘方法来对新闻专题的进行组织和生成.我们在进行新闻事件相关专题组织时,是无法仅仅依靠和局限于一家媒体的报道材料,但目前,各新闻单位的发稿、排版的格式又不尽相同,因而我们希望在NEWSML这样的新闻标识语言的作用下,对来自不同新闻单位、以及大量网络上的新闻信息资料汇总分类,这样就解决了新闻资料的来源问题,也就是解决了"巧妇难为无米之炊"的问题了.信息资源的有效组织和利用在很大的程度上决定于通过某种标准化的知识描述语言和规范化,建立各种信息资源之间的信息交换模式和用户的信息共享模式,然后通过智能化的搜索引擎面向用户需求,提供个性化信息服务.这篇论文详细介绍了国内重要新闻单位——新华社的新闻信息是如何生产出来并进入数据库的整个流程,并对元数据是怎样对新闻进行标引的也作出阐释.经过规范标引的数据库,新闻数据可以形成多维的、粒度极细的标准信息模块(单元),为数据库实现用户个性化信息跟踪和推送服务打下了基础,这也为我们新闻专题的自动组织和生成创造了良好的环境.为了解决对新闻文档人工分类的问题,专题的生成构造涉及了新闻事件的探测以及对新闻事件的跟踪;特别地,该文对生成的新闻事件如何进行组织和管理,得到专题事件的来龙去脉做了较为详尽的研究,同时对新闻事件的检索做出了一些探索性的工作.由于大量的文档是已经经过了NEWSML新闻标识语言的标注,因而,我们可以省略了数据预处理中的烦琐过程,可以大大提高系统的运行效率,并提高组织专题的效率和准确率.
其他文献
数据仓库已被成功的应用到辅助决策中.对于地理上分布的应用和移动应用,可以由中心数据仓库来处理,但是这样可能造成中心数据仓库的过量负载.随着网络的发展,可以在数据仓库
为了获取高效的BP网络学习系统,我们对于BP网络的结构以及影响网络学习性能的其它相关因素进行了探讨.特别的是,我们对于BP网络训练技术作出了进一步的分析与设计.BP算法引入
信度网推理是信度网研究的主要任务之一.目前应用较广的是联合树算法和桶消元算法.联合树算法的主要缺点是空间复杂性高、计算效率低.该论文对其进行了改进,提出了一个新的信
目前,如何简化应用程序开发流程、降低开发成本、提高效率并开发出可伸缩性、可用性、安全性好的应用程序变得尤其重要。Windows DNA是微软的多层分布式应用程序开发平台。它
在Web迅猛发展和半结构化信息急剧膨胀的今天,Web上的半结构化数据查询日益成为信息技术领域一个重要的研究发展方向.现有的一些Web查询语言在数据模型、查询方式、路径匹配
该文以Z测试规格说明作为推导测试用例的依据,探讨了从Z测试规格说明推导出测试用例的过程、方法和技术.所谓测试规格说明,是指从规格说明中的输入变量前置条件表达式、输入