论文部分内容阅读
网络新闻专题的开展已经如火如荼,如何才能更准确、更快捷向网民提供及时的新闻专题资料是一个值得研究的问题.而如果要作到这一点就应该实现新闻事件专题的自动组织.在该文中,作者在国内新闻单位将普遍采用NEWSML新闻标识语言统一规范发稿格式的前提基础上,提出了采用文本挖掘方法来对新闻专题的进行组织和生成.我们在进行新闻事件相关专题组织时,是无法仅仅依靠和局限于一家媒体的报道材料,但目前,各新闻单位的发稿、排版的格式又不尽相同,因而我们希望在NEWSML这样的新闻标识语言的作用下,对来自不同新闻单位、以及大量网络上的新闻信息资料汇总分类,这样就解决了新闻资料的来源问题,也就是解决了"巧妇难为无米之炊"的问题了.信息资源的有效组织和利用在很大的程度上决定于通过某种标准化的知识描述语言和规范化,建立各种信息资源之间的信息交换模式和用户的信息共享模式,然后通过智能化的搜索引擎面向用户需求,提供个性化信息服务.这篇论文详细介绍了国内重要新闻单位——新华社的新闻信息是如何生产出来并进入数据库的整个流程,并对元数据是怎样对新闻进行标引的也作出阐释.经过规范标引的数据库,新闻数据可以形成多维的、粒度极细的标准信息模块(单元),为数据库实现用户个性化信息跟踪和推送服务打下了基础,这也为我们新闻专题的自动组织和生成创造了良好的环境.为了解决对新闻文档人工分类的问题,专题的生成构造涉及了新闻事件的探测以及对新闻事件的跟踪;特别地,该文对生成的新闻事件如何进行组织和管理,得到专题事件的来龙去脉做了较为详尽的研究,同时对新闻事件的检索做出了一些探索性的工作.由于大量的文档是已经经过了NEWSML新闻标识语言的标注,因而,我们可以省略了数据预处理中的烦琐过程,可以大大提高系统的运行效率,并提高组织专题的效率和准确率.