基于评分的重要新闻事件查找

来源 :第二十三届中国数据库学术会议(NDBC2006) | 被引量 : 0次 | 上传用户:eminemzzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻数据作为一种非常重要的数据对象,在网络和期刊报纸中广泛存在,对新闻数据的挖掘尤其是重要新闻事件的查找在日常生活中有非常广泛的应用.对于查找重要新闻事件,我们一般只能通过记忆以及个人的判断来得到一些结果,而并没有科学的查找方法.针对这样的问题,我们提出一个能够对新闻数据进行挖掘的方法,该方法能够有效地找到在某一段时期内发生的一些重要的新闻事件. 在本文中,我们讨论了在大量的新闻数据中查找重要新闻事件的问题.在新闻数据中找出重要事件是一个新颖的研究方向,也有着重要的应用背景.已有方法的主要步骤是首先找出一些单词,然后通过概率统计等方法将它们合并来得到事件,然而,这些方法并不能有效地找到重要事件. 在本文中,提出了通过评分查找重要事件的方法.该方法首先通过新闻文章对单词进行分析,得到了各个单词在每个时间窗内的重要程度,然后根据每篇文章所包含的重要单词数及其重要程度对文章进行评分,最后将重要的文章进行合并得到重要的新闻事件.我们通过实验证明,该方法能够有效地在新闻数据中找到重要事件。
其他文献
GML是由OGC推出的一种基于XML数据格式的地理标记语言,是空间数据编码、传输、存储和发布的一种国际标准,适用于Internet环境中的地理数据共享、交换和集成.随着GML的广泛应用,如何有效地管理GML数据是亟待解决的问题.提出了一种基于模型映射的GML文档存储和查询方法,该方法主要针对无模式的GML文档,也可用于有模式GML文档的存储.通过对文档树结点的分析和处理,建立文档到对象关系数据库模
信息安全已经成为当前研究的热点课题,作为信息系统核心的数据库的安全尤其成为信息安全的重中之重.目前,国内大部分企事业单位包括国家的一些关键部门大多数都使用国外进口的数据库产品,如ORCALE、DB2、SYSBASE等.但是国外限制了B1以上级别的安全数据库对中国的出口,在这种情况上,加强国产数据库的开发并加强数据库的安全级别就显得非常重要.国产LogicSQL安全数据库的研发就在这个背景下得到各级
与MPEG4标准不同,我们使用的MPEG4-SP(simple profile)是从H.263、MPEG1、MPEG2继承而来的编码标准,并没有场景对象信息.对于MPEG4-SP矩形编码来说它主要还是利用传统的预测编码、运动估值、运动补偿、DCT,IDCT,变换、量化、反量化的混和编码方式.在优化的方案中,本文只取了比较简单的零系数、三系数与全DCT相结合的方法来进行优化,在实际中还有许多方法可以
在企业信息系统中隐藏着大量结构化、半结构化及非结构化存储的文本信息还没得到有效利用.结构化存储的文本信息隐藏于关系数据库内部,而传统关系数据库管理平台文本信息检索功能有限.自然语言中存在的一词多义和多词同义现象给文本检索增加了难度,由此提出了查询扩展技术提高检索结果文档数,及文档的相关度.本文设计了一个服务于关系数据库平台的信息检索系统,具备通用性、灵活性和可扩展性,解决信息系统内部大量结构化文本
时态信息处理已成为高级数据库技术研究的重要领域,自20世纪80年代以来,在基础理论、时态数据模型、时态数据语义、数据库语言和应用技术方面取得了丰硕的成果.在基础理论研究方面,加州大学洛杉矶分校的J.Ben Zvi在1979~1982年期间对时态信息处理做了系统的研究,提出了有效时间、事务时间的概念,引入了时态数据库的模型.纽约大学的J.Clifford在他的博士论文中,研究了在关系、元组、字段值上
本文首先讨论了利用9I模型进行空间拓扑关系描述时存在的不足之处,在此基础上给出了V9I模型的定义及特点并分析了基于V9I模型的空间拓扑关系,提出了一种基于V9I模型的空间拓扑规则发现机制,该机制通过分析空间对象及其邻对象间的拓扑关系模式的离散性,来发现空间对象对间的拓扑描述规则,并利用该规则来判断空间数据是否具有拓扑不一致性,进而进行拓扑一致性维护.这种基于V9I模型的拓扑描述规则的优点在于,抓住
随着Web技术的飞速发展,人类交换信息的方式正发生着深刻的变化.极大的改变了人们发布,获取,使用信息的方式.人们从信息缺乏进入了信息极大丰富的年代.但另一方面,Internet所固有的海量数据的分布性,异构性,动态性又对互联网环境下的数据交换和信息共享提出了新的挑战.人们面临着从海量的数据中发现自己所需的有用信息的困境,往往有"大海捞针"的感觉.而XML(可扩展标记语言)的出现很可能改变这一切.随
传统的宏观经济学是在数学和统计的基础上发展起来的,已取得一些成绩.但以往的宏观经济管理多采用常规方法,以单纯的经验判断为基础,缺乏系统的观点,忽视精密的数量计算,管理的有效性很大程度取决于相关人员的素质,没有系统地形成科学方法.加上宏观经济数据的海量性、动态性等特点,进一步限制了其分析决策能力.宏观经济关系国计民生,对宏观经济进行分析和管理是实现国民经济宏观调控的一个重要环节.由于当前的宏观经济数
Cornuejols和Dawande在文中提出了著名的市场共享问题的可行性问题,这就是通常的多维背包问题(Multidimensional knapsack problem,MKP).该问题的具体描述如下:给定一个n×m矩阵A和一个m维列向量b,要求判断是否存在一个n维的二值向量X={x1,x2,…,xn},使得式(1)成立.n∑j=1aijxj=bi,i=1,2,…,m 数学上已经证明:多维背包
自从WWW问世以来,其信息容量飞速增长.由于Internet是一个开放性、动态性和异构性的全球分布式网络,信息资源分布非常分散,没有统一的管理机构,从而导致了信息获取的困难.解决这个问题的一个有效途径就是将数据挖掘技术和Web技术结合起来,进行Web上的数据挖掘.Web挖掘可以定义为从与Web相关的资源和行为中抽取感兴趣的有用的模式和隐含信息.Web挖掘可以分为三类:Web内容挖掘(Web con