Web热点信息发现系统的设计与实现

被引量 : 0次 | 上传用户:wsh2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,Web网站技术发展迅速,已经彻底改变了互联网的面貌。Web网站现在更加强调自由创作和用户参与活动,越来越多的网民在新一代Web平台上创造了海量生动有趣的信息内容。越来越丰富的互联网信息资源使得用户难以在信息浩瀚的数据海洋中寻找到自己真正感兴趣的信息。因此,各种各样的信息检索和搜索引擎技术得到了广泛关注和巨大发展。随着互联网的飞速发展,网络媒体已经成为继报纸、广播、电视之后的“第四大媒体”。由于网络新闻所具备的开放性、信息传播的快速性等特点,使其成为热点信息传播的主要途径,也是产生热点信息的重要来源。因此,如何自动的从巨大的网络资源中发现当前的热点事件及实体具有非常重要的意义。热点信息包括热点话题及热点词语,是指某段时间内社会上发生的重大事件或人们普遍关注的对象;本文通过研究现有的话题检测与跟踪以及关键词的自动抽取等技术,利用这些技术来自动发现网络新闻报道中热点信息,设计并实现了Web热点信息发现系统。本文研究内容的创新点主要包括:(1)新闻网页的分类抓取及文本预处理操作;(2)针对高维向量的稀疏问题,提出了一种稀疏向量压缩存储和相似度计算方法;(3)热点信息的自动发现功能;(4)热点信息的展示功能。通过对热点话题和热点词语进行统计分析,最终以各种图表的方式进行了展示。
其他文献
目的:通过研究白介素-6(IL-6)基因中四个标签单核苷酸多态性:rs2069852,rs2066992,rs2069837和rs17147230,探讨在中国汉族人群中,白介素6与慢性乙型肝炎病毒易感性之间的关系。方法:
为了保证生活饮用水微生物检验结果准确可靠,各级疾控部门应当建立健全质量控制体系,对影响检验结果的各要素进行控制,不断提高工作质量和管理水平。
随着移动互联网的快速发展,即时通信向集成化、移动化、多元化方向转变。在移动互联网环境下,充分考虑移动终端计算能力有限、网络不稳定、电池续航时间不足等问题,并为大量用户
战争研究是国际关系研究中的重要组成部分。既有的研究多从人、国家和无政府状态三个层面来分析战争的原因。这些研究共享着三个预设:1)试图探究战争的普遍理论,对战争的特殊
研究背景:重度溃疡性结肠炎(severe ulcerative colitis, SUC)起病急,病情重,进展快,常常需要糖皮质激素诱导缓解,但仍有30%~40%的患者达不到临床缓解。糖皮质激素治疗无效的患者
目的 验证天年健康睡眠系统治疗失眠症的临床确切疗效以及安全性评估 ,观察天年健康睡眠系统对失眠症患者血液流变学的变化 ,探索临床非药物治疗失眠症的新途经与方法。方法
目的:测定和比较一年期和二年期生长的人工种植唐古特大黄中游离和结合型蒽醌类成分的变化。方法:利用HPLC和UV法测定大黄中芦荟大黄素、大黄酸、大黄素、大黄酚和大黄素甲醚
隐喻是通过一种事物来理解、体验另一种事物的认知思维方式。隐喻植根于民族文化并明显地体现在思维和语言层面。本研究的内容主要涉及与植物范畴相关的植物词隐喻,包括书面
进入21世纪以来,随着网络的普及和运用,给报纸这一传统媒体带来了不小的冲击。在新形势下,如何适应时代的发展和变化,报纸编辑必须与时俱进,全面提高自身素质。这样,方能担当