基于内存计算的文本聚类算法的研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户：fsp

【摘要】

：

新闻聚类系统诞生于互联网的浪潮中,是个性化新闻推荐引擎的核心部分,聚类的结果直接影响到推荐的效果。一个完整的新闻聚类系统包含了网络爬虫模块,负责数据源的获取；正文提

【作者】

：

李明冬

【机构】

：

东南大学

【出处】

：

东南大学

【发表日期】

：

2015年期

【关键词】

：

新闻聚类网络爬虫网页去重正文提取分布式系统 K-Means算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

新闻聚类系统诞生于互联网的浪潮中,是个性化新闻推荐引擎的核心部分,聚类的结果直接影响到推荐的效果。一个完整的新闻聚类系统包含了网络爬虫模块,负责数据源的获取；正文提取模块,负责数据清洗,去除噪音；聚类算法模块,负责新闻的最终分类。优质的数据源是算法有效运行的必要条件,也是实际应用中举足轻重的环节。如何设计一个抓取速度快而且网页重复率低的网络爬虫以及文本提取准确率高的正文提取算法一直是研究的热点。本文正是在此背景下,以实现一个实际可用的新闻聚类系统作为研究目标,致力于寻找高效的网页去重算法和精确的正文提取算法。本文的主要工作内容包括：首先,本文针对传统的网络爬虫架构进行了深入分析,并针对网页去重的机制进行了着重解析。在传统去重策略中,多数是在网页下载之前对URL进行去重,这样能够过滤掉相同URL的网页。但是在新闻推荐系统中,除了有大量的第一手网页,同时为数不少的二手新闻存在于互联网,比如各大网站转载其他网站的新闻。在这种情况下,虽然URL不同,整个页面也是不同的,比如由于各个网站插入的广告不同,但是完全有可能网页的正文内容是一样的。而对于读者来说,是不希望看到这种新闻内容一致的网页。针对这种情况本文给出了一种解决办法,对于下载的网页进行第二次网页去重。对于原始的HTML网页,提取出新闻标题,通过哈希检测是否存在相同标题从而丢弃相同内容的网页。通过大量实验验证了算法的有效性。在已有的去重策略基础上平均提升0.48%的去重率。其次,针对已有的正文提取算法进行了介绍,在基于统计的正文提取算法的基础上提出了基于统计与标题和正文位置关系的正文提取算法。该算法将标题的作用考虑在内,首先将<title>标签中的文本作为基准,将网页形成的DOM树中的元素与其进行比较,并将各个元素的属性考虑在内,找出最有可能的文本内容作为新闻标题。在标题确定的基础上,根据标题和正文的关系缩小了寻找正文的范围,进而提升了提取正文的正确率。并且在正文提取结束后,通过标题和正文的相似性再次验证标题的正确性,从而可以达到标题和正文互相修正的效果。通过大量的实验验证了算法的有效性,算法的平均正确率达到了97.83%,远远高于传统的正文提取算法。最后,在已有的网络爬虫和正文提取的基础上设计实现了新闻聚类系统。针对大量网页的处理设计了分布式架构,并且在Hadoop平台上实现了MapReduce模式的开发任务。整个系统包含了5个不同的MapReduce任务,分别为分词、去停用词、统计词频任务,计算每个网页的单词数目任务,计算TFIDF任务,建立网页向量任务和K-Means计算任务。每个任务在前一个任务结束后开始执行。通过轮廓系数和K的关系确定了K的取值,并且根据系统的可用性决定了一个在可接收范围内执行结束的迭代次数。通过大量的实验验证了系统的有效性和实用性,并手动检测了聚类的结果,达到了实际应用的要求。

其他文献

源信号数目未知的水声信号盲源分离算法研究

盲源分离算法是指在不知道源信号和传输信道参数的情况下,根据输入信号的统计特性,仅由观测信号恢复出源信号各个独立成分的过程。当信源数目未知或者动态变化时,盲源分离算

学位

盲源分离算法信源数目动态变化源数目估计自适应学习率自适应神经网络算法

基于网格工作流的供应链系统研究与实现

当前,经济的全球化导致了市场竞争日趋激烈。企业要在市场中生存并获得一定的优势,必须建立起供应链联盟,提高供应链的响应速度,降低其运行成本。新兴的网格技术使得企业联盟的建立成为可能。网格技术利用服务来封装异构分布资源,并通过统一的接口来实现无差别调用,跨越了地域上的界限,在很大程度上整合了这些资源。工作流与网格技术的结合,使得企业可以定制生产流程,并且自动调用和组合资源,满足当前供应链管理的需求。本

学位

网格工作流供应链资源封装WST调度和决策

基于OFDM数字广播信号的无线定位与跟踪关键技术研究

数字广播是一种采用广播方式传输数字化音视频媒体流及各种数据信息的系统。数字广播已在国外广泛应用，在国内也相继展开。利用数字地面广播、数字多媒体广播信号也可得到一种

学位

数字广播无线定位正交频分复用粒子滤波扩展卡尔曼滤波

结合分层LBP和改进Adaboost的人脸表情识别

表情是人类表达情绪的基本方式之一，人脸表情在人们交流中有着重要的作用，它不仅可以准确表达人类的思想感情，而且也可以通过人脸表情来了解对方的态度和内心世界。通过计算机理

学位

人脸表情识别分层LBPAdaboost算法特征提取分类识别

内存数据库事务并发控制研究和设计

随着电力行业信息化程度不断普及,电力系统对现场数据的实时处理的需求日渐提高,催生了支持实时性的高性能数据库的诞生。内存容量的增加和成本的降低,使基于内存的高性能实

学位

内存数据库事务管理CacheDB意向锁动态多粒度锁

机载多通道SAR/GMTI算法研究及硬件实现

近年来,地面运动目标检测和成像是合成孔径雷达(SAR)领域中的一个研究热点,无论在军事上还是在民用中都具有非常重要的意义。本文主要研究了机载多通道合成孔径雷达地面动目

学位

合成孔径雷达地面动目标指示并行处理通用数字信号处理系统

以太网时钟同步技术的研究

以太网同步技术是近年来的研究热点之一，其应用前景十分广泛。IEEE1588所规范的精确定时协议(PTP)是较为成熟的以太网同步技术之一，具有良好的同步性能、优异的可扩展性和易于

学位

计算机网络数据传输非对称链路时钟同步

基于CBR的飞机机载设备故障诊断系统的研究

随着航空技术的发展，现代民用飞机系统的规模和机载设备日趋复杂，传统的故障诊断和维护方法，已不能适应现代民用飞机的发展需求，在保障飞行安全、降低维护成本、提高飞机可用性等

学位

故障诊断CBR粗糙集案例相似匹配专家系统

基于内存计算的文本聚类算法的研究与实现

其他学术论文