基于内存计算的文本聚类算法的研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:fsp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻聚类系统诞生于互联网的浪潮中,是个性化新闻推荐引擎的核心部分,聚类的结果直接影响到推荐的效果。一个完整的新闻聚类系统包含了网络爬虫模块,负责数据源的获取;正文提取模块,负责数据清洗,去除噪音;聚类算法模块,负责新闻的最终分类。优质的数据源是算法有效运行的必要条件,也是实际应用中举足轻重的环节。如何设计一个抓取速度快而且网页重复率低的网络爬虫以及文本提取准确率高的正文提取算法一直是研究的热点。本文正是在此背景下,以实现一个实际可用的新闻聚类系统作为研究目标,致力于寻找高效的网页去重算法和精确的正文提取算法。本文的主要工作内容包括:首先,本文针对传统的网络爬虫架构进行了深入分析,并针对网页去重的机制进行了着重解析。在传统去重策略中,多数是在网页下载之前对URL进行去重,这样能够过滤掉相同URL的网页。但是在新闻推荐系统中,除了有大量的第一手网页,同时为数不少的二手新闻存在于互联网,比如各大网站转载其他网站的新闻。在这种情况下,虽然URL不同,整个页面也是不同的,比如由于各个网站插入的广告不同,但是完全有可能网页的正文内容是一样的。而对于读者来说,是不希望看到这种新闻内容一致的网页。针对这种情况本文给出了一种解决办法,对于下载的网页进行第二次网页去重。对于原始的HTML网页,提取出新闻标题,通过哈希检测是否存在相同标题从而丢弃相同内容的网页。通过大量实验验证了算法的有效性。在已有的去重策略基础上平均提升0.48%的去重率。其次,针对已有的正文提取算法进行了介绍,在基于统计的正文提取算法的基础上提出了基于统计与标题和正文位置关系的正文提取算法。该算法将标题的作用考虑在内,首先将<title>标签中的文本作为基准,将网页形成的DOM树中的元素与其进行比较,并将各个元素的属性考虑在内,找出最有可能的文本内容作为新闻标题。在标题确定的基础上,根据标题和正文的关系缩小了寻找正文的范围,进而提升了提取正文的正确率。并且在正文提取结束后,通过标题和正文的相似性再次验证标题的正确性,从而可以达到标题和正文互相修正的效果。通过大量的实验验证了算法的有效性,算法的平均正确率达到了97.83%,远远高于传统的正文提取算法。最后,在已有的网络爬虫和正文提取的基础上设计实现了新闻聚类系统。针对大量网页的处理设计了分布式架构,并且在Hadoop平台上实现了MapReduce模式的开发任务。整个系统包含了5个不同的MapReduce任务,分别为分词、去停用词、统计词频任务,计算每个网页的单词数目任务,计算TFIDF任务,建立网页向量任务和K-Means计算任务。每个任务在前一个任务结束后开始执行。通过轮廓系数和K的关系确定了K的取值,并且根据系统的可用性决定了一个在可接收范围内执行结束的迭代次数。通过大量的实验验证了系统的有效性和实用性,并手动检测了聚类的结果,达到了实际应用的要求。
其他文献
盲源分离算法是指在不知道源信号和传输信道参数的情况下,根据输入信号的统计特性,仅由观测信号恢复出源信号各个独立成分的过程。当信源数目未知或者动态变化时,盲源分离算
当前,经济的全球化导致了市场竞争日趋激烈。企业要在市场中生存并获得一定的优势,必须建立起供应链联盟,提高供应链的响应速度,降低其运行成本。新兴的网格技术使得企业联盟的建立成为可能。网格技术利用服务来封装异构分布资源,并通过统一的接口来实现无差别调用,跨越了地域上的界限,在很大程度上整合了这些资源。工作流与网格技术的结合,使得企业可以定制生产流程,并且自动调用和组合资源,满足当前供应链管理的需求。本
数字广播是一种采用广播方式传输数字化音视频媒体流及各种数据信息的系统。数字广播已在国外广泛应用,在国内也相继展开。利用数字地面广播、数字多媒体广播信号也可得到一种
表情是人类表达情绪的基本方式之一,人脸表情在人们交流中有着重要的作用,它不仅可以准确表达人类的思想感情,而且也可以通过人脸表情来了解对方的态度和内心世界。通过计算机理
随着电力行业信息化程度不断普及,电力系统对现场数据的实时处理的需求日渐提高,催生了支持实时性的高性能数据库的诞生。内存容量的增加和成本的降低,使基于内存的高性能实
近年来,地面运动目标检测和成像是合成孔径雷达(SAR)领域中的一个研究热点,无论在军事上还是在民用中都具有非常重要的意义。本文主要研究了机载多通道合成孔径雷达地面动目
以太网同步技术是近年来的研究热点之一,其应用前景十分广泛。IEEE1588所规范的精确定时协议(PTP)是较为成熟的以太网同步技术之一,具有良好的同步性能、优异的可扩展性和易于
随着航空技术的发展,现代民用飞机系统的规模和机载设备日趋复杂,传统的故障诊断和维护方法,已不能适应现代民用飞机的发展需求,在保障飞行安全、降低维护成本、提高飞机可用性等