【摘 要】
:
随着互联网的蓬勃发展,网络上每天都会产生海量的数据,仅门户网站的新闻信息更新量就非常可观。如何从这些信息中提取中关注度最大的话题,一直是一个值得研究的课题,话题检测
论文部分内容阅读
随着互联网的蓬勃发展,网络上每天都会产生海量的数据,仅门户网站的新闻信息更新量就非常可观。如何从这些信息中提取中关注度最大的话题,一直是一个值得研究的课题,话题检测的目的就是解决这个问题。话题检测流程内有很多的核心技术,这些技术包括:中文分词技术、特征项的提取方法、文档之间以及话题类之间相似度的计算、文本转化用到的模型、聚类算法等。尽管针对这些技术的研究已经有很多,仍有一些方面需要进行改进和完善。针对话题检测,本文深入研究了当前已提出的方案,分析了其中存在的问题,并对这些问题提出了针对性的改进策略。本文所做工作有:第一,通过对文本表示模型的分析,本文选择使用向量空间模型(VSM)来进行文档建模,在特征项提取方面作了改进。目前对特征值的提取和权重计算一般都是基于词频统计来进行的,没有考虑到词语间的内在语义关联。本文针对这个缺陷,以TF-IDF为基础,提出了基于词语关联相似度的特征项提取和加权方法。该方法利用词典,可以识别出同义或同类词,并提供了计算词间的相似度的方法。第二,对于聚类算法的改进。本文通过对比分析发现Single-Pass聚类算法适合处理动态数据和大规模数据,因此选其作为基本算法。由于在Single-Pass里面文档与话题簇间的相似度需要通过取该文档与话题簇中文档相似度最大值来表示,随着文档数目递增,每轮的计算量也愈加庞大。针对此问题,本文提出了一种设定聚类中心的进行增量计算的办法,通过调整聚类中心来降低计算量,同时也缓和了对初始文档顺序的敏感性。另外,本文对Single-Pass只有一个设定阈值进行了扩展,变为双阈值界定,用来聚类话题与子话题,这样使话题的层次更分明。第三,通过实验论证了本文所提出的改进的特征值提取方法和改进的Single-Pass聚类算法的有效性。实验采用TDT中规定的测评指标,通过与其它算法的评测结果作对比,验证了算法的性能和效率。实验结果表明,本文提出的方案增加了聚类结果准确度,降低了错误代价。
其他文献
无线传感器网络是由大量随机部署在监测区域的微小传感器节点通过无线通信、自组织方式构成的分布式网络系统,一般用于对人类无法到达的区域或环境进行监测,并将采集的信息传
在信息类型多元化发展的今天,图像作为信息传递和表达的最直接类型,其质量的优劣影响到人们与互联网交互体验的舒适度。图像分割作为图像处理先验的步骤,是后续处理可以实用
随着无线通信技术、嵌入式计算技术和微系统技术的发展,无线传感器网络引起了人们的广泛关注。无线传感器网络是由众多部署在监控区域内的传感器节点组成,通过无线通信方式形
可重构计算技术兼备ASIC的高性能和通用CPU的灵活性的双重优点,能够满足各领域对高性能计算的迫切要求,已成为业界的研究热点。目前,可重构逻辑器件已经具备局部可重构的能力
伴随着计算机网络和无线通信技术的发展,种类众多的无线网络技术被人们应用到各个领域,同时,人们对移动通信及宽带无线接入业务的需求也在不断增长。无形中我们已经生活在了
目前,一些比较成熟的文本分类算法已经被应用到了文本分类中,但它们大都是基于向量空间模型(Vector Space Model)的。向量空间模型(Vector Space Model)将每篇文章的处理转化
如今,定位技术的快速发展使得基于位置的服务得到了广大移动用户的青睐。随之而来的,各种拥有定位技术的移动设备不断推陈出新,各种基于位置信息和文本信息的查询被提出。为
电力负荷预测是电力系统规划决策、经济运行的前提和基础,电力负荷的准确预测对电力系统安全经济运行和国民经济发展具有重要意义。经典的负荷预测多采用以时间序列法为代表的线性模型方法,但由于短期负荷数据易受天气、节假同等各种干扰因素的影响而呈非线性特性,因此预测结果难以满足实际需要。本文在分析各种经典负荷预测方法优缺点的基础上,将适用于解决大规模样本训练问题的核心向量回归(Core Vector Regr
Web服务作为一个跨平台的用于点对点程序之间的通信技术,正随着计算技术、信息技术的发展,而逐渐成为下一个在迅速推动英特网发展中起到中流砥柱作用的新技术,Web服务极大地
近些年来,审计数据资源不断扩充,审计形式也从现场审计逐步转型为计算机联网审计。这就要求审计数据中心要能够适应新时代的审计需求。审计数据中心从一个存储审计数据的数据