基于聚类分析的内容管理方法的应用研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：kxlzyc

【摘要】

：

21世纪是一个信息时代，互联网的广泛普及和信息技术的飞速发展在为人们带来方便与快捷的同时，也造成了信息的爆炸式增长，大量杂乱无章的内容充斥着整个互联网，为企业和用户造成了

【作者】

：

牛志慧

【机构】

：

北京工业大学

【出处】

：

北京工业大学

【发表日期】

：

2014年期

【关键词】

：

内容管理聚类分析海量数据 K-means算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

21世纪是一个信息时代，互联网的广泛普及和信息技术的飞速发展在为人们带来方便与快捷的同时，也造成了信息的爆炸式增长，大量杂乱无章的内容充斥着整个互联网，为企业和用户造成了许多困扰。人们无法对海量的内容进行有效的管理，不得不花费大量的时间和精力从臃肿的内容中提取有效信息。因此，如何能够有效地管理这些信息，成为一个非常具有实际意义的研究热点，内容管理的概念也应运而生。内容管理的目的是对各种信息，包括结构化和非结构化数据进行高效的采集、组织和利用，从而达到内容的有效管理和高效利用。内容分类是其中一个非常重要的关键步骤，是对内容进行有效组织管理的重要手段，通过分类对海量数据进行划分和细化，对内容管理具有十分重要的意义。　　本文对国内外内容管理系统的研究现状及内容分类方法进行了调查和分析，针对现有内容分类方法的不足，将聚类分析的概念引入内容分类，提出了一种基于聚类的改进的内容分类方法。在此基础上，本文又对内容管理模型进行了深入的研究与分析，并基于该模型设计并实现了一个内容管理系统对该模型进行应用验证。具体来讲，本文的工作可以慨括为以下几个方面:对内容管理中的内容分类方法进行了研究和分析，针对现有内容分类方法的不足，引入了聚类分析的概念;对聚类分析算法进行了深入研究，针对传统K-means算法的不足进行了改进，并与传统K-means算法进行实验对比;基于改进的K-means算法，以文本分类为例，提出了一种基于聚类分析的内容分类方法;对内容管理的各个环节进行分析，并在此基础上对内容管理模型进行研究;实现了一个的内容管理系统，对所提出的内容管理方法进行应用效果分析。　　经过验证分析，本文所提出的改进的K-means算法相比传统的K-means算法能够得到更好的聚类效果，在准确率和召回率上均有一定提高，基于改进的K-means聚类算法的内容分类方法可以有效的对文本内容进行自动聚类，具有较好的分类效率和应用前景，对研究内容之间的关联意义及研究内容特征等方面也有着非常重要的意义。本文所提出的内容管理方法在实际应用中得到了验证，基于该方法的内容管理系统运行良好，具有十分重要的研究意义。

其他文献

分布式组件化的通信网络地理信息系统设计与实现

该文从理论上研究和探讨了分布式环境下组件化的CNGIS,刚C++语言、COM/DCOM和ASP等技术设计并实现了基于Client/Server与Browser/Server混合方式的CNGIS,最后对CNGIS的进行了

学位

通讯网络地理信息系统MAPGIS数据分布分布式数据库组件对象模型技术ASP性能分析Cache

Windows2000个人安全防御系统中包过滤系统的设计与实现

随着全球Internet用户数量的激增，黑客对个人网络用户的攻击次数越来越频繁，攻击的手段也越来越先进，针对个人主机的安全防护技术已经成为当前网络安全研究领域的重点。目前针对

学位

包过滤SPINDIS一致性过滤规则

大规模中文关联数据构建关键技术研究

语义web技术使互联网用户可以更好的获取多种信息和相关服务，通过为互联网信息增加语义将使“更多的信息变得更有用”。语义web的远景和目标是实现数据之网(Web of Data)，数据

学位

语义网知识库本体映射中文关联数据构建模式

Windows2000个人网络防御系统——内容过滤子系统的设计与实现

随着中国经济实力不断争强,人民生活富裕,生活水平日益提高;电脑技术的突飞猛进和普及;网络接入技术的日新月异;越来越多的普通中国人拥有了个人电脑,并且联上互联网.中国上

学位

互联网网络防御个人用户网络安全内容信息安全内容过滤

一种非线性RED算法的研究

该文提出的非线性RED算法则是在分组丢弃时采用非线性的丢弃率,通过采用适当的非线性参数可以使网络的性能得到进一步的改善.该论文的创新之处是定量分析了平均队列长度与网

学位

尾丢弃M/M/1模型RED算法非线性RED算法

基于RDF的屏幕尺寸自适应web资源发布软件的设计与实现

计算机和通信技术的飞速发展,使得我们可以通过各种设备简便快速的访问web资源.但是由于原有的web资源构建方式,导致用户通过非PC设备(如,PDA,手机等)对web资源进行浏览时,效

学位

普适计算屏幕自适应web资源资源制作屏幕自适应系统

一种用于调频半色调的优化方法和调频调幅网实现技术

作者在该文中进行了调频半色调中的优化方法和调频调幅网的研究.传统的调频半色调方法在浅调和中间调存在着蠕虫效果和有害纹理[Eschback,R.,197],该文在变系数的误差扩散方

学位

调幅网调频网调频调幅网阈值矩阵优化理论蓝噪声相关分析飞镖算法

基于流形学习方法的中文文本分类研究

信息科学高度发达的当今世界，每时每刻都会有大量的数据产生，在我们的周围充斥着各式数据信息，这些数据往往是高维的，高维数据难以被人理解，因而从高维数据集中选择最具代表性的特

学位

流形学习文本分类等距映射局部线性嵌入特征项

基于Web的信息资源集成检索系统研究与实现

教育资源集成检索系统(ERIRS)的开发,把存在于多台服务器上的教育资源纳入其中,一方面使用户可以检索到更多高质量、高价值的信息资源,同时又减少了信息的冗余.该系统集成了

学位

全文检索JNI元数据检索检索算法网络资源整合网络资源集成检索

基于冗余字典的分布式压缩感知视频编码算法研究

近年来，随着技术的进步，人们对视频的需求越来越高，而传统的视频编解码是先采样后压缩，同时奈奎斯特采样定理规定，为了使得重构信息不失真，必须满足采样频率不小于基带信号带宽两倍

学位

冗余字典压缩感知稀疏表示视频编码分布式信源编码

基于聚类分析的内容管理方法的应用研究

与本文相关的学术论文