基于KK-SVM的垃圾标签检测方法研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:wukuiyuxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机处理的数据一般来说基本抽象于客观世界,由于客观世界中事物的复杂性,导致数据结构极其复杂,数据维度极高,这无疑增加了计算机处理数据的难度。Folksonomy是通过用户自定义标签发展而来的新型分类方法,包括参与用户、被描述的资源以及标识符这三个重要组成部分。由于Folksonomy兼备用户性和自由性等特点,实现了更高程度上的资源共享’,但同时也使得基于Folksonomy的系统经常含有垃圾标签。Folksonomy系统过于依赖用户行为,一旦部分用户出现反常行为在系统中投放垃圾信息,生成相应垃圾标签,将会严重威胁整个系统的运行。为了减小系统的风险,完全有必要对垃圾标签进行检测。本文首先通过支持向量机的理论构建垃圾标签检测模型,原理就是利用支持向量机对用户行为进行检测并分类,判断用户是否为垃圾标签投放者,通过限制垃圾标签投放用户的破坏行为来减少垃圾标签。而后又在核主成成分分析法的启发下,将数据降维思想引入数据预处理阶段进行数据集的约减,通过降维获取原始数据的低维表示,构建出了基于KPCA-SVM方法的垃圾标签检测模型。在此基础上,利用核K-means聚类算法再次对KPCA-SVM垃圾标签检测模型进行优化。最终形成了基于KK-SVM的垃圾标签检测模型。其中,前一个“K”表示核K-means聚类算法,在处理数据集时主要是基于数据行的约减,后一个“K”表示KPCA降维算法,主要是基于数据列的约减。本文将降维思想引入垃圾标签检测模型的数据约减阶段,提出了用KPCA-SVM检测垃圾标签的方法,这是本文的一个理论创新点。再将模型实例化以后,通过核K-means聚类算法和降维算法的有机结合,生成了效果更优的数据约减方法,最后形成了基于KK-SVM的垃圾标签检测模型。将该模型首次实际运用到Folksonomy系统中,通过实验论证,基于KK-SVM的垃圾标签检测模型比传统同类检测模型检测效果更好。这是本文的一个应用创新点。
其他文献
由于科技飞速的发展和经济的增长,国民的生活水平得到了明显改善,但是随之也带来了一些问题,如,环境的严重污染,癌症率的持续升高等等。占女性癌症第一的乳腺癌,对女性朋友的健康产
计算机三维动画是现在计算机的研究重点,其中,人体运动仿真技术被引用到了各个领域中。本文的研究重点在于实现流体环境下人体运动的仿真系统,由于硬件条件的限制,仿真系统的
群智能优化算法是近年来新型的一种仿生类优化算法,其中人工鱼群算法(Artificial Fish Swarm Algorithm, AFS)和人工蜂群算法(Artificial Bee ColonySwarm Algorithm, ABC)是
无线传感器网络(WSN)是网络技术在测控领域的经典应用。它合理地结合了传感器技术、现代网络技术、无线通信技术、嵌入式技术等前沿技术,具有良好的研究价值和应用价值。无线
大规模数据存储面临着数据容量大、数据结构复杂、基础设施异构、失效常态化等问题。高效的、去中心化的元数据管理方案对大型分布式存储系统的可靠性、可扩展性具有重要作用
在医学和生物学等研究领域里,数字共焦显微镜技术作为一种建立在光学显微镜基础之上的新型显微技术,可通过光学切片技术、采集研究中所需的生物细胞或者组织图片的切片序列,
僵尸网络因其自身易控制、范围广、难检测等特点已发展成为目前互联网中最主要、最广泛的网络攻击平台,Botmaster可以利用僵尸网络实施窃取信息、Spamming、DDOS攻击等恶意行
自从1999年Napster软件出现以后,P2P技术以其强大的支持网络的可扩展性而迅速受到广大研究者的关注。从2000年开始,学术界持续关注P2P技术并进行了深入研究。到2007年,P2P技术的
近年来,随着越来越多的网络资源发布在Internet上,分布式计算成为了业界研究与应用的主流模式。在分布式计算模型中,计算任务是由分布在网络上的多台计算机协作完成的。为了实现
目前,无线Mesh网络已经成为了下一代无线网络中一种非常具有应用前景的新型无线组网技术,它可以为用户提供灵活的自适应无线互联网接入,因此很多新兴的网络运营商都在利用各