博客作者兴趣挖掘与博客信息、情感分析的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:SANTACRUZ1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0概念的出现使互联网新媒体发展进入了新阶段。博客作为Web2.0概念下的典型应用正在推动整个互联网业的发展。近几年来,作为一种新兴事物,博客正处于高速的发展时期,互联网上的博客数量一直在急剧的增长。博客已经成为互联网上一种重要的信息源。如何组织、检索、有效的利用丰富的博客资源,挖掘有价值的信息引起了包括科研界和工业界的广泛关注,各种方法和技术的应用正在被探索中。这些工作对于掌握互联网的发展动态,改善各种网上服务,丰富用户网上生活,提高用户体验等都具有十分重要的现实意义和研究价值。利用博客内容的个性化和多样性的特点,本文开展了对博客内容进行分析和挖掘的工作,主要包括以下两个课题。通过挖掘博客的内容获得作者的个人信息,构建作者的兴趣集合。本文提出了一种基于分类技术的自动挖掘博客作者的兴趣的方法。在该方法中,本文采用多分类器联合的技术来提高分类精度和挖掘出的兴趣的可靠性。此外,本文采用自顶向下的层次化分类方法挖掘更加具体的博客作者的兴趣,并且兴趣可以以概念层次结构的形式展现。该课题在个性化搜索,新闻或广告的自动推荐以及用户社区的构建等互联网研究与应用领域有着广泛的应用。本文提出了对博客文章、博客进行信息型和情感型判定的问题。本文将该问题看作一个分类问题,并提出采用文本分类的技术解决此问题。本文检验了已有的文本挖掘技术在该问题上的适用性,其中包括分类算法和特征抽取算法。通过实验,本文发现支持向量机分类算法与信息增益特征提取算法的结合可以达到最好的分类效果。此外,基于该课题本文提出了三种应用:博客文章的情感、主题分类,意向驱动的博客搜索以及浏览系统,高信息量博客的推荐。这些工作都是当前博客研究的热点。该课题对于促进博客相关的研究与应用的发展有十分重要的意义。
其他文献
针对当前的入侵检测系统判断过于单一、无法协助系统保证关键服务正常工作的问题,本文将李德毅院士提出的云理论(Cloud Theory)与入侵检测系统(Intrusion Detection System)
学位
随着信息技术与网络技术的飞速发展,人类社会对计算机数据的依赖越来越强。使用数据备份系统对重要数据进行备份与恢复,是人们保护数据安全性与完整性的常用手段。备份系统的
当前,web应用因为其易于部署等优点而倍受青睐,很多企业都使用它来构建自己的信息管理平台。随着web应用的越来越广泛,对技术也提出了新的要求,基于web的可视化建模技术就是
OAI协议(OAI-PMH)作为一种新兴的元数据互操作协议,为实现元数据的传播、共享和分发提供了解决办法。由于它的简单、低门槛、跨平台等优点,在众多领域中得到了应用。随着OAI
目标跟踪技术是计算机视觉领域研究中的核心问题之一,该技术在安防、智能交通、人机交互等各方面都有着广泛的应用,具有极大的研究价值和意义。目标跟踪是指通过计算机自动获
随着微电子技术、计算机技术和无线通信技术的飞速发展和日益成熟,无线传感器网络(WSNs)逐渐被应用于军事、环境监测等多个领域。但是信息传播媒介的开放性和恶劣的部署环境,给
随着网络技术的高速发展,网络安全问题已成为木桶效应的最短板。论文以造成安全威胁的漏洞为研究对象,从安全威胁的本质中找出检测方法,并研究出相应的漏洞扫描平台,论文还提
海浪的模拟是计算机图形学中的重要研究领域之一,它不仅在虚拟现实应用、军事仿真、三维游戏动画等领域上有重要意义,而且对于气象预报、现代水力学、流体力学等都具有重要的
文本分类是文本挖掘领域的一个主要分支。提高文本分类的速度和准确度-直是研究人员追求的目标。本文主要工作:1.分析研究文本分类技术的研究现状。基于LDA主题模型的文本分类