基于日志的Web访问信息挖掘

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:fjnu_lhx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet应用的迅速发展,网络上信息迅速增长,信息种类也越来越多,人们面对太多的信息无法选择和消化,此种现象称为信息过载。Internet上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,也就是所谓的信息迷失。如何从这些繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。所以,出现了数据挖掘在Web站点分析中的应用,即Web挖掘。 基于日志的Web访问信息挖掘是Web挖掘领域中的一个重要应用研究方向。为用户提供一个不仅内容丰富而且方便使用的优秀网站,以吸引大量的用户,这是每个网站所追求的目标。Web站点能否实现个性化,为用户提供个性化的服务,成为衡量站点能否成功的重要因素。通过挖掘Web日志,发现用户的访问模式,对优化站点结构和为用户提供个性化服务具有重要的意义。 本文主要研究了基于Web日志的用户访问模式挖掘,对基于搜索引擎查询日志的协作推荐也进行了一定的研究,主要工作如下: 1.Web访问信息挖掘的方法研究。详细的研究和探讨了Web访问信息挖掘的整个过程,包括:数据收集、数据预处理、模式发现、模式分析及应用。 2.详述了硬K-均值聚类算法和模糊K-均值聚类算法的基本思想和算法步骤,对模糊K-均值聚类算法中的中心初始化问题进行了较为详细的研究,并提出了一种改进的有效性函数运用于中心初始化中,利用该有效性函数可以有效地发现最优中心数目。 3.提出了一种改进的Web用户和URL聚类方法,该算法有效地综合了用户浏览时间和访问次数,并且利用服务器日志进行了实验,证实了该算法的有效性。 4.详述了Web搜索引擎推荐中的主题关注度推荐思想。探讨了利用查询日志进行查询关键字的聚类分析,提出了一种改进的相似度函数,并利用人工数据进行了实验验证,证实该相似度函数可以更加准确地运用于关键字凝聚过程。 最后,对所做的工作进行了归纳与总结,探讨了将来进一步的研究方向。
其他文献
随着我国国民经济和汽车、化工等相关产业的迅猛发展,自用车保有量的持续增加,石化资源消耗快速增长,需求与日俱增。石化资源的流通供应,即“进—销—存”环节成为石化企业关
无线数据、多媒体业务以及移动通信系统的目标是实现无所不至、高质量、高速率的移动多媒体传输,它要求在高载频以及宽带上支持2Mbit/s至数十兆比特/秒的高速率传输,如何保证
摘要:为了提高建设工程质量,必须积极加强对工程质量的监管,本文就加强建筑工程质量监督管理问题进行了如下探讨。  关键词:建筑工程;质量;监管    Abstract: in order to improve the quality of construction projects, it is necessary to actively to strengthen the supervision
期刊
随着无线网络的飞速发展以及人们对于信息安全传输需求的日益增加,物理层安全技术为无线通信安全领域的研究提供了一种新思路。其基本思想是利用无线信道的内在特性提升无线
学位
视频信息视频信息是一种大数据量的信息,很难直接传输,因此就要对视频信息进行处理也就是对它进行压缩。通过对现有一些压缩标准的分析比较,MPEG一4标准以其面向对象进行编码
随着现代通信技术、多媒体技术的迅猛发展和计算机微型化的进步,短距离高速率无线穿戴式信息网络己成为一个研究的热点。本论文研究的是UWB在穿戴式信息网络中应用的物理层关
近年来,超宽带通信技术以其良好的特性被业界认为是未来短距离高速无线通信的最佳解决方案。但是超宽带信号脉冲持续时间短,功率谱密度极低,并且超宽带信道具有密集多径的特
矩形开口波导探头普遍使用于近场扫描测量等领域,作为测量中的核心部件之一,其性能对整个系统的测量精度有着举足轻重的作用。国外一些机构已经具备了高精度校准Ka及其以下频
认知无线电技术是下一代通信网络的关键使能技术,它能有效的解决无线网络中频谱资源的相对“短缺”与“浪费”。认知无线电技术能够感知周围环境的通信状态并实时调整发射参