Web挖掘中的降维和分类方法研究

被引量 : 0次 | 上传用户:hufei1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web挖掘研究把数据挖掘方法和万维网(WWW)相结合,目的是从WWW的海量数据中挖掘有用的知识,研制高效的Web挖掘系统。本论文结合网页分类、网页摘要和个性化Web搜索等挖掘任务,以Web挖掘中的降维和分类方法研究为重点,提出和改进Web挖掘算法。主要工作包括以下方面: 第一,提出一种有监督的潜在语义索引(SLSI)模型降维方法,用于文本分类任务中的特征表示。同传统的潜在语义索引(LSI)模型相比,SLSI既能够捕捉文档集合中的潜在概念,同时能够利用不同类别之间的区分信息。SLSI可以取得好的降维效果,同时也能保证文本分类的精度。 第二,提出一种三阶数据降维模型CubeSVD,用于分析搜索引擎服务器端收集的点击日志数据。点击日志数据通常很稀疏,并且包含多种类型对象,对象之间存在复杂的关系。CubeSVD基于高阶奇异值分解技术,通过降维发现对象间的潜在关系,帮助提高个性化Web搜索的性能。 第三,研究基于降维技术的网页摘要方法,提出一种利用点击日志的改进型网页摘要算法ALSA,从点击日志数据中挖掘Web用户使用查询词搜索网页的知识;另外,结合点击日志数据和Web上人工标注的网页类别信息,提出一种构造主题词典(Thematic Lexicon)方法帮助网页摘要。 第四,提出一种通过优化组合核函数进行网页分类的方法GECKO。网页分类的一个难点是网页具有异构特征。本文使用组合核函数方法综合利用异构特征,通过求解广义特征值问题优化核函数的组合,基于优化的核矩阵训练SVM分类器。试验结果显示该算法能够取得好的泛化性能。 第五,研究基于隐链接关系的网页分类算法。用户使用搜索引擎时,输入查询词后通常会点击一些主题相关的网页,因此基于点击日志数据可以构建网页间的隐链接关系。本文提出构建隐链接的方法和基于隐链接构造网页虚拟文档表示的方法,并且基于两类网页分类算法比较文中定义的两种隐链接和三种超链接关系。试验结果显示基于隐链接关系可以改进网页分类的精度。 作者参加了数据挖掘组承担的国家973项目,将本文研究成果用于该项目的Web挖掘原型系统WebME(Web Mining Environment)中,系统的良好性能验证了本文所提出方法的有效性。
其他文献
“创客”一词源于英文Maker,2010年引入我国,之后在全国掀起创客文化的浪潮。目前,随着广西新课程改革的推进,很多中小学中都建设了自己的创客空间,或者与实验制作相关的实验
黄芪药理作用研究进展林漆清,宋钦兰(附属医院250011)关键词黄芪;药理作用;综述黄芪性味温、甘,归肺、脾经,主用于补气固表、利尿托毒、排脓、敛疮生肌。黄芪又名黄春、绵黄芪、百本、王孙
当前人们对于农村社区建设已经形成了不少共识,但是,在理论上和实践上仍存在不少分歧和争论。其中包括中国农村社区的组织边界与功能定位、社会公共服务与社区自我服务的关系
深圳珠宝行业经过近30年的发展,取得令人瞩目的成绩。与此同时,深圳珠宝行业也存在众多问题。本文通过分析深圳珠宝行业的现状,运用SWOT方法分析深圳珠宝行业面临的机遇和挑
燃煤电厂煤炭直接燃烧产生的NO_x不仅危害环境,也直接威胁着人类的健康,因此控制电站锅炉NO_x排放的技术应运而生,燃料再燃是其中比较有效的方法之一,针对可能需要增加第二种
α-酰胺化是神经和内分泌系统中许多生物活性肽重要的翻译后加工过程,C末端α酰胺基团的存在对于许多生物活性肽的生物活性极为重要。通过PCR扩增获得了编码大鼠α-酰胺化酶
自改革开放以来,我国保险业市场发展迅速,但是农村保险市场发展缓慢,究其原因,既有农民保险意识淡薄,政府缺乏必要的支持,包括法律、经济等政策支持,也有大多数保险公司开展
伴随信用卡的日益普及,利用信用卡套现行为有扩大化趋势,它不仅使银行遭受了利益损失,也扰乱了国家的金融秩序。本文拟分析当前信用卡套现的主要形式、特点、危害及成因,提出
独立董事制度产生于上个世纪70年代的美国,并且在短短的三十年间得到了迅速的发展。实践证明独立董事制度已经成为公司治理结构中的重要组成部分,并且发挥着不可替代的作用,
近年来 ,网络经济作为一种新型经济运行模式获得了飞速的发展 ,并成为新的经济增长点。对中国来说 ,这既是机遇 ,也是挑战。我们必须采取积极的应对措施 ,迎头赶上这一世界潮