中文维基百科类别推荐的研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:sam4567
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为网络百科全书的代表,维基百科已成为广大用户获取知识的资源库,所有维基百科条目按类别组织而成,整个维基百科类别系统构成了一个具有层次结构关系的分类体系,用户可以根据分类索引层层搜索,任意浏览自己感兴趣的维基百科文章内容。所有的维基百科条目内容由志愿者遵循一定规则编辑而成,而传统的人工编辑过程,志愿者由于缺乏对整个维基百科类别系统的了解,容易标注出重复或者不规范的类别,造成类别标注的杂乱。针对人工编辑的耗时费力,本文提出为中文维基百科自动推荐类别。然而,维基百科的类别有其特殊性,它被称为“开放分类”,既是能描述文章所属类别的分类类别,又可以看成用户即志愿者为该词条贴上的类别标签,如此看来,维基百科类别推荐问题既是标签推荐问题又是网页分类问题。另外,与传统分类不同的是维基百科的类别数量很多,并且所有类别之间不是平行关系而是有上下位层次结构的,传统的分类器方法不再适用。因此本文考虑从协同过滤和深分类两个方面为中文维基百科自动推荐类别,所做的工作体现在以下两个方面:第一、把维基百科类别推荐问题看作标签推荐问题,采用最常用的推荐算法,即协同过滤,为新的维基百科文章推荐类别标注。利用中文维基百科中的四个重要语义特征即链入、链出、链入的类别和链出的类别来表示维基百科文章,得到与目标文章相似的前若干篇文章的所有类别后,通过查询返回的相似度值计算各个类别的权重,选择前面的若干个类别作为推荐结果返回给目标文章。实验结果表明了这四个语义特征能较好地表征一篇维基百科文章,同时也验证了协同过滤方法在中文维基百科自动推荐类别中的有效性。第二、把维基百科类别推荐问题看作网页分类问题,采用一种特别针对于大规模层次结构类别的分类算法,即深分类方法,对新的目标文章进行分类。整个过程分为查询模块和分类模块两个步骤。将协同过滤方法得到的相关候选类别集作为查询模块的结果,缩小了需要进行分类的类别数量。分类模块将查询模块得到的候选类别集作为朴素贝叶斯分类器的训练语料,将目标文章作为分类器的测试输入从而得到分类结果。从维基百科中挑选了一定数目的条目文章作为测试集,通过与人工挑选的类别进行对比,验证了深分类方法的有效性。
其他文献
地震是地壳快速释放能量造成震动,期间产生震动波的一种自然现象。每年全球会发生约550万次地震,地震的发生往往会造成严重的人员伤亡和财产损失。我国是一个地震多发的国家,
在软件生命周期过程中,软件测试是保证软件质量的关键环节之一。随着分布式系统的不断发展,网络并发软件的测试方法受到了广泛关注与讨论。由于并发实体之间存在着复杂的交互行
随着网络的不断发展,人们在各方面对网络的依赖性逐步增加。现在,以网络为平台的网上购物、网上银行、网上金融交易等迅速盛行,但是消费者也必须对相应的安全问题提高警惕,账
耳语音是人与人之间一种特殊的语音交流方式。其具有声带不振动、基频缺失和声音能量低的特性,这些特性降低了耳语音的可懂度和清晰度。耳语音向正常音的转换重建具有重要的
无线传感器网络由许多体积小、价格低、处理能力强的传感器节点构成,集成了传感器、嵌入式、无线通信及分布式处理等技术,其已在军事、环境、家庭等领域得到广泛的应用。基于无
随着互联网应用的普及以及存储技术的发展,经常会遇到海量的结构复杂的数据需要分析,如微博信息数据、生物学数据、电子商务数据和移动信息数据等等,这些数据都可以用树结构
随着人们对无线业务尤其是多媒体业务需求量的不断增加,如何高效地利用有限的无线资源已成为无线通信技术发展中的严峻挑战。为此,OFDMA(OrthogonalFrequency Division Multipl
学位
使用图形用户界面(GUI)进行人机交互已经成为当今软件人机交互的主流,所以GUI的测试显得异常重要。但是测试是一项很困难的工作,一个重要的原因是背景事件会影响测试结果,基于模型
运动模糊是在相机曝光时间内,由于场景和相机之间发生了相对位移而产生模糊图像的一种物理现象。运动模糊图像在现实生活中无处不在,因此,对运动模糊的研究具有十分广泛和重要的