论文部分内容阅读
作为网络百科全书的代表,维基百科已成为广大用户获取知识的资源库,所有维基百科条目按类别组织而成,整个维基百科类别系统构成了一个具有层次结构关系的分类体系,用户可以根据分类索引层层搜索,任意浏览自己感兴趣的维基百科文章内容。所有的维基百科条目内容由志愿者遵循一定规则编辑而成,而传统的人工编辑过程,志愿者由于缺乏对整个维基百科类别系统的了解,容易标注出重复或者不规范的类别,造成类别标注的杂乱。针对人工编辑的耗时费力,本文提出为中文维基百科自动推荐类别。然而,维基百科的类别有其特殊性,它被称为“开放分类”,既是能描述文章所属类别的分类类别,又可以看成用户即志愿者为该词条贴上的类别标签,如此看来,维基百科类别推荐问题既是标签推荐问题又是网页分类问题。另外,与传统分类不同的是维基百科的类别数量很多,并且所有类别之间不是平行关系而是有上下位层次结构的,传统的分类器方法不再适用。因此本文考虑从协同过滤和深分类两个方面为中文维基百科自动推荐类别,所做的工作体现在以下两个方面:第一、把维基百科类别推荐问题看作标签推荐问题,采用最常用的推荐算法,即协同过滤,为新的维基百科文章推荐类别标注。利用中文维基百科中的四个重要语义特征即链入、链出、链入的类别和链出的类别来表示维基百科文章,得到与目标文章相似的前若干篇文章的所有类别后,通过查询返回的相似度值计算各个类别的权重,选择前面的若干个类别作为推荐结果返回给目标文章。实验结果表明了这四个语义特征能较好地表征一篇维基百科文章,同时也验证了协同过滤方法在中文维基百科自动推荐类别中的有效性。第二、把维基百科类别推荐问题看作网页分类问题,采用一种特别针对于大规模层次结构类别的分类算法,即深分类方法,对新的目标文章进行分类。整个过程分为查询模块和分类模块两个步骤。将协同过滤方法得到的相关候选类别集作为查询模块的结果,缩小了需要进行分类的类别数量。分类模块将查询模块得到的候选类别集作为朴素贝叶斯分类器的训练语料,将目标文章作为分类器的测试输入从而得到分类结果。从维基百科中挑选了一定数目的条目文章作为测试集,通过与人工挑选的类别进行对比,验证了深分类方法的有效性。