基于代价敏感多标记学习的开源软件分类

来源 :软件学报 | 被引量 : 0次 | 上传用户:zzu123456789zzuliuli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着开源软件数量的增多,从开源软件社区中有效检索到所需的开源软件是具有挑战性的工作.现有方法通常是:首先,人工给每个软件赋予多个描述其功能、用途的标注;然后,通过关键词匹配寻找用户所需的软件.由于其简单、方便,基于标注进行软件检索得到了广泛的应用.然而,用户通常不愿意主动为其上载的开源软件提供标注,这使得根据用户上载软件的文字描述信息,从众多备选软件标注中为其自动选择能够表征其功能、用途的标注,成为了有效检索该软件的关键.把开源软件自动标注形式化为一个代价敏感多标记学习问题,并提出了一种新型代价敏感多标记学习方法 ML-CKNN.该方法通过在多标记学习中引入代价信息,有效缓解了对每一个标注而言具有该标注的示例与不具有该标注的示例分布非均衡性给多标记学习造成的影响.在3个开源软件社区上的实验结果表明:所提出的ML-CKNN方法能够为新上载的开源软件提供高质量的标注,其标注性能显著优于现有方法.
其他文献
开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场(condition random field,简称CRF)可对序列输入标注的特点,将新词发现问题转化为预测已
目的初步探讨瘦素与2型糖尿病骨质疏松症之间的关系。方法选取本院住院的100例男性2型糖尿病患者为研究对象。按腰椎骨密度(T值)分为骨量正常组(N组)、低骨量组(A组)和骨质疏
<正>我国选秀节目演变的四个阶段2004年,湖南卫视举办的《超级女声》将选秀这一电视娱乐节目类型首次呈现在国人眼前,掀起了随后几年选秀节目的制播热潮,《我型我秀》、《梦
从轨道交通产业的前后关联入手,分析阐述了轨道交通建设与区域经济的要素耦合以及相互关系,并通过要素耦合关系提出了轨道交通建设与区域经济耦合的几点建议,为区域经济内的
<正>近几年,内地电视剧演员片酬持续高涨,最近,又有电视剧主要演员"8万/集是起步价,20万/集成主流"之说。①"眼下国内上涨最快的并不是房价,而是演员们的片酬",这是一些电视
期刊
1921年中国共产党刚成立时,陈独秀与共产国际代表马林就中共是否接受共产国际津贴等问题,发生了激烈的争论。缘由1921年6月3日,共产国际代表马林和 When the Chinese Commun
<正> “景泰蓝,也叫‘铜胎掐丝珐琅’。是北京著名的特种工艺品之一。一说早在唐代就有此种工艺制作,一说据故宫博物院最早的存品系创于明宣德年间,至明景泰年间才广泛流行。
<正>威士忌(WHISKY)是英语的译音,是指以大麦、谷物为原料,经糖化,发酵,蒸馏而得到的蒸馏酒。威士忌最早为爱尔兰人所创,后来因苏格兰人经营有方,再加上地理和资源优
期刊
通过对硬岩型铀矿坑口堆浸法的工艺流程分析,总结出坑口堆浸成本由矿石开采费用、主要原材料费用等14项要素组成,并建立了地质经济评价模型。运用该经济模型编写的坑口堆浸地质
在正常儿童学前教育普及率只有24%的1975年,美国即颁布了为所有残疾幼儿提供适当和免费的学前教育的法律,并逐步严格地在全国范围内实施这一法律,使得残疾儿童学前教育的发展