训练集类别分布对文本分类的影响

来源 :第三届全国搜索引擎和网上信息挖掘学术研讨会 | 被引量 : 0次 | 上传用户:chijr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了减小训练集中各类别资源分布不均衡对分类性能造成的影响,该文对原始训练集使用类别均衡法,即对原始训练集以类为单位进行重新组合,使得重组后的训练集类别分布尽可能均衡,从而可以在均衡的类别上进行训练和分类,以降低在训练过程中对小类别的不公平待遇.在复旦大学语料库上使用类别均衡法,分别用Naive Bayes和Rocchio方法分类,前者的宏平均F1从48.62﹪提高到了80.99﹪,后者的宏平均F1从64.58﹪提高到80.26﹪,微平均F1从73.99﹪提高到80.47﹪.实验结果显示,类别均衡法显著提高了分类性能。
其他文献
本文对带旋髂深动脉髂骨瓣植入治疗成人股骨头缺血性坏死进行了探讨。文章使用同侧带旋髂深动脉髂骨瓣植入治疗成人股骨头缺血性坏死38例病人39髋,经观察疗效满意。
本文采用先介入溶栓再用带旋髂深血管的髂骨瓣移植联合治疗股骨头缺血坏死17例,效果理想,所有病人均恢复了原有工作。文章对治疗方法和治疗过程进行了总结。
结肠与直肠腺癌是发病率极高的癌症之一,手术是主要的疗法,但只有不到一半的病例能被治愈因为55%的病人将发生局部复发、远处转移,所以改进对原发疾病和早期复发的诊断是非常
本文采用全髋关节置换和带血运骨瓣移植治疗晚期股骨头缺血性坏死患者81例,并对其中59例单侧患者进行了长期随访,比较了两种治疗方法的疗效和适应证.
读了《上海企业》1985年第4期洪仲良、夏传蔚两位同志“对培训现职管理干部的建议”一文后,使我深有感触,文章说出了我们这些基层企业管理干部的肺腑之言。我是一家乡镇企业
本文对关节镜下应用带血管蒂骨瓣转移治疗股骨头缺血性坏死进行了探讨。文章采用关节镜监视下小切口入路带血管蒂骨瓣转移治疗股骨头缺血性坏死,临床应用53例,经过平均3.5年随
韭黄是韭菜在黑暗无光条件下栽培,生产出淡黄色、无纤维、品质鲜嫩、味美可口的产品,是一种较高档的蔬菜。传统生产韭黄的方法,多为瓦筒软化、培土软化、盖草棚软化等。近年
本文采用滑膜及死骨清除、新鲜胎儿软骨移植+血管植入法进行治疗,可避免人工关节置换,取得了良好的疗效,开创了股骨头坏死治疗的新局面。