基于改进Tri-training算法的中文问句分类

来源 :安徽工业大学学报:自然科学版 | 被引量 : 0次 | 上传用户:along0429
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
原始Tri-training算法对有标记的数据集通过随机采样方法,形成3个训练集去训练3个分类器。但是由这种随机采样形成的训练集中,可能出现有标记数据集中的不同类别数据数量相差较大,从而导致训练集中样本类别不平衡问题,影响分类器的分类正确率。本文通过分类采样对Tri-training算法的随机采样方法进行改进,根据该改进的Tri-training算法,建立分类模型,并利用其对哈工大中文问句集和本文扩展问句集进行分类实验。结果表明,本文算法有良好的适应性,且分类正确率明显提高;适当增大训练集和未标记样本数据
其他文献
使用AFS-230E双道原子荧光光度计采用氢化物发生法测定化妆品中铅含量。探讨实验中仪器负高压、灯电流等最佳工作参数和最佳测量条件(如酸的种类及含量,NaBH4含量等)。研究氧化
机械球磨制备的2MgH2-Si试样在573 K下1 500 min内放氢质量分数为3.67%,放氢平台压高达1.075 MPa。Si的添加不但改善了MgH2的放氢热力学性能,而且也提高了放氢动力学性能。为
油藏非均质性是造成目前水驱油藏开发效果差,剩余油分布零散的主要原因,为弱化油藏非均质性的负面影响,人们考虑提出部署矢量化井网。矢量化井网强调井网应与油藏的非均质性相适
在我们每一个兰台人的心中,梦想就是在平凡的岗位上为档案事业的发展作出不平凡的贡献!我生命的主题永远是档案。
笔者研究了32种低质粉煤灰(JIS标准规定的Ⅲ级灰和非标准灰).根据反复试验的结果,选择了用10%-30%的粉煤灰取代水泥,在80℃的氢氧化钠溶液中浸泡14天的方法(该方法是ASTM标准
将经CSP流程生产的、w(Si+Al)=1.0%为基的冷轧无取向电工钢,在MULTIPAS模拟器上进行连续退火工艺模拟实验。结果表明:该钢种的热轧板卷经过压下率约75%的冷轧,得到的冷轧,板完全