非独立同分布下数值型数据的KNN算法改进

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:chuan9931
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为挖掘数据的非独立同分布关系并解决传统KNN算法中存在的分类结果不准确的问题,提出一种非独立同分布下数值型数据的KNN改进算法。利用Pearson相关系数公式得出耦合相似度矩阵,通过该耦合相似度矩阵计算样本的类隶属度,通过ReliefF算法思想进行特征权重的计算,根据训练样本的类隶属度和特征权重更新类别决策规则,确定待分类样本的类别。对多个UCI数据集的验证结果表明,该算法能够有效提高分类准确率。
其他文献
针对机会网络中存在自私节点导致消息的传送成功率偏低、开销大、延迟高,考虑到节点在其社会属性存在的情况下,提出基于陌生节点的竞争转发算法—BSCP(based on stranger competition algorithm)。重点分析消息转发过程中利用节点的属性制定相应的转发策略,通过节点的陌生性,设置陌生节点在整个环境中的比例值,计算节点相遇的最大陌生值并排序,设计节点竞争策略使得数据转发成功率提高。仿真验证了BSCP算法的有效性,与STRON、Epidemic及BSIF等算法相比,该算法能有效保证消
传统的低阶特征模型不能充分利用大数据,从多个维度描述数据和用户。专注于高阶特征提取,结合显式和隐式特征交互的点击率预估模型可以利用好大数据的特点。使用Tensorflow框架搭建包含深度神经网络、因子压缩交互网络和多重特征自交互网络结构的模型,使用淘宝展示广告点击率预估数据集进行训练。模型采用对数损失值和ROC曲线下面积作为评价指标,与原始的LR、FM、Deep&Wide等典型模型进行比较,对数损失值降低了0.04,AUC值提高了0.05左右。