论文部分内容阅读
距离的度量方法是影响K近邻分类算法的最重要因素,普通的欧式距离度量方法只对数值敏感无法反映数据内部的关联,对此在K近邻文本分类中引入一种大边界最近邻(LMNN)距离度量学习算法,并针对此算法会加剧数据密度分布不均的情况,提出一种改进的基于样本密度的大边界最近邻文本分类算法(DLMNNC)。该算法首先利用LMNN完成对样本集的训练得到映射矩阵L对原数据空间进行重构,然后为了解决LMNN算法可能会加剧样本分布不均匀的问题定义一个密度函数D,最后用密度函数结合K近邻决策条件,实现文本分类。实验证明DLMN