论文部分内容阅读
非数值化特征经常出现在数据中,对其有效编码是采用机器学习模型解决问题的关键。针对目前被广泛使用的one-hot编码方法的编码结果具有较大的稀疏性,并且编码出的数值仍然没有明确的物理意义等问题,提出一种基于条件概率的区域划分编码算法CZT(conditional-probability-based zone transformation coding)。该方法首先对特征进行条件概率计算,并依据条件概率划分特征区域,按照区域内的联合条件概率进行编码;然后将CZT编码算法与one-hot算法进行对比分析,