[Spark/ML] 特征取值分布与特征分桶_spark ml 特征处理 连续性特征分段-CSDN博客

网站介绍:文章浏览阅读1.7k次,点赞2次,收藏3次。[Spark/ML] 特征取值分布与特征分桶2020/10/17分桶将连续型特征离散化为离散特征。当数值特征跨越不同的数量级时,模型可能会只对大的特征值敏感,这种情况可以考虑分桶操作。分桶后得到的稀疏向量,内积乘法运算速度更快,计算结果更方便存储;对异常数据有很强的鲁棒性分桶方法等频分桶每个桶内的数据量严格相等,可能存在的问题是同一个桶内的数据取值差异较大。等距分桶根据值域等距截取,相同数值范围内的数据落入同一个桶。适用于数据分布均匀的情况,否则可能会导致各个桶内数据量不均_spark ml 特征处理 连续性特征分段