请教在数据挖掘中数据平滑的分箱方法

来源:百度知道 编辑:UC知道 时间:2024/06/20 18:42:50
price 的排序后数据(美元): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34

划分为(等深的)箱:
-箱1: 4, 8, 9, 15
-箱2: 21, 21, 24, 25
-箱3: 26, 28, 29, 34

用箱平均值平滑:
-箱1: 9, 9, 9, 9
-箱2: 23, 23, 23, 23
-箱3: 29, 29, 29, 29

用箱边界值平滑:
-箱1: 4, 4, 4, 15
-箱2: 21, 21, 25, 25
-箱3: 26, 26, 26, 34

用箱边界值平滑具体是如何划分的?请说明

用边界值平滑时,先确定两个边界,然后依次计算除边界值外的其它值与两个边界的距离,与之距离最小的边界确定为平滑边界值。具体如下计算:
-箱1:|8-4|=4;|15-8|=7;故选4做为平滑边界值。
|9-4|=5;|15-9|=6;故选4做为平滑边界值。
-箱2:|21-21|=0;|25-21|=4;故选21做为平滑边界值。
|24-21|=3;|25-24|=1;故选25做为平滑边界值。
-箱3:|28-26|=2;|34-28|=6;故选26做为平滑边界值。
|29-26|=3;|34-29|=5;故选26做为平滑边界值。