我有一个数据帧列,希望将其拆分为大小相等的桶。此列中的值在0-1之间浮动。大多数数据是倾斜的,因此大多数值都在0.90和1之间。
铲斗10:所有1(此铲斗的大小将不同于2-9和1)铲斗2-9:任何值>;0和<;1(大小相等)铲斗1:所有0(此铲斗的大小将不同于2-9和10)
例子:
| continous_number_col | Bucket |
|---|---|
| 0.001 | 2 |
| 0.95 | 7 |
| 1 | 10 |
| 0 | 1 |
这应该是当我groupBy(“Bucket”)时的样子。Bucket 1和10的计数在这里并不重要,它们只是在自己的Bucket中
| Bucket | Count | Values |
|---|---|---|
| 1 | 1000 | 0 |
| 2 | 75 | 0.01 - 0.50 |
| 3 | 75 | 0.51 - 0.63 |
| 4 | 75 | 0.64 - 0.71 |
| 5 | 75 | 0.72 - 0.83 |
| 6 | 75 | 0.84 - 0.89 |
| 7 | 75 | 0.90 - 0.92 |
| 8 | 75 | 0.93 - 0.95 |
| 9 | 75 | 0.95 - 0.99 |
| 10 | 2000 | 1 |
希望这能为我的工作提供足够的背景。提前感谢。