p=2's Minkowski Dist.
已知绿色和红色集合,评估五边形的类型。
- 设定 k 值
- 评估每个点到五边形的距离并排序
- 寻找出前 k 个最近的点
- 评估其中比例(例如 k = 3,其中 2 个为绿色,1个为红色,则分配至绿色集合)
对于线性回归,由于我们输入的都是数字型的变量,因此假设:
$x_1\in[0, 1]$ $x_2\in[1, 10]$
通常来说,$x_2$ 会影响更多。
因此我们需要对其进行 Normalisation
或者
例如
14 | 70 | Y | |
12 | 90 | N | |
15 | 66 | Y |
- 输入
- 训练集
$(x^{[i]}, y^{[i]})$ - 查询点
$x^{[q]}$ - 参数
$k$
- 训练集
- 输出
- 预估值
- 对于每个训练样例
$x^{[i]}\in \mathbf{x}$ - 计算其与查询点
$x^{[q]}$ 的距离(如果是 Normalisation,则为 normalised distance) - 保持 k 个距离最近的节点
- 计算其与查询点
- 返回最佳值(如果是classification,则为 vote 最多的class,如果是regression则为 avg/median)
对于输入参数的距离处理:
- Numeric:使用距离函数
- Ordinal:转换为Numeric(T->1, F->0)
- Categorical:如果类别相同返回 0,否则返回 1
- 训练简单速度快:只是存储数据
- 基于最相似的数据进行分类
- 使用大量内存
- 如果是多维数据,速度可能慢