编辑
2024-12-16
机器学习
0
请注意,本文编写于 124 天前,最后修改于 123 天前,其中某些信息可能已经过时。

目录

k近邻分类
1NN分类器
常见距离度量
维数灾难

k近邻分类

kNN模型是一种非参数模型,它用数据本身来表示模型。kNN分类中对于待分类的数据点,寻找其周围最近的kk个已知样例,以其中多数的类别为分类结果

1NN分类器

1NN分类器的判别边界是Voronoi剖分形成的多个线段的连接

image.png

这样将形成一张Voronoi图。如果对于距离的定义不一样,形成的Voronoi图也不一样,如

image.png

常见距离度量

  • 通常使用闵可夫斯基距离
Lp(u,v)=(iuivip)1pL^p(u,v)=\left(\sum_i|u_i-v_i|^p\right)^{\dfrac1p}
  • 汉明距离:对于二进制数据,定义其汉明距离为不同二进制位的数目

  • 数据各个维度的取值范围可能不一样,为了规避这种影响,需要对每一个维度进行归一化

  • 马氏距离:考虑数据的协方差,适合维度间存在相关性的场景。设\sum为数据各个维度的协方差矩阵,则马氏距离定义为

d=(xjxp)T1(xjxp)d=\sqrt{(x_j-x_p)^T{\sum}^{-1}(x_j-x_p)}

马氏距离是一种距离的度量,可以看作是欧氏距离的一种修正,修正了欧式距离中各个维度尺度不一致且相关的问题

维数灾难

在高维空间中,最接近的数据点之间的距离通常并不小, 并没有足够多的近距离数据点,称为维数灾难

本文作者:GBwater

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!