kNN模型是一种非参数模型,它用数据本身来表示模型。kNN分类中对于待分类的数据点,寻找其周围最近的个已知样例,以其中多数的类别为分类结果
1NN分类器的判别边界是Voronoi剖分形成的多个线段的连接
这样将形成一张Voronoi图。如果对于距离的定义不一样,形成的Voronoi图也不一样,如
汉明距离:对于二进制数据,定义其汉明距离为不同二进制位的数目
数据各个维度的取值范围可能不一样,为了规避这种影响,需要对每一个维度进行归一化
马氏距离:考虑数据的协方差,适合维度间存在相关性的场景。设为数据各个维度的协方差矩阵,则马氏距离定义为
马氏距离是一种距离的度量,可以看作是欧氏距离的一种修正,修正了欧式距离中各个维度尺度不一致且相关的问题
在高维空间中,最接近的数据点之间的距离通常并不小, 并没有足够多的近距离数据点,称为维数灾难
本文作者:GBwater
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!