KNN算法

K-近邻算法原理

K最近邻(kNN,k-NearestNeighbor)分类算法,见名思意。

我们的目的是要预测某个学生在数学课上的成绩。。。 
先来说明几个基本概念:图中每个点代表一个样本(在这里是指一个学生),横纵坐标代表了特征(到课率,作业质量),不同的形状代表了类别(即:红色代表A(优秀),绿色代表D(不及格))。

我们现在看(10,20)这个点,它就代表着:在数学课上,某个学生到课率是10%,交作业质量是20分,最终导致了他期末考试得了D等级(不佳)。同理,这6个点也就代表了6个往届学生的平时状态和最终成绩,称之为训练样本。。。。

现在要来实现我们的预测目的了,想象一下现在一学期快过完了,张三同学马上要考试了,他想知道自己能考的怎么样,他在数学老师那里查到了自己的到课率85%,作业质量是90,那么怎么实现预测呢?

张三可以看做是(85,90)这个点–也被称之为测试样本,首先,我们计算张三到其他6位同学(训练样本)的距离,点到点的距离相信我们初中就学了吧(一般用的欧氏距离)。

再选取前K个最近的距离,例如我们选择k=3,那么我们就找出距离最近的三个样本分别属于哪个类别,此例中,自然三个都是A等,所以可预测出张三的数学期末成绩可能是A等(优秀)。倘若李四现在也想进行预测,据他较近的3个中两个D,一个A,那么李四的数学期末成绩被预测为D。这也就是最开始所说的:在前k个样本中选择频率最高的类别作为预测类别。。。

总结其计算步骤如下:

好了,经过上诉过程,你是否对KNN算法基本思想有了一定了解。

原理就说到这吧。。。2  K-近邻的优缺点

KNN算法的优点:

1)简单、有效。 

2)重新训练的代价较低(类别体系的变化和训练集的变化,在Web环境和电子商务应用中是很常见的)。 

3)计算时间和空间线性于训练集的规模(在一些场合不算太大)。 

4)由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。 

5)该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

KNN算法缺点:

1)KNN算法是懒散学习方法(lazy learning,基本上不学习),一些积极学习的算法要快很多。 

2)类别评分不是规格化的(不像概率评分)。 

3)输出的可解释性不强,例如决策树的可解释性较强。 

4)该算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。

该算法只计算“最近的”邻居样本,某一类的样本数量很大,那么或者这类样本并不接近目标样本,或者这类样本很靠近目标样本。无论怎样,数量并不能影响运行结果。可以采用权值的方法(和该样本距离小的邻居权值大)来改进。 

5)计算量较大。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。3 K-近邻算法的Python实现

友情提示:本代码是基于Python2.7的,而且需要提前安装numpy函数库(这是我们常用的强大的科学计算包)。。。。

3.1 首先我们介绍一下代码实现步骤:

16+

Comments ( 17 )

  1. Replymsg
    简单的算法你搞得一套一套的,我写的肯定比你好
  2. Replylsd
    。。。。。。
    • Reply小白哒
      嘿嘿嘿
  3. Replylzp
    加油😊,好好学习
  4. Replyjsz
    哈哈(ಡωಡ)hiahiahia,可以呀,加油学习
    1+
    1+
  5. Replycmy123
    嘿嘿(º﹃º )
  6. Reply纯种猪
    。。。。。
  7. Reply小鹿乱撞
    这篇文章不错。看的很明白,继续加油(ง •̀_•́)ง
  8. Replytjmc
    。。。。。
  9. Reply苏苏学姐
    。。。。。
  10. Replysanmao
    路过。。。
  11. Replysuke
    😶😶😶
  12. Replyqyq
    嘿嘿(º﹃º ),写的不错嘛(*๓´╰╯`๓)♡,加油啦啦啦(ง •̀_•́)ง
  13. Reply司镜233
    嘿嘿(º﹃º ),你是谁?
  14. ReplyMarcel
    GOOD!
  15. Reply改个名字
    6666666666666666666666666666666
  16. Reply改个名字
    我的玉玺又被秀儿偷走砸核桃了,,,,,,,,,,,,,,,,,,

Leave a reply

Your email address will not be published.

You may use these HTML tags and attributes:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

13 + 10 =