机器学习 数据缺失_机器学习之信息缺失
正常的机器学习,分类器通过输入输出数据的训练,来学习到规则,然后得到输入便可以给出输出,下面来个简单的例子输入位两个小数,输出为第一个数字大于第二个数字准备训练和评估数据初始化分类器训练分类器评估网络网络经过1000个数据的训练,可以说正确率已经达到了100%,任务就完成了。但是实际情况却很有很多数据的缺失,例如股票数据训练的时候可以有价格交易量,但是新闻却没办法量化,打牌的时候你知道底牌和自己的
正常的机器学习,分类器通过输入输出数据的训练,来学习到规则,然后得到输入便可以给出输出,下面来个简单的例子
输入位两个小数,输出为第一个数字大于第二个数字
准备训练和评估数据
初始化分类器
训练分类器
评估网络
网络经过1000个数据的训练,可以说正确率已经达到了100%,任务就完成了。但是实际情况却很有很多数据的缺失,例如股票数据训练的时候可以有价格交易量,但是新闻却没办法量化,打牌的时候你知道底牌和自己的牌,但是缺失别人的牌的信息,诸如此类的情况,当然,这种情况就不可能追求100%的准确率了,那此时准确率极限是多少呢,机器学习能不能达到这个极限呢,下面就上面的例子做延申,把训练和评估数据中的第二个数字隐藏,看看最终表现如何
第二个输入置0造成信息缺失
初始化相同的分类器
训练分类器
评估成功率74.6%
学过概率的应该能猜到,75%正确率就是此问题的极限,机器学习确实做到了逼近极限,上面的问题比较理想化,可以知道缺失信息对结果的影响是50%,对于具体问题其实这个影响并不能事先知道,只能通过学习到的极限成功率来反推,以后再讨论这些问题!
信息缺失并且带有作弊信息的情况
上述例子中,75%正确率就是极限了,但是如果我们把作弊信息放入数据会怎么样呢,例如我们把第一个数据的末尾数字作为作弊吗,作弊码为1,就代表结果为真,机器能找到这个作弊信息然后图片75%的极限吗?
修改数据加入作弊码,末尾1代表结果为True
初始化分类器
训练网络,很明显没有突破极限,也许作弊码太难找
我们把作弊码弄的更明显一些
把作弊码放在了第二位数字0.1代表True,和尚头上的虱子
和尚头上的虱子还是比较容易找到
只要分类器找到了作弊码,基本就能轻松突破理论极限,出现这种情况,你就要小心有作弊码被找到了,当然作弊码是否能被找到从而突破极限,是个随机的过程,越明显的作弊码越容易找到,上面那个没找到的作弊码也许多训练几次就能找到!
更多推荐




所有评论(0)