人工智能10大算法-CNN(Convolutional Neural Networks)-笔记
CNN目的:提特征Pooling池化目的:降采样(subsample),减小参数(防止过拟合)减少输入图片大小也使得神经网络可以经受一点图片平移,不收位置的影响有大小、步长、padding类型池化神经元没有权重值,只有取最大或者求平均...
·
卷积(CNN)
目的:提特征
CNN架构

池化(Pooling)
Dropout
权值共享
池化目的:
- 降采样(subsample),减小参数(防止过拟合)
- 减少输入图片大小也使得神经网络可以经受一点图片平移,不受位置的影响
- 有
大小、步长、padding类型 - 池化神经元没有权重值,只有
取最大或者求平均
为什么卷积层的W参数少
- 局部连接
- 权值共享
Reverse-mode Autodiff
- 因为
n7是输出节点,所以f=n7,所以αfαn7=1\frac{\alpha_f}{\alpha_n7}=1αn7αf=1 n5节点,αfαn5=αfαn7∗αn7αn5=1∗αn7αn5\frac{\alpha_f}{\alpha_n5}=\frac{\alpha_f}{\alpha_n7}*\frac{\alpha_n7}{\alpha_n5}=1*\frac{\alpha_n7}{\alpha_n5}αn5αf=αn7αf∗αn5αn7=1∗αn5αn7,因为n7 = n5 + n6,所以αn7αn5=1\frac{\alpha_n7}{\alpha_n5}=1αn5αn7=1,
所以αfαn5=1∗1=1\frac{\alpha_f}{\alpha_n5}=1*1=1αn5αf=1∗1=1n4节点,αfαn4=αfαn5∗αn5αn4=1∗αn5αn4\frac{\alpha_f}{\alpha_n4}=\frac{\alpha_f}{\alpha_n5}*\frac{\alpha_n5}{\alpha_n4}=1*\frac{\alpha_n5}{\alpha_n4}αn4αf=αn5αf∗αn4αn5=1∗αn4αn5,因为n5 = n4 * n2,所以αfαn4=1∗n2=4\frac{\alpha_f}{\alpha_n4}=1*n2=4αn4αf=1∗n2=4- αfαx=αfαn4∗αn4αx=4∗2∗n1=24\frac{\alpha_f}{\alpha_x}=\frac{\alpha_f}{\alpha_n4}*\frac{\alpha_n4}{\alpha_x}=4*2*n1=24αxαf=αn4αf∗αxαn4=4∗2∗n1=24
- αfαy=αfαn5∗αn5αn2+αfαn6∗αn6αn2=1∗n4+1∗1=9+1=10\frac{\alpha_f}{\alpha_y}=\frac{\alpha_f}{\alpha_n5}*\frac{\alpha_n5}{\alpha_n2} + \frac{\alpha_f}{\alpha_n6}*\frac{\alpha_n6}{\alpha_n2}=1*n4 + 1*1 = 9 + 1 =10αyαf=αn5αf∗αn2αn5+αn6αf∗αn2αn6=1∗n4+1∗1=9+1=10

反向传播(Backpropagation)
- 令
y=1.00 - w−1=−0.53=y∗d1x=1.00∗−1x2=1.00∗−11.372w_{-1} =-0.53=y*d{\frac{1}{x}}=1.00*-\frac{1}{x^2}=1.00*-\frac{1}{1.37^2}w−1=−0.53=y∗dx1=1.00∗−x21=1.00∗−1.3721,这里的
x=1.37 - w−2=−0.53=w−1∗dx+1=−0.53∗1=−0.53w_{-2} =-0.53=w_{-1}*d{x+1}=-0.53*1=-0.53w−2=−0.53=w−1∗dx+1=−0.53∗1=−0.53,这里的
x=0.37 - w−3=−0.20=w−2∗dex=−0.53∗−(1/e)w_{-3}=-0.20=w_{-2}*d{e^x}=-0.53*-(1/e)w−3=−0.20=w−2∗dex=−0.53∗−(1/e),这里的
x=-1.00 - w−4=0.20=w−3∗dx∗(−1)=0.2w_{-4}=0.20=w_{-3}*dx*(-1)=0.2w−4=0.20=w−3∗dx∗(−1)=0.2,这里的
x=1.00,不过不需要知道是多少,也可以求导 - w−5a=w−4∗dxa(xa+xb)=w−4∗1=0.20w_{-5a}=w_{-4}*d^{x_a}(x_a+x_b)=w_{-4}*1=0.20w−5a=w−4∗dxa(xa+xb)=w−4∗1=0.20
- w−5b=w−4∗dxb(xa+xb)=w−4∗1=0.20w_{-5b}=w_{-4}*d^{x_b}(x_a+x_b)=w_{-4}*1=0.20w−5b=w−4∗dxb(xa+xb)=w−4∗1=0.20
- w−6a1=w−5a∗dxa1(xa1+xa2)=w−5a=0.20w_{-6a_1}=w_{-5a}*d^{x_a1}(x_a1+x_a2)=w_{-5a}=0.20w−6a1=w−5a∗dxa1(xa1+xa2)=w−5a=0.20
- w−6a2=w−5a∗dxa2(xa1+xa2)=w−5a=0.20w_{-6a_2}=w_{-5a}*d^{x_a2}(x_a1+x_a2)=w_{-5a}=0.20w−6a2=w−5a∗dxa2(xa1+xa2)=w−5a=0.20
- w−7a11=w−6a1∗dw0(w0∗x0)=−0.20w_{-7a_{11}}=w_{-6a_1}*d^{w_0}(w0*x0)=-0.20w−7a11=w−6a1∗dw0(w0∗x0)=−0.20,这里的
x0=-1.00 - w−7a12=w−6a1∗dx0(w0∗x0)=0.4w_{-7a_{12}}=w_{-6a_1}*d^{x0}(w0*x0)=0.4w−7a12=w−6a1∗dx0(w0∗x0)=0.4,这里的
w0=2.00 - w−7a21=w−6a1∗dw1(w1∗x1)=−0.40w_{-7a_{21}}=w_{-6a_1}*d^{w1}(w1*x1)=-0.40w−7a21=w−6a1∗dw1(w1∗x1)=−0.40,这里的
x1=-2.00 - w−722=w−6a1∗dx1(w1∗x1)=−0.60w_{-7_{22}}=w_{-6a_1}*d^{x1}(w1*x1)=-0.60w−722=w−6a1∗dx1(w1∗x1)=−0.60,这里的
w1=-3.00
VGG16
待补充
Sigmode函数
f(x)=11+e−xf_{(x)}=\frac{1}{1+e^{-x}}f(x)=1+e−x1
图像
Tanh函数
f(x)=ex−e−xex+e−xf_{(x)}=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}f(x)=ex+e−xex−e−x
图像
Tanh函数的导数
f(x)/=1−[f(x)]2f^/_{(x)}=1-[f_{(x)}]^{2}f(x)/=1−[f(x)]2
Relu函数
有缺点
梯度消失
梯度爆炸(弥散)
正则化
归一化
EalyStopping
防止过拟合
Batch Normalization(批量归一化)
目的:
1.减轻梯度弥散
2. 对权重初始化不那么敏感
3. 可以使用大一点的学习率来提速
4. 是一种正则化,提高泛化能力,就没必要使用Dropout了
更多推荐




所有评论(0)