人工智能数学常用公式
yβ0β1x1β2x2⋯βnxnϵyx1x2⋯xnβ0β1⋯βnϵxyβ0β1xϵyxβ1∑i1nxi−xˉ2∑i1nxi−xˉyi−yˉβ0yˉ−β1xˉxˉyˉxy(x1y1x2y2⋯xnyn)β。
·
人工智能常用公式
-
线性回归公式
- 模型公式:y=β0+β1x1+β2x2+⋯+βnxn+ϵy = \beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_nx_n+\epsilony=β0+β1x1+β2x2+⋯+βnxn+ϵ,其中yyy是因变量,x1,x2,⋯ ,xnx_1,x_2,\cdots,x_nx1,x2,⋯,xn是自变量,β0,β1,⋯ ,βn\beta_0,\beta_1,\cdots,\beta_nβ0,β1,⋯,βn是模型的参数,ϵ\epsilonϵ是误差项。例如,在简单的一元线性回归(只有一个自变量xxx)中,y=β0+β1x+ϵy=\beta_0+\beta_1x+\epsilony=β0+β1x+ϵ。如果我们要预测房屋价格(yyy)与房屋面积(xxx)的关系,就可以建立这样的模型。
- 最小二乘法参数估计公式:对于一元线性回归,β^1=∑i=1n(xi−xˉ)(yi−yˉ)∑i=1n(xi−xˉ)2\hat{\beta}_1=\frac{\sum_{i = 1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i = 1}^{n}(x_i - \bar{x})^2}β^1=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ),β^0=yˉ−β^1xˉ\hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}β^0=yˉ−β^1xˉ,其中xˉ\bar{x}xˉ和yˉ\bar{y}yˉ分别是xxx和yyy的样本均值。假设我们有一组数据(x1,y1),(x2,y2),⋯ ,(xn,yn)(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)(x1,y1),(x2,y2),⋯,(xn,yn),通过这些公式可以计算出β0\beta_0β0和β1\beta_1β1的估计值β^0\hat{\beta}_0β^0和β^1\hat{\beta}_1β^1,从而得到回归直线。
-
逻辑回归公式
- 模型公式(二分类):p=11+e−zp = \frac{1}{1 + e^{-z}}p=1+e−z1,其中z=β0+β1x1+⋯+βnxnz=\beta_0+\beta_1x_1+\cdots+\beta_nx_nz=β0+β1x1+⋯+βnxn,ppp是事件发生的概率。例如,在判断一封邮件是否为垃圾邮件(二分类问题)时,x1,x2,⋯ ,xnx_1,x_2,\cdots,x_nx1,x2,⋯,xn可以是邮件中的一些特征(如关键词出现频率等),通过计算得到邮件是垃圾邮件的概率ppp。
- 损失函数(对数损失函数):J(θ)=−1m∑i=1m[yilog(pi)+(1−yi)log(1−pi)]J(\theta)=-\frac{1}{m}\sum_{i = 1}^{m}[y_i\log(p_i)+(1 - y_i)\log(1 - p_i)]J(θ)=−m1∑i=1m[yilog(pi)+(1−yi)log(1−pi)],其中mmm是样本数量,yiy_iyi是样本iii的真实标签(0或1),pip_ipi是模型预测样本iii为正类的概率。在模型训练过程中,通过最小化这个损失函数来优化模型参数θ=(β0,β1,⋯ ,βn)\theta = (\beta_0,\beta_1,\cdots,\beta_n)θ=(β0,β1,⋯,βn)。
-
神经网络公式(以简单的前馈神经网络为例)
- 神经元激活公式:对于第lll层的第jjj个神经元,aj(l)=g(∑i=1nl−1wij(l)ai(l−1)+bj(l))a_j^{(l)}=g(\sum_{i = 1}^{n_l - 1}w_{ij}^{(l)}a_i^{(l - 1)}+b_j^{(l)})aj(l)=g(∑i=1nl−1wij(l)ai(l−1)+bj(l)),其中g(⋅)g(\cdot)g(⋅)是激活函数(如Sigmoid函数、ReLU函数等),wij(l)w_{ij}^{(l)}wij(l)是第l−1l - 1l−1层的第iii个神经元到第lll层的第jjj个神经元的权重,ai(l−1)a_i^{(l - 1)}ai(l−1)是第l−1l - 1l−1层的第iii个神经元的输出,bj(l)b_j^{(l)}bj(l)是第lll层的第jjj个神经元的偏置。例如,在一个简单的三层神经网络(输入层、隐藏层、输出层)中,对于隐藏层的神经元就可以使用这个公式来计算其输出。
- 反向传播公式(以均方误差损失函数为例):∂J∂wij(l)=δj(l)ai(l−1)\frac{\partial J}{\partial w_{ij}^{(l)}}=\delta_j^{(l)}a_i^{(l - 1)}∂wij(l)∂J=δj(l)ai(l−1),其中δj(l)\delta_j^{(l)}δj(l)是第lll层的第jjj个神经元的误差项,对于输出层δj(L)=(aj(L)−yj)g′(zj(L))\delta_j^{(L)}=(a_j^{(L)}-y_j)g^\prime(z_j^{(L)})δj(L)=(aj(L)−yj)g′(zj(L)),对于隐藏层δj(l)=g′(zj(l))∑k=1nl+1wjk(l+1)δk(l+1)\delta_j^{(l)}=g^\prime(z_j^{(l)})\sum_{k = 1}^{n_{l + 1}}w_{jk}^{(l + 1)}\delta_k^{(l + 1)}δj(l)=g′(zj(l))∑k=1nl+1wjk(l+1)δk(l+1)。这些公式用于在训练神经网络时更新权重,根据误差从输出层反向传播到输入层来调整权重,以减小损失函数的值。
-
聚类算法公式(以K - Means为例)
- 质心更新公式:μk=1∣Ck∣∑xi∈Ckxi\mu_k=\frac{1}{|C_k|}\sum_{x_i\in C_k}x_iμk=∣Ck∣1∑xi∈Ckxi,其中μk\mu_kμk是第kkk个聚类的质心,CkC_kCk是属于第kkk个聚类的样本集合,xix_ixi是样本,∣Ck∣|C_k|∣Ck∣是集合CkC_kCk中的样本数量。例如,在一个二维数据的聚类中,假设有两个聚类(k=2k = 2k=2),通过这个公式不断更新每个聚类的质心位置。
- 样本到质心距离公式(常用欧几里得距离):d(xi,μk)=∑j=1n(xij−μkj)2d(x_i,\mu_k)=\sqrt{\sum_{j = 1}^{n}(x_{ij}-\mu_{kj})^2}d(xi,μk)=∑j=1n(xij−μkj)2,其中xijx_{ij}xij是样本xix_ixi的第jjj个特征,μkj\mu_{kj}μkj是第kkk个质心的第jjj个特征。在K - Means算法中,根据这个距离来确定样本属于哪个聚类。
-
主成分分析(PCA)公式
- 协方差矩阵公式:对于数据集X=[x1,x2,⋯ ,xn]X = [x_1,x_2,\cdots,x_n]X=[x1,x2,⋯,xn](xix_ixi是样本向量),协方差矩阵Σ=1n−1XTX\Sigma=\frac{1}{n - 1}X^TXΣ=n−11XTX。例如,对于一个有mmm个特征的数据集,Σ\SigmaΣ是一个m×mm\times mm×m的矩阵,其元素σij\sigma_{ij}σij表示第iii个特征和第jjj个特征之间的协方差。
- 特征值和特征向量公式:求解协方差矩阵Σ\SigmaΣ的特征值λi\lambda_iλi和特征向量viv_ivi,满足Σvi=λivi\Sigma v_i=\lambda_iv_iΣvi=λivi。在PCA中,通过选择特征值较大的特征向量来构建主成分,将高维数据投影到低维空间。例如,选择前kkk个特征值对应的特征向量,将数据从mmm维投影到kkk维空间,投影公式为yi=VkTxiy_i = V_k^Tx_iyi=VkTxi,其中Vk=[v1,v2,⋯ ,vk]V_k = [v_1,v_2,\cdots,v_k]Vk=[v1,v2,⋯,vk]是由kkk个特征向量组成的矩阵。
更多推荐




所有评论(0)