联结主义人工智能发展史
核心思想是:认为人的智能归结为人脑的高层活动的结果,强调智能活动是由大量简单的单元通过复杂链接后并行运行的结果。弗兰克·罗森布拉特(Frank Rosenblatt)基于 MP 模型再进一步发明并在 IBM-704 计算机上实现了一种新的神经元数学模型,称为感知机模型(Perceptron),现在也将其称为一种单层神经网络,是神经网络和支持向量机的基础,作为早期神经网络研究的一个重要里程碑。即:感
目录
文章目录
1989 年:卷积神经网络(CNN)
1989年,Yann LeCun等人发表论文Backpropagation Applied to Handwritten Zip Code Recognition(反向传播应用于手写邮政编码识别),使用BP算法训练卷积神经网络(CNN)用于手写数字识别。
扬·勒丘恩结合反向传播算法与权值共享的卷积神经层发明了卷积神经网络(CNN),并首次将 CNN 成功应用于美国邮局的手写字符识别系统中。
CNN 通常由输入层、卷积层、池化层和全连接层组成,卷积层负责提取图像中的局部特征,池化层用于降低参数量级,全连接层则输出结果。
CNN 是一种专门用于处理图像数据的神经网络。它通过卷积层、池化层等结构来捕捉图像中的局部特征和空间关系。CNN 在图像分类、目标检测等领域有卓越的性能。
1995 年:支持向量机(SVM)
1990年,Jeffrey Elman发表论文Finding structure in time提出 SRNs(也叫 Elman Networks),其核心概念就是今天所熟知的循环神经网络(RNN)。
1991年,Sepp Hochreiter在他的毕业论文中阐述了梯度消失问题,当梯度通过深度神经网络中的各层反向传播时,它们往往会变得非常小,导致较早的层训练速度非常慢或完全不训练。这个问题在循环神经网络(RNN)和深度前馈网络中尤其严重。
1993年,Geoffrey Hinton发表论文Autoencoders, minimum description length and Helmholtz free energy,发表了关于自编码器(Autoencoders)的研究,自编码器的概念至少在1993年之前就已经存在并被学术界所探讨。
Cortes 和 Vapnik 提出了支持向量机,通过核函数(如高斯核)将数据映射到高维空间,寻找最大间隔超平面进行分类,核函数处理非线性问题。优化目标为:

它在处理小样本、非线性及高维模式识别问题时展现了显著的优势,并能扩展到函数拟合等其他机器学习问题。
SVM 是在感知机基础上的改进,基于统计学习理论的 VC 维理论和结构风险最小化原则,与感知机的主要区别在于 SVM 寻找的是最大化样本间隔的超平面,具有更强的泛化能力,并通过核函数处理线性不可分问题;
1997 年:LSTM 网络
梯度消失问题,网络稍微深一点就会发现训练过程中前面层的参数几乎不更新;
1997年,Sepp Hochreiter和Jürgen Schmidhuber发表了论文Long Short-Term Memory,为了解决RNN的梯度消失问题,提出了LSTM。
1998年,Yann LeCun等人发表论文Gradient-based learning applied to document recognition,改进了之前的CNN,提出了LeNet-5,专为MNIST 数据集手写数字识别而设计,LeNet-5 引入了卷积、池化和激活函数的使用等关键概念,这些概念已成为现代深度学习的基础。
Sepp Hochreiter 和 Jürgen Schmidhuber 提出了长短期记忆网络(LSTM),这是一种复杂的循环神经网络,通过引入遗忘门、输入门和输出门等门控机制来解决 RNN 长序列训练中的梯度消失问题。提升序列建模能力。
1998年,LeCun使用BP算法训练出用于手写数字识别的LeNet-5模型,该模型在多层感知机上加了一层卷积层,是第一个正式的卷积神经网络模型;
2006 年:深度信念网络(DBN)
2006年,Geoffrey Hinton等人发表论文A Fast Learning Algorithm for Deep Belief Nets,提出深度信念网络(DBN)。这篇论文被认为是近代的深度学习方法的开始。
同年,还是Geoffrey Hinton等人发表论文Reducing the Dimensionality of Data with Neural Networks,提出深度自编码器。这两篇论文都提出深层网络训练中梯度消失问题的解决方案:逐层贪心预训练,即通过无监督预训练对权值进行初始化+有监督训练微调。
2006年Hinton提出了深度信念网络(DBN),通过pretraining的方法实现了训练五层神经网络,掀开了深度学习神经网络复兴的序幕;
学界认为AI第三次浪潮源于2006年Hinton提出的“深度信念网络模型”,这种网络能使用‘贪婪逐层预训练’的策略对模型进行高效训练并快速收敛。这使得之前不可能被有效训练地深度神经网络变得可被训练,大大提升了模型训练效率和输出的准确性,验证了“深度学习”的可行性。
Hinton提出的“深度信念网络”使用“贪婪逐层预训练”的策略,使得训练深度神经网络模型成为可能,大大促进了深度学习的发展。
杰弗里·辛顿(Geoffrey Hinton)和他的学生鲁斯兰·萨拉赫丁诺夫正式提出了深度信念网络(DBN)的概念,采用受限玻尔兹曼机(RBM)对多层神经网络进行逐层预训练,通过对比散度算法调整权重,解决梯度消失问题和深层网络初始化难题。为深层网络训练提供可行方案。
开启了深度学习在学术界和工业界的浪潮,辛顿也因此被誉为深度学习之父。深度学习使用多层隐藏层网络结构,通过大量的向量计算来学习数据的高阶表示。
深度学习是一种机器学习技术,它使用深层神经网络来模拟人脑的学习过程。深度学习通过构建多层次的神经网络结构,能够自动地提取数据的特征并进行复杂的模式识别。深度学习在自然语言处理、计算机视觉等领域取得了重大突破。
2006年Hinton首次实现了5层神经网络的训练,之后行业迎来爆发式发展,不断验证了该技术的潜力。
工程实践中,参数是由数据驱动调整、并在训练过程中自动生成的,训练者需要调节的是“超参数”。区别于传统模式识别方式,深度学习从大数据中自动学习特征,并能自动地将简单特征组合成更加复杂的特征,进而使用组合特征解决问题。本质上深度学习与大脑皮层认知过程类似,深度学习是一个多层传递、不断抽象的过程,从底层模拟人脑机制。

在2009年,带着“Data will redefine how we think about models”的理念,华人计算机科学家李飞飞在WordNet的基础上,利用Amazon的众包服务为一个具有1200万张图片的数据集打上了人工的标签,并组织了每年一度的ImageNet挑战赛。
在2012年时,辛顿带领学生Alex Krizhevsky和Ilya Sutskever用Alexnet深度神经网络以极大的优势战胜了当时所有的竞争对手。Alexnet的横空出世可谓是天时地利人和,将深度卷积神经网络这个模型,利用当时先进的GPU计算能力,应用到大量数据Imagenet上,才获得了成功。这使得深度神经网络一战成名,正式宣布深度学习时代的到来。
2012年之后,在生成学习领域也出现了快速的发展,2014年的Generative Adversarial Network,Variational Autoencoder,2015年的Flow Models,Diffusion Models,2017年的Self-Attention机制和Transformer接踵出现,催生了2022年的ChatGPT,最终到2024年国内外的大火的DeepSeek R1。
可以看到在这场现代生成模型的浪潮中,玻尔兹曼机的身影逐渐消失了。具体的原因是现代的生成模型从模型的角度上解决了玻尔兹曼机的配分函数计算以及采样这两个难题。

深度置信网络是神经网络的一种。既可以用于非监督学习,也可以用于监督学习。深度置信网络组成元件是受限玻尔兹曼机。通过下图的网络结构,我们可以看出深度置信网络和受限玻尔兹曼机的关系:
训练深度置信网络由两部分组成。一是单独训练每一个受限玻尔兹曼机,使它们收敛。二是将每一个受限玻尔兹曼机深入展开,构成一个前向传播的深层网络。然后使用BP算法微调参数,从而使整个网络收敛。
深度神经网络始于 2006 年,亨顿解决了局部最优解问题,将隐含层数提高到7层,让ANN具备真正意义上的“深度”。随着隐含层数的增加,损失函数会出现很多局部最小值,寻找损失函数的最优解变得越来越困难。2006年,连接主义的领军者Hinton提出了深度信念网络,利用预训练方法在一定程度上解决了局部最优解的挑战,使神经网络的能力大大提高。

2010 年:迁移学习
Sinno Jialin Pan 和 Qiang Yang 发表了关于迁移学习的调查文章。迁移学习是利用已有知识(如训练好的网络权重)来学习新知识以适应特定目标任务的方法,核心在于找到已有知识和新知识之间的相似性。
2012 年:AlexNet 与卷积神经网络(CNN)
2012年,Hinton在ImageNet比赛中使用深度卷积神经网络模型AlexNet,成功将图片识别错误率降低了10.8pcts,深度学习神经网络发展迎来高峰期。
李飞飞团队所贡献的ImageNet,李飞飞从互联网上下载了1400万张图片,想要手工对这些图片进行标注类别,他们原来预计要10多年才能完成的标注任务,通过互联网的众包模式两年就完成了。ImageNet最开始出现在行业内并没有引起太多的注意,李飞飞就索性自己搞起了竞赛,邀请人工智能的团队来对ImageNet中挑选出来的数据进行分类比赛,以此来推广自己的ImageNet和新的人工智能算法。前两届都是传统的人工智能算法SVM支持向量机获得了胜利,正当李飞飞团队感到有些泄气的时候,2012年的第3届,这次的结果就有些不一样了,有一个团队用一个叫AlexNet的CNN卷积神经网络取得了第一名,而且准确率比上一年的最好成绩足足提高了10%。
2013年12月19日,Google DeepMind发表论文Playing Atari with Deep Reinforcement Learning,提出了Deep Q-Network (DQN),将深度学习与强化学习相结合。DQN通过使用卷积神经网络 (CNN) 估计Q值,成功在Atari游戏中实现了超越人类的表现。DQN对人工智能和自动化控制系统产生了深远影响。
2013年12月20日,Kingma和Welling发表论文Auto-Encoding Variational Bayes,提出了变分自编码器(VAE),展示了一种结合贝叶斯推理和深度学习的生成模型。VAE通过编码器-解码器结构学习数据的潜在表示,并能够生成新样本。VAE在图像生成、异常检测、数据压缩等领域取得显著成果。其创新方法为生成模型提供了概率框架,推动了深度学习在生成任务中的应用和发展。
2014年6月10日,Ian Goodfellow等人发表论文Generative Adversarial Nets提出生成对抗网络(GAN),在图像生成、图像修复、超分辨率等领域取得了显著成果,为生成模型带来了新的方向。

行业界认为人工智能的第三次复兴起源于2012年的ImageNet挑战赛,比赛中Hinton的研究小组采用深度学习算法成功地将图片识别错误率降低了10.8pcts。
2012年,Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton的AlexNet在ImageNet 大规模视觉识别挑战赛 (ILSVRC)中取得了巨大成功,首次采用ReLU激活函数,从根本上解决了梯度消失问题,于是抛弃了预训练+微调的方法,完全采用有监督训练。AlexNet展示了卷积神经网络 (CNN) 的强大功能,并标志着计算机视觉的转折点,普及了深度学习技术。

2012年Hinton在ImageNet挑战赛中引进深度学习算法,在随后几年内,深度学习成功地大幅降低了图片识别错误率,随后行业迎来爆发式发展,深度学习的商用进程得以加速。
Hinton 和他的学生 Alex Krizhevsky 设计的 AlexNet 神经网络模型在 ImageNet 竞赛大获全胜,第一个深度神经网络算法,这是史上第一次有模型在 ImageNet 数据集表现如此出色,并引爆了神经网络的研究热情。
AlexNet 是一个经典的卷积神经网络(CNN)模型,主要应用于计算机视觉领域。在数据、算法及算力层面均有较大改进,创新地应用了 Data Augmentation、ReLU、Dropout 和 LRN 等方法,并使用 GPU 加速网络训练。
大数据的出现在很大程度上缓解了训练过拟合的问题。互联网及互联网企业在此轮AI爆发中起到决定性作用,其生产经营活动中创造并积累了大量数据,更激活了整个社会的数据意识。
使用 ReLU 激活函数加速收敛,引入 Dropout 层随机屏蔽神经元防止过拟合,并应用了 GPU 加速训练,使其在 ImageNet 竞赛中实现 Top-5 错误率 15.3% 的突破。

AlexNet神经网络模型是一种深度卷积神经网络模型,它在2012年的ImageNet图像分类竞赛中取得了显著的成绩。AlexNet通过引入ReLU激活函数、Dropout等技术,提高了神经网络的性能和泛化能力。
杰弗里·辛顿第二次将神经网络带出了寒冬,这次神经网络的发展来势凶猛;2012年被称为神经网络元年,2015年出现残差网络,2017年transformer架构提出,2018年基于transformer架构的GPT-1推出,2020年推出1750亿参数的GPT3,2022年推出基于GPT-3.5的ChatGPT为大众所熟知
2013 年:变分自编码器
Durk Kingma 和 Max Welling 在 ICLR 上以文章《Auto-Encoding Variational Bayes》提出变分自编码器(Variational Auto-Encoder,VAE)。
VAE 基本思路是将真实样本通过编码器网络变换成一个理想的数据分布,然后把数据分布再传递给解码器网络,构造出生成样本,模型训练学习的过程是使生成样本与真实样本足够接近。
2014 年:生成对抗网络
Goodfellow 及 Bengio 等人提出生成对抗网络(Generative Adversarial Network,GAN),被誉为近年来最酷炫的神经网络。
GAN 是基于强化学习(RL)思路设计的,由生成网络(Generator, G)和判别网络(Discriminator, D)两部分组成:
- 生成网络构成一个映射函数 G: Z→X(输入噪声 z, 输出生成的伪造数据 x)
- 判别网络判别输入是来自真实数据还是生成网络生成的数据
在这样训练的博弈过程中,提高两个模型的生成能力和判别能力。
生成对抗网络是一种深度学习模型,它由生成器和判别器两个网络组成。生成器负责生成逼真的数据样本,而判别器则负责区分真实数据和生成数据。GAN在图像生成、视频合成等领域有广泛的应用。
2014年6月24日,Google DeepMind发表Recurrent Models of Visual Attention,使得注意力机制(Attention Mechanism)开始受到广泛关注。该论文采用了循环神经网络(RNN)模型,并集成了注意力机制来处理图像分类任务,开创了将注意力机制应用于深度学习模型的先河。
2014年9月1日,Dzmitry Bahdanau、KyungHyun Cho 和 Yoshua Bengio 发表论文Neural Machine Translation by Jointly Learning to Align and Translate,将注意力机制(Attention Mechanism)引入机器翻译,以提高长序列处理能力。它在机器翻译的历史中标志着一个重要的转折点。
2015 年:深度学习的联合综述《Deep learning》
为纪念人工智能概念提出 60 周年,深度学习三巨头 LeCun、Bengio 和 Hinton(他们于 2018 年共同获得了图灵奖)推出了深度学习的联合综述《Deep learning》。
文中指出深度学习就是一种特征学习方法,把原始数据通过一些简单的但是非线性的模型转变成为更高层次及抽象的表达,能够强化输入数据的区分能力。通过足够多的转换的组合,非常复杂的函数也可以被学习。
深度学习的成功来自于以下 3 个要素:
- 一是数据,以 AlphaGo 为例,其中 AlphaGo-Zero 通过强化学习自学了亿级的棋局,而人类在千年的围棋史中,下过的有效棋局只不过 3000 万盘。
- 二是算法,包括蒙特卡洛树搜索(Monte-Carlotreesearch)、深度学习和强化学习(reinforcementlearning) 等。
- 三是算力,运行 AlphaGo 的机器是由 1920 个 CPU 和 280 个 GPU 组成的分布系统。因此第二代 AI 又称数据驱动方法。
在创建第二代 AI 中做出重大贡献的学者中,有以下 5 位获得图灵奖。他们是菲丽恩特(L. G. Valiant,2010)、珀尔(J. Pearl,2011)、本杰奥(Y. Bengio,2018)、辛顿(G. Hinton,2018)、杨立昆(Y. LeCun,2018)等。

2015 年:ResNet 残差网络
2015年12月10日,何凯明等人发表论文Deep Residual Learning for Image Recognition,提出了ResNet(残差网络),展示了一种通过残差连接解决深层神经网络训练难题的方法。ResNet在ILSVRC 2015竞赛中获得冠军,显著提高了深度学习模型的性能和可训练性。其创新架构允许构建更深的网络,推动了图像识别、目标检测等计算机视觉任务的发展,成为深度学习领域的重要基石。
Microsoft Research 的 Kaiming He 等人提出的残差网络(ResNet)在 ImageNet 大规模视觉识别竞赛中获得了图像分类和物体识别的优胜。残差网络的主要贡献是发现了网络不恒等变换导致的 “退化现象(Degradation)”,并针对退化现象引入了 “快捷连接(Shortcut connection)”,缓解了在深度神经网络中增加深度带来的梯度消失问题。支持多达千层的深度网络训练。

残差网络(ResNet):是一种深度卷积神经网络模型,它通过引入残差连接来解决深层神经网络中的梯度消失和梯度爆炸问题。ResNet在图像分类、目标检测等任务中取得了优异的性能。
2015年-2016年,Google,Facebook相继推出TensorFlow、PyTorch 和 Keras,极大地促进了深度学习研究和应用的发展,使得复杂的神经网络模型的开发和训练变得更加便捷和高效。
2016年:Google DeepMind开发的AlphaGo击败了围棋世界冠军李世石,展示了深度强化学习的潜力。
2017 年:Transformer 架构
2017年,Google Brain发表了Attention is All You Need,提出了Transformer,彻底放弃了传统的循环神经网络(RNN)和卷积神经网络(CNN)结构,转而完全采用注意力机制来执行机器翻译任务。这一创新犹如火星撞地球一般迅速横扫了整个自然语言处理学术界。彻底改变了自然语言处理(NLP)领域。对后续的BERT、GPT等模型产生了深远影响。

Google 的 Vaswani 等人发明了 Transformer 架构。
Transformer 架构基于自注意力机制(Self-Attention),计算输入序列中每个位置的关系权重如下,并行化处理序列数据,取代 RNN 的时序依赖,成为 GPT 和 BERT 等 AI 模型的核心。

OpenAI 团队,基于 Transformer 的生成式预训练(GPT-3.5 架构),使用人类反馈强化学习(RLHF)对齐模型输出与人类价值观,参数量达 1750 亿,支持多轮对话和复杂任务推理。被称为大模型。
2018年6月,OpenAI 发表了Improving Language Understanding by Generative Pre-Training,提出了GPT,这是一个具有里程碑意义的大规模预训练模型。
2018年10月11日,Google AI Language发表了BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,提出了BERT,GPT 和 BERT,它们分别使用自回归语言建模和自编码语言建模作为预训练目标。所有后续的大规模预训练模型都是这两个模型的变体。

2020年10月22日,Google团队发表An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale,提出了Vision Transformer(ViT),虽然不是第一篇将Transformer应用在视觉任务的论文,但是因为其模型“简单”且效果好,可扩展性强(scalable,模型越大效果越好),成为了transformer在CV领域应用的里程碑著作,也引爆了后续相关研究。
2021年2月26日,OpenAI发表了Learning Transferable Visual Models From Natural Language Supervision,提出了CLIP,通过对比学习方法,将图像与自然语言文本进行配对,实现了多模态学习。具备零样本学习能力。为多模态AI的研究和应用奠定了基础,推动了图像生成、理解和交互等领域的发展。
2021年7月15日和7月22日,Google DeepMind在Natrue分别发表论文Highly accurate protein structure prediction with AlphaFold,Highly accurate protein structure prediction for the human proteome,发布了AlphaFold 2,AlphaFold 2在第十四届国际蛋白质结构预测竞赛(CASP)上取得惊人的准确度,多数预测模型与实验测得的蛋白质结构模型高度一致,引起举世瞩目。对生物医学研究、药物设计和生命科学产生了深远影响。
2022年12月20日,Stability AI发表论文High-Resolution Image Synthesis with Latent Diffusion Models,发布了完全开源的Stable Diffusion,展示了一种利用扩散过程生成图像的方法,是AI绘画领域的一个核心模型,能够进行文生图(txt2img)和图生图(img2img)等图像生成任务。

2022年7月12日,David Holz发布了Midjourney,一个基于生成对抗网络(GANs)和深度学习的AI平台,通过用户提供的文本描述生成高质量图像。
2022年11月30日,OpenAI发布了GPT-3.5,其产品ChatGPT瞬间成为全球爆品。引起了全球学术界和工业界的大语言模型热潮。以ChatGPT为代表的大语言模型向世人展露出了前所未有的能力。一大波大语言、多模态的预训练模型如雨后春笋般迅速出现。
2023年12月1日,Albert Gu和Tri Dao发表了论文Mamba: Linear-Time Sequence Modeling with Selective State Spaces,提出了Mamba,这是一种新的不同于Transformer的处理长序列数据的神经网络架构,能够在保持高效率的同时,提供出色的性能。对于需要处理大量数据的应用场景,如自然语言处理、语音识别和生物信息学等领域,具有重要的实际应用价值。

2024 年:MOE 专家架构
参考文档
- https://mp.weixin.qq.com/s/S5D6YSsWw2bdUyKMYjwTdg
- https://mp.weixin.qq.com/s/QD-nHjUAQwtijGx_s8VLrQ
- https://zhuanlan.zhihu.com/p/18014930527
- https://mp.weixin.qq.com/s/TfwA4x8dU_rMhC0fuE-xYw
- https://zhuanlan.zhihu.com/p/18014930527
更多推荐




所有评论(0)