清明后，必读的5篇大模型论文

学术头条

823人浏览 · 2024-04-07 14:42:01

学术头条 · 2024-04-07 14:42:01 发布

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

1.斯坦福提出语言模型微调新方法ReFT

参数高效微调（PEFT）方法试图通过更新少量权重来调整大模型。然而，之前的许多可解释性研究表明，表征可以编码丰富的语义信息，这表明编辑表征可能是一种更强大的替代方法。

为此，来自斯坦福大学和 Pr(Ai)²R Group 的研究团队通过开发一系列表征微调（ReFT）方法来实现这一假设。

据介绍，ReFT 方法在冻结的基础模型上运行，并学习针对特定任务对隐藏表征的干预。他们定义了 ReFT 系列的一个强实例，即低秩线性子空间 ReFT（LoReFT）。LoReFT 可直接替代现有的 PEFT，其学习干预的参数效率是之前 SOTA PEFT 的 10-50 倍。在八项常识推理任务、四项算术推理任务、Alpaca-Eval v1.0 和 GLUE 上，LoReFT 在效率和性能之间实现了最佳平衡，几乎总是优于最先进的 PEFT。

论文链接：
https://arxiv.org/abs/2404.03592
GitHub 链接：
https://github.com/stanfordnlp/pyreft

2.Google DeepMind 新研究：通过神经压缩文本训练 LLM

来自 Google DeepMind 和 Anthropic 的研究团队探讨了在高度压缩文本上训练大型语言模型（LLM）的想法。

标准的分词 tokenizer 只能将文本压缩一小部分，而神经文本压缩器可以实现更高的压缩率。如果有可能直接在神经压缩文本上训练 LLM，这将在训练和服务效率方面带来优势，且更容易处理长文本跨度。实现这一目标的主要障碍在于，强压缩往往会产生不透明的输出，不适合学习。特别是，通过算术编码进行压缩的文本不容易被 LLM 学习。

为了克服这一问题，研究团队提出了一种新颖的压缩技术“等信息窗口”（Equal-Info Windows），它将文本分割成多个区块，每个区块压缩成相同的比特长度。利用这种方法，他们展示了对神经压缩文本的有效学习，学习效果随着规模的扩大而提高，并在易错性和推理速度基准上远远超过了字节级基准。

对于使用相同参数数量训练的模型，这一方法比分词 tokenizer 的迷惑性更差，但它的优点是序列长度更短。较短的序列长度需要较少的自回归生成步骤，从而减少了延迟。最后，他们对有助于提高可学习性的特性进行了广泛分析，并就如何进一步提高高压缩标记化器的性能提出了具体建议。

论文链接：
https://arxiv.org/abs/2404.03626

3.RALL-E：用于“文生语音”的鲁棒语言建模方法

来自微软、东京大学的研究团队及其合作者提出了一种用于文本到语音（TTS）合成的鲁棒语言建模方法 RALL-E。

虽然以前基于大型语言模型（LLM）的工作在零样本 TTS 上显示出了不错的性能，但由于语言模型的自回归预测风格，这些方法往往存在鲁棒性差的问题，如不稳定的前音（奇怪的音高和节奏/持续时间）和高词错误率（WER）。

据介绍，RALL-E 背后的核心理念是思维链（CoT）提示，它将任务分解成更简单的步骤，从而增强基于 LLM 的 TTS 的鲁棒性。为了实现这一理念，RALL-E 首先预测输入文本的前音特征（音高和时长），并将其作为中间条件，预测 CoT 风格的语音 token。其次，RALL-E 利用预测的时长提示来指导 Transformer 中自注意力权重的计算，从而强制模型在预测语音 token 时关注相应的音素和前音特征。

客观和主观评估结果表明，与基线方法 VALL-E 相比，RALL-E 显著提高了零样本 TTS 的 WER，分别从 6.3%（无重排）和 2.1%（有重排）降至 2.8% 和 1.0%。此外，RALL-E 可以正确合成 VALL-E 难以合成的句子，并将错误率从 68% 降低到 4%。

论文链接：
https://arxiv.org/abs/2404.03204

4.Google DeepMind 新研究：在基于 Transformer 的语言模型中动态分配计算量

基于 Transformer 的语言模型在输入序列中均匀分配 FLOP。

在这项工作中，来自 Google DeepMind 的研究团队证明了 Transformer 可以学会动态地将 FLOP（或计算）分配到序列中的特定位置，并优化整个模型深度中不同层的序列分配。

该方法通过对特定层中可参与自我注意和 MLP 计算的 token 数量（k）设置上限，强制执行总计算预算。要处理的 token 由网络通过 top-k 路由机制确定。由于 k 是先验定义的，因此与其他条件计算技术不同，这种简单的程序使用的是已知张量大小的静态计算图。不过，由于 k token 的身份是不固定的，因此这种方法可以在时间和模型深度维度上不均匀地消耗 FLOP。因此，计算消耗在总和上是完全可预测的，但在 token 级上却是动态的，且与上下文相关。

通过这种方法训练的模型不仅能学会动态分配计算量，而且效率很高。这些模型在同等 FLOPS 和 wall-clock 训练时间下的性能与基线性能相当，但每次前向传递所需的 FLOPS 仅为基线的一小部分，而且在训练后采样期间，速度可提高 50% 以上。

论文链接：
https://arxiv.org/abs/2404.02258

5.InstantStyle：实现“风格保护”的文生图

基于 Tuning-free 扩散的模型已经在图像个性化和定制领域展现出了巨大潜力。

然而，目前的模型在生成风格一致的图像时仍然面临着一些复杂的挑战。首先，风格的概念本质上是不确定的，它包含多种元素，如颜色、材料、氛围、设计和结构等等。其次，基于反转的方法容易造成风格退化，往往会导致精细细节的丢失。最后，基于适配器的方法经常需要对每张参考图像进行细致的权重调整，从而实现风格强度和文本可控性之间的平衡。

在这项工作中，InstantX 团队首先研究了几个引人注目但却经常被忽视的问题。然后，他们提出了一个用于解决这些问题的框架——InstantStyle，包括两个关键策略：（1）一种直接的机制，将风格和内容与特征空间内的参考图像解耦，其前提是同一空间内的特征可以相互添加或减去；（2）将参考图像特征完全注入特定风格块中，从而防止风格泄漏，并避免了繁琐的权重调整，这通常是参数较多的设计的特点。

这一工作展示了优秀的视觉风格化成果，在风格的强度和文本元素的可控性之间取得了最佳平衡。

论文链接：
https://arxiv.org/abs/2404.02733
项目地址：
https://instantstyle.github.io/

EazyDevelop社区

一站式 AI 云服务平台

更多推荐

探秘深海：一款强大的深度学习框架——DeepSea

在人工智能领域中，深度学习是推动科技进步的一股强大动力。今天，我们要向大家推荐的是一个专为深度学习爱好者和开发者打造的强大框架——DeepSea。该项目由Team-Neptune团队开发，并托管在Gitcode平台上，旨在简化和加速深度学习模型的研发过程。## 技术分析### 灵活的架构设计DeepSea采用模块化的设计，允许用户根据需求选择不同的组件，如优化器、损失函数等，以构建定制

EazyDevelop社区

taosync：适用于AList v3的自动化同步工具

在现代生活中，数据同步和备份已成为维护数据安全的关键环节。taosync是一款专为AList v3设计的自动化同步工具，能够帮助用户轻松地同步和备份他们的数据到多个网盘或FTP存储服务。这款工具的开发初衷是为了保存孩子的成长照片，其名称“taoSync”也因此而来。taosync以开源免费的形式提供，支持几乎所有的常用平台，并且提供了完善的日志记录、任务管理以及安全的密码加密功能。## 项目技

EazyDevelop社区

探秘TensorRT Pro：高性能深度学习推理加速神器

是一个由开源社区维护的、基于NVIDIA TensorRT的高级版本，旨在提供更强大、更易用的深度学习推理优化工具。TensorRT本身是NVIDIA开发的一款SDK，专注于提高深度学习模型在GPU上的运行速度和效率，而TensorRT Pro则在此基础上进行了增强，增加了更多的功能和示例，以满足开发者对于性能极致追求的需求。## 技术分析1. **性能优化**：TensorRT Pro通