在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.斯坦福提出语言模型微调新方法ReFT

参数高效微调(PEFT)方法试图通过更新少量权重来调整大模型。然而,之前的许多可解释性研究表明,表征可以编码丰富的语义信息,这表明编辑表征可能是一种更强大的替代方法。

为此,来自斯坦福大学和 Pr(Ai)²R Group 的研究团队通过开发一系列表征微调(ReFT)方法来实现这一假设。

据介绍,ReFT 方法在冻结的基础模型上运行,并学习针对特定任务对隐藏表征的干预。他们定义了 ReFT 系列的一个强实例,即低秩线性子空间 ReFT(LoReFT)。LoReFT 可直接替代现有的 PEFT,其学习干预的参数效率是之前 SOTA PEFT 的 10-50 倍。在八项常识推理任务、四项算术推理任务、Alpaca-Eval v1.0 和 GLUE 上,LoReFT 在效率和性能之间实现了最佳平衡,几乎总是优于最先进的 PEFT。

论文链接:
https://arxiv.org/abs/2404.03592
GitHub 链接:
https://github.com/stanfordnlp/pyreft

2.Google DeepMind 新研究:通过神经压缩文本训练 LLM

来自 Google DeepMind 和 Anthropic 的研究团队探讨了在高度压缩文本上训练大型语言模型(LLM)的想法。

标准的分词 tokenizer 只能将文本压缩一小部分,而神经文本压缩器可以实现更高的压缩率。如果有可能直接在神经压缩文本上训练 LLM,这将在训练和服务效率方面带来优势,且更容易处理长文本跨度。实现这一目标的主要障碍在于,强压缩往往会产生不透明的输出,不适合学习。特别是,通过算术编码进行压缩的文本不容易被 LLM 学习。

为了克服这一问题,研究团队提出了一种新颖的压缩技术“等信息窗口”(Equal-Info Windows),它将文本分割成多个区块,每个区块压缩成相同的比特长度。利用这种方法,他们展示了对神经压缩文本的有效学习,学习效果随着规模的扩大而提高,并在易错性和推理速度基准上远远超过了字节级基准。

对于使用相同参数数量训练的模型,这一方法比分词 tokenizer 的迷惑性更差,但它的优点是序列长度更短。较短的序列长度需要较少的自回归生成步骤,从而减少了延迟。最后,他们对有助于提高可学习性的特性进行了广泛分析,并就如何进一步提高高压缩标记化器的性能提出了具体建议。

论文链接:
https://arxiv.org/abs/2404.03626

3.RALL-E:用于“文生语音”的鲁棒语言建模方法

来自微软、东京大学的研究团队及其合作者提出了一种用于文本到语音(TTS)合成的鲁棒语言建模方法 RALL-E。

虽然以前基于大型语言模型(LLM)的工作在零样本 TTS 上显示出了不错的性能,但由于语言模型的自回归预测风格,这些方法往往存在鲁棒性差的问题,如不稳定的前音(奇怪的音高和节奏/持续时间)和高词错误率(WER)。

据介绍,RALL-E 背后的核心理念是思维链(CoT)提示,它将任务分解成更简单的步骤,从而增强基于 LLM 的 TTS 的鲁棒性。为了实现这一理念,RALL-E 首先预测输入文本的前音特征(音高和时长),并将其作为中间条件,预测 CoT 风格的语音 token。其次,RALL-E 利用预测的时长提示来指导 Transformer 中自注意力权重的计算,从而强制模型在预测语音 token 时关注相应的音素和前音特征。

客观和主观评估结果表明,与基线方法 VALL-E 相比,RALL-E 显著提高了零样本 TTS 的 WER,分别从 6.3%(无重排)和 2.1%(有重排)降至 2.8% 和 1.0%。此外,RALL-E 可以正确合成 VALL-E 难以合成的句子,并将错误率从 68% 降低到 4%。

论文链接:
https://arxiv.org/abs/2404.03204

4.Google DeepMind 新研究:在基于 Transformer 的语言模型中动态分配计算量

基于 Transformer 的语言模型在输入序列中均匀分配 FLOP。

在这项工作中,来自 Google DeepMind 的研究团队证明了 Transformer 可以学会动态地将 FLOP(或计算)分配到序列中的特定位置,并优化整个模型深度中不同层的序列分配。

该方法通过对特定层中可参与自我注意和 MLP 计算的 token 数量(k)设置上限,强制执行总计算预算。要处理的 token 由网络通过 top-k 路由机制确定。由于 k 是先验定义的,因此与其他条件计算技术不同,这种简单的程序使用的是已知张量大小的静态计算图。不过,由于 k token 的身份是不固定的,因此这种方法可以在时间和模型深度维度上不均匀地消耗 FLOP。因此,计算消耗在总和上是完全可预测的,但在 token 级上却是动态的,且与上下文相关。

通过这种方法训练的模型不仅能学会动态分配计算量,而且效率很高。这些模型在同等 FLOPS 和 wall-clock 训练时间下的性能与基线性能相当,但每次前向传递所需的 FLOPS 仅为基线的一小部分,而且在训练后采样期间,速度可提高 50% 以上。

论文链接:
https://arxiv.org/abs/2404.02258

5.InstantStyle:实现“风格保护”的文生图

基于 Tuning-free 扩散的模型已经在图像个性化和定制领域展现出了巨大潜力。

然而,目前的模型在生成风格一致的图像时仍然面临着一些复杂的挑战。首先,风格的概念本质上是不确定的,它包含多种元素,如颜色、材料、氛围、设计和结构等等。其次,基于反转的方法容易造成风格退化,往往会导致精细细节的丢失。最后,基于适配器的方法经常需要对每张参考图像进行细致的权重调整,从而实现风格强度和文本可控性之间的平衡。

在这项工作中,InstantX 团队首先研究了几个引人注目但却经常被忽视的问题。然后,他们提出了一个用于解决这些问题的框架——InstantStyle,包括两个关键策略:(1)一种直接的机制,将风格和内容与特征空间内的参考图像解耦,其前提是同一空间内的特征可以相互添加或减去;(2)将参考图像特征完全注入特定风格块中,从而防止风格泄漏,并避免了繁琐的权重调整,这通常是参数较多的设计的特点。

这一工作展示了优秀的视觉风格化成果,在风格的强度和文本元素的可控性之间取得了最佳平衡。

论文链接:
https://arxiv.org/abs/2404.02733
项目地址:
https://instantstyle.github.io/

Logo

一站式 AI 云服务平台

更多推荐