大模型日报|7 篇必读的大模型论文
大模型日报|7 篇必读的大模型论文

大家好,今日必读的大模型论文来啦!
1.SnapGen:极小、快速的高分辨率“文生图”模型
现有的文本到图像(T2I)扩散模型面临几个限制,包括模型规模大、运行速度慢以及在移动设备上生成的图像质量低。
来自 Snap 的研究团队及其合作者旨在通过开发一种极小且快速的 T2I 模型,在移动平台上生成高分辨率和高质量的图像,从而应对所有这些挑战。为实现这一目标,他们提出了几种技术。首先,他们系统地检查了网络架构的设计选择,以减少模型参数和延迟,同时确保高质量的生成。其次,为了进一步提高生成质量,他们从一个更大的模型中采用了跨架构知识提炼,使用多层次方法指导他们的模型从头开始训练。第三,他们通过将对抗指导与知识提炼相结合,实现了几步生成。
他们的模型 SnapGen 在移动设备上生成 1024x1024 px 图像的时间仅为 1.4 秒。在 ImageNet-1K 上,模型只需 372M 参数就能生成 256x256 px 的图像,FID 达到 2.06。在 T2I 基准(即 GenEval 和 DPG-Bench)上,他们的模型仅有 379M 个参数,以明显更小的规模(例如,比 SDXL 小 7 倍,比 IF-XL 小 14 倍)超越了拥有数十亿个参数的大模型。
论文链接:
https://arxiv.org/abs/2412.09619
项目地址:
https://snap-research.github.io/snapgen/
2.Lyra:高效、全认知多模态大语言模型
随着多模态大语言模型(MLLMs)的发展,超越单领域的能力对于满足更多功能和更高效的人工智能需求至关重要。然而,以前的综合模型对语音的探索不够,忽视了语音与多模态的融合。
来自香港中文大学、思谋科技和香港科技大学的研究团队推出的 Lyra 是一种高效的 MLLM,可增强多模态能力,包括高级长语音理解、声音理解、跨模态效率和无缝语音交互。为了实现高效和以语音为中心的能力,Lyra 采用了三种策略:(1)利用现有的开源大模型和建议的多模态 LoRA 来降低训练成本和数据要求;(2)使用潜在多模态正则化器和提取器来加强语音和其他模态之间的关系,从而提高模型性能;以及(3)构建一个高质量、广泛的数据集,其中包括 1.5M 多模态(语言、视觉、音频)数据样本和 12K 长语音样本,使 Lyra 能够处理复杂的长语音输入,实现更鲁棒的全方位认知。
与其他全方位方法相比,Lyra 在各种视觉-语言、视觉-语音和语音-语言基准测试中取得了 SOTA 的性能,同时还使用了更少的计算资源和训练数据。
论文链接:
https://arxiv.org/abs/2412.09501
项目地址:
https://lyra-omni.github.io/
3.EasyRef:即插即用的扩散模型适配方法
传统的扩散模型免微调方法大多以平均图像嵌入作为注入条件,对多个参考图像进行编码,但这种独立于图像的操作无法在图像之间进行交互,从而捕捉多个参考图像中一致的视觉元素。虽然基于微调的低秩适应(LoRA)可以通过训练过程有效地提取多个图像中的一致元素,但它需要针对每个不同的图像组进行特定的微调。
来自香港中文大学多媒体实验室的研究团队及其合作者,提出了一种新颖的即插即用适配方法 EasyRef,它能使扩散模型以多个参考图像和文本提示为条件。为了有效利用多幅图像中一致的视觉元素,他们利用了多模态大语言模型(MLLM)的多图像理解和指令跟踪能力,促使其根据指令捕捉一致的视觉元素。此外,通过适配器将多模态大语言模型的表征注入扩散过程,可以很容易地推广到未见领域,挖掘未见数据中的一致视觉元素。
为了降低计算成本并加强细粒度细节保护,他们提出了一种高效的参考聚合策略和渐进式训练方案。最后,他们提出了一种新的多参考图像生成基准 MRBench。实验结果表明,EasyRef 超越了免微调方法(如 IP-Adapter)和基于微调的方法(如 LoRA),在不同领域实现了卓越的美学质量和鲁棒 的零样本泛化。
论文链接:
https://arxiv.org/abs/2412.09618
项目地址:
https://easyref-gen.github.io/
4.微软提出「多模态潜在语言建模」,无缝整合离散、连续数据
多模态生成式模型需要一种统一的方法来处理离散数据(如文本和代码)和连续数据(如图像、音频和视频)。
在这项工作中,来自微软研究院和清华大学的研究团队提出了潜在语言建模(LatentLM),利用因果 Transformer 将连续数据和离散数据无缝整合在一起。具体来说,他们采用变分自编码器(VAE)将连续数据表示为潜在向量,并引入下一个 token 扩散来自回归生成这些向量。此外,他们还开发了 σ-VAE 来应对方差崩溃的挑战,这对自回归建模至关重要。广泛的实验证明了 LatentLM 在各种模态下的有效性。
在图像生成方面,LatentLM 的性能和可扩展性都超过了扩散 Transformer。当集成到多模态大语言模型中时,LatentLM 提供了一个统一多模态生成和理解的通用接口。实验结果表明,在扩大训练 token 的情况下,LatentLM 与 Transfusion 和矢量量化模型相比取得了良好的性能。在文本到语音合成中,LatentLM 在说话人相似性和鲁棒性方面优于 SOTA 的 VALL-E 2 模型,同时所需的解码步骤减少了 10 倍。这些结果证明 LatentLM 是推进多模态大模型的一种高效、可扩展的方法。
论文链接:
https://arxiv.org/abs/2412.08635
5.Euclid:用合成高保真视觉描述增强多模态 LLM
近年来,多模态大语言模型(MLLM)取得了飞速发展,但在低级视觉感知(LLVP)方面仍然表现不佳——尤其是准确描述图像几何细节的能力。这种能力对于机器人、医学图像分析和制造等领域的应用至关重要。
在这项工作中,来自南加州大学和清华大学的研究团队首先提出了 Geoperception,这是一个用于评估 MLLM 从图像中准确转录二维几何信息能力的基准。利用这一基准,他们展示了主要 MLLM 的局限性,然后开展了一项全面的实证研究,探索提高其几何任务性能的策略。他们的研究结果凸显了某些模型架构、训练技术和数据策略的优势,包括使用高保真合成数据和使用数据课程进行多阶段训练。
值得注意的是,他们发现数据课程使模型能够学习具有挑战性的几何理解任务,而这些任务是模型无法从头开始学习的。利用这些洞察力,他们开发了 Euclid 模型系列,该模型系列专门针对强大的低级几何感知进行了优化。虽然 Euclid 纯粹是在合成多模态数据上训练出来的,但它对新几何形状显示出很强的泛化能力。例如,在某些 Geoperception 基准任务中,Euclid 的表现比闭源模型 Gemini-1.5-Pro 高出 58.56%,在所有任务中平均高出 10.65%。
论文链接:
https://arxiv.org/abs/2412.08737
6.上海 AI Lab:用于长期流媒体视频和音频交互的综合多模态系统
创建能够与环境进行长时间交互、类似于人类认知的人工智能系统一直是一个长期的研究目标。多模态大语言模型(MLLM)的最新进展在开放世界理解方面取得了重大进展。然而,连续和同步流感知、记忆和推理的挑战在很大程度上仍未得到探索。目前的 MLLM 受限于序列到序列的架构,这限制了它们同时处理输入和生成响应的能力,就像无法在感知的同时进行思考一样。此外,依靠长上下文来存储历史数据对于长期互动来说也不切实际,因为保留所有信息的成本会很高,效率也会很低。
因此,本项目并不依赖单一的基础模型来实现所有功能,而是从专业通用人工智能的概念中汲取灵感,引入分离的流式感知、推理和记忆机制,实现与流式视频和音频输入的实时交互。
来自上海人工智能实验室的研究团队及其合作者提出了 InternLM-XComposer2.5-OmniLive (IXC2.5-OL) ,其由三个关键模块组成:(1) 流感知模块:实时处理多模态信息,将关键细节存储在内存中,并根据用户查询触发推理。(2) 多模态长时记忆模块:整合短期记忆和长期记忆,将短期记忆压缩为长期记忆,以提高检索效率和准确性。(3) 推理模块:响应查询并执行推理任务,与感知和记忆模块协调。该项目模拟类似人类的认知,使多模态大语言模型能够随着时间的推移提供持续的自适应服务。
论文链接:
https://arxiv.org/abs/2412.09596
GitHub 地址:
https://github.com/InternLM/InternLM-XComposer/tree/main/InternLM-XComposer-2.5-OmniLive
7.微软团队推出 140B 参数语言模型 Phi-4
微软团队推出了 phi-4,这是一个拥有 140B 参数的语言模型,它的训练配方以数据质量为中心。与大多数语言模型的预训练主要基于网络内容或代码等有机数据源不同,phi-4 在整个训练过程中加入了合成数据。
虽然 Phi 系列的前几个模型在很大程度上提炼了教师模型(特别是 GPT-4)的能力,但 phi-4 在以 STEM 为重点的问答能力方面大大超过了其教师模型,这证明他们的数据生成和后期训练技术已经超越了提炼的范畴。
尽管对 phi-3 架构的改动微乎其微,但由于改进数据、训练课程和后训练计划的创新,phi-4 相对于其规模实现了强劲的性能,尤其是在以推理为重点的基准方面。
论文链接:
https://arxiv.org/abs/2412.08905
更多推荐


所有评论(0)