2025《“人工智能+”行业发展蓝皮书》: AI数据,驱动智能时代的核心引擎
另一方面, 数据开源使数据获取方式更便捷,随着国内外开源平台加速向多模态、工具链整合,以及社区协同方向的演进,开源平台正从从单一数据托管向。团队联合OpenGVLab团队基于前沿研究与实践,深度剖析了AI模型与数据需求升级、数据生产革新的双向赋能效应,以期帮助读者了解数据与模型协同进化的底层逻辑,在数据要素价值爆发的智能时代中抢占先机。从早期人工输入规则和知识图谱的符号主义,到深度学习时代,再到如
导言:
近日,由上海交通大学安泰经济与管理学院、上海交通大学行业研究院、“人工智能+”行业研究团队共同编写的2025《“人工智能+”行业发展蓝皮书》发布,全面梳理了人工智能发展现状、趋势以及应用场景,旨在为政府、企业和研究机构提供决策参考。
蓝皮书中,OpenDataLab团队联合OpenGVLab团队基于前沿研究与实践,深度剖析了AI模型与数据需求升级、数据生产革新的双向赋能效应,以期帮助读者了解数据与模型协同进化的底层逻辑,在数据要素价值爆发的智能时代中抢占先机。
一、模型突破推动数据需求升级
人工智能模型的发展历程,实则是一部 “数据需求进化史”。从早期人工输入规则和知识图谱的符号主义,到深度学习时代,再到如今的大语言模型和多模态模型,每一次模型的技术突破都伴随着对数据需求的重新定义。
大模型在语言理解和多模态领域的深入应用,正在推动数据需求从“规模优先”转向质量、多样性、实时性的三维重构:
• 质量颗粒度精细化:传统模型依赖人工标注的“静态标签”(如ImageNet类别标签),而多模态模型(如PaLI)要求图文数据实现像素、物体、场景、语义的四层严格对齐。
• 数据模态从单维走向融合:GPT-4、Flamingo等多模态大模型通过文本、图像、音频、视频跨模态关联,模拟人类多感官认知,其技术的突破对原始数据的多样性提出更高要求。
• 训练数据的依赖由静到动:为突破大模型落地面临的“知识冻结”瓶颈,Llama采用分阶段训练方案,要求数据的工程能力兼顾实时采集、清洗、去重。而金融等领域高频交易模型的训练数据需实现分钟级甚至更高频更新,并标注事件性标签标记(如财报发布、政策变动)。
二、数据需求变化推动技术革新
大模型对数据需求的升级正在推动数据生产技术的系统性革新,主要体现在自动化、合成化与隐私化三个方面:
• 自动化标注技术通过模型进行辅助标注进而反哺数据生产,形成“模型-数据”闭环。例如,Google 提出的SimCLR 框架利用对比学习自动生成标签,显著降低了人工标注成本。Scale AI 等企业的“人机协同标注”系统通过不确定性估计动态分配任务,将标注效率提升3倍。
• 合成数据生成技术则在真实数据缺口场景下发挥重要作用,NVIDIA Omniverse 通过物理仿真生成自动驾驶场景数据,而 StyleGAN3 生成的合成人脸在视觉真实性测试中表现优异。
• 在隐私保护领域,联邦学习与差分隐私成为合规“标配”,蚂蚁链提出的“区块链+联邦学习”架构实现了跨境数据安全流转与可追溯。
这些技术突破将数据生产从劳动密集型转向技术密集型,推动数据从采集到应用的全链条生产方式的革新,最终为大模型提供更可靠、更丰富的训练数据支撑。
三、技术演进推动数据生态重构
据统计,2023 年全球数据交易规模约 1261 亿美元,至 2030 年预计有望达到 3708 亿美元。全球人工智能数据产业已形成多层次协同体系。数据生产层面,科研机构与科技巨头主导高质量数据开发;数据服务层面,技术企业推动数据标注产业转型;数据治理层面,制度与技术创新形成共振,上海数据交易所基于SwiftLink管理平台核心架构实现数据上链、收益上链、资金上链,不断推动数据交易市场发展。另一方面, 数据开源使数据获取方式更便捷,随着国内外开源平台加速向多模态、工具链整合,以及社区协同方向的演进,开源平台正从从单一数据托管向 “数据 - 工具 - 模型 - 应用” 全栈生态升级,赋能开发者高效参与技术迭代,驱动数据生态从线性供应链向全球价值网演进。 以OpenDataLab为例,将开源实践聚焦大模型训练全链路支持,通过MinerU 等智能工具和超大规模精标数据集(如万卷系列),构建起覆盖预训练、微调到评测的完整生态,致力于成为国产大模型数据基座的核心力量。
开源数据处理全流程工具
开源万卷系列超大规模精标数据集
● 书生·万卷1.0多模态语料库:
● 万卷CC英文语料库:
● 万卷·丝路多语种语料库:
AI 模型的技术突破并非孤立事件, 其背后是数据需求从“量变 ”到“质变 ”的系统性升级。 未来, 数据将不再只是模型的“燃料 ”, 而是驱动技术创新的“ 战略资产 ”,也是推动人工智能发展的内驱动力。数据技术栈革新与开源文化同向偕行,正构建起“数据生产-开放共享-标准反哺”的正向循环,为人工智能高质量发展注入持续动能。
下载2025《“人工智能+”行业发展蓝皮书》:
更多推荐


所有评论(0)