MIAOYUN | 每周AI新鲜事儿 260626
本周AI领域海内外密集发布各类AI模型、智能体工具并出炉算力、计费行业动态:国内落地医疗、OCR、图文、视频、气候、生产力、具身视觉等多垂类大模型;海外Google、OpenAI、Sakana AI推出文本扩散、多模型调度、网络安全模型及自研推理芯片;智能体领域上线电脑自动化、团队协同、零代码工作流、IoT嵌入式框架、AI专属邮箱等工具;行业层面,可审计对账账本成为企业采购AI必备信任基建,行业向垂类专用模型、多模型协同、主动交互、软硬件自研、低代码自动化发展,一起来回顾本周发生的AI新鲜事儿吧!
AI 大模型
百川智能联合清华推出新一代医疗增强大模型「Baichuan-M4」
6月22日,百川智能联合清华推出新一代医疗增强大模型「Baichuan-M4」,登顶HealthBench全榜单,幻觉率低至3.3%,大幅领先GPT-5.5、Claude等竞品;模型突破通用AI被动应答短板,可像医生主动多轮问诊、具备跨时段全病程记忆,独创证据锚定机制保障医学结论溯源准确,搭配医疗Agent架构自主调度问诊、查文献、调取病史等任务,依托临床专家搭建标准化诊疗单元,能实现完整连续诊疗,推动普惠医疗落地。
参考:百川发布新一代医疗增强大模型 M4:登顶 HealthBench,让 AI 像真人医生一样主动问诊
Google开源实验性文本扩散模型「DiffusionGemma」,速度提升4倍
6月22日,Google开源实验性文本扩散模型「DiffusionGemma」,一款拥有260亿参数的混合专家模型,依托Gemini扩散技术突破传统自回归逐Token生成模式,可并行输出文本块,本地GPU文本生成速度最高提升4倍,单H100可达1000+Token/秒,量化后适配高端消费显卡;采用双向注意力与迭代自纠错,擅长代码填充、行内编辑等非线性文本任务,但输出质量低于标准Gemma 4,更适配本地低并发实时交互场景,模型基于Apache 2.0协议开放,支持MLX、vLLM、Unsloth等工具部署微调,深度适配NVIDIA全系显卡。
参考:DiffusionGemma: 文本生成速度提升 4 倍
百度开源MoE文档OCR模型「Unlimited OCR」
6月22日,百度开源3B总参、仅500M激活的MoE文档OCR模型「Unlimited OCR」,依托自研R-SWA参考滑动窗口注意力机制,搭配DeepEncoder视觉压缩编码器,解决传统OCR长文档逐页处理、内存暴涨、上下文失忆的痛点,可单次推理连贯解析40页以上文档且内存占用恒定、推理速度不衰减;该模型在OmniDocBench榜单刷新SOTA,性能、效率远超Qwen、Gemini等大尺寸竞品,网传核心负责人为原DeepSeek OCR骨干魏浩然,新技术可对接百度成熟OCR产业体系,后续将扩容上下文并拓展至多模态长文本场景,相关代码权重已开源。
参考:刚刚,百度开源拿下全球第一!作者疑似DeepSeek出走大神
Boogu团队开源统一图文生成编辑模型「Boogu-Image-0.1」
6月22日,Boogu团队开源Apache-2.0协议的统一图文生成编辑模型「Boogu-Image-0.1」,包含Base、Edit、Turbo三大变体,Base擅长超密集中英文字渲染适配海报文档类场景,Edit主打指令式图像编辑与风格迁移,Turbo为蒸馏版本,同等参数量下仅3-4步即可生成优质写实摄影图;该系列在自有千条提示词ELO评测中位居前列,开源模型Qwen-Image-Bench榜单排名第一,支持写实摄影、双语文字渲染、物体修改、产品渲染等多类任务,官方同步开放魔搭在线体验空间、Github代码、模型权重等多渠道资源,同时给出不同显存下1K/2K分辨率推理部署配置与完整本地运行代码脚本,适配本地私有化部署。
参考:Boogu-Image-0.1 开源:统一图像生成与编辑家族,Turbo 仅 3-4 步生成对标闭源 SOTA
日本Sakana AI发布「Fugu」、「Fugu Ultra」两款多模型编排器
6月22日,日本AI独角兽Sakana AI发布「Fugu」、「Fugu Ultra」两款多模型编排器,它不直接作答,而是作为总指挥智能调度各类大模型协同完成任务,依托任务识别、模型择优、工作流规划、反馈优化四大机制实现集体智能;「Fugu Ultra」在编程、科学推理等多项基准中性能比肩甚至超越Fable 5、Mythos Preview,模型池可自由替换,能规避单一厂商断供风险,兼顾日常快速响应的「Fugu」与专攻复杂难题的Ultra各有侧重,虽在魔方求解、盲棋等测试表现亮眼,但存在调度成本高、延迟上升、故障难定位等落地短板,该方案开辟了不靠堆砌单一大模型、靠系统调度取胜的AI发展新路线。
清华团队提出统一气候模态预测模型「UniCM」
6月23日,清华团队在《Nature Machine Intelligence》发布统一气候模态预测模型「UniCM」,采用Globalformer与Modeformer双分支双向耦合架构,可同步建模全球七大类关键气候模态的交互关系;该模型将厄尔尼诺有效预测时长延长至19个月,突破春季预测障碍,其余气候模态预测精度显著提升,还可还原模态间真实物理关联,兼具强可解释性,既能精准预判极端气候,也能辅助科研挖掘气候内在机制,为防灾、农业、水资源管理等领域提供长期气候预测新方案。
参考:AI如何「读懂」全球气候系统?清华提出统一气候模态预测模型UniCM
OpenAI推出完整版「GPT-5.5-Cyber」安全模型并落地多项安全配套项目
6月23日,OpenAI拓展Daybreak安全计划,推出完整版「GPT-5.5-Cyber」安全模型,在多项网络安全基准测试成绩超越GPT-5.5与竞品Mythos 5,可深度分析代码、自动生成验证漏洞补丁;同步更新Codex Security插件实现大规模代码漏洞扫描修复,联合机构发起Patch the Planet项目助力开源项目漏洞治理,并推出Daybreak安全合作伙伴计划开放模型可信访问权限,整套方案打通漏洞发现到落地修复全流程,且OpenAI全程与美国相关监管机构协同推进合规部署。
参考:战胜Mythos 5,OpenAI安全专用GPT-5.5-Cyber完全体来了
字节跳动正式发布面向生产力场景的「Seed2.1」系列模型
6月23日,字节跳动正式发布面向生产力场景的「Seed2.1」系列模型,提供Pro、Turbo两个版本,全面升级通用Agent、企业级代码交付、多模态三大核心能力;其Agent可跨工具、跨设备GUI完成办公、生活、专业复杂长流程任务,在多款真实工作基准评测表现优异,移动端、设计软件操作效率显著提升;代码能力可完成仓库级工程开发,Pro版相比Claude Opus 4.6获得59.1%胜率,多模态在图文、长视频、空间识别、128K长文本多项基准刷新高分,同时强化科研、数学、多语言能力,还落地Seed for Seed模式以智能体辅助模型自身研发迭代;该模型已上线豆包、TRAE及火山引擎API。
阿里云视频生成模型「HappyHorse 1.1」正式发布
6月23日,阿里云视频生成模型「HappyHorse 1.1」正式发布,现已登陆HappyHorse官网、千问云及阿里云百炼平台。新版本全面优化动作连贯性、角色一致性、画面质感、指令理解与音画同步,支持最多9张参考图输入,解决画面油光、锐化失真等问题,适配短剧、广告、直播带货等专业创作场景,上线期间推出限时6折优惠。
通义实验室开源首个原生语言世界模型「Qwen-AgentWorld」
6月24日,通义实验室开源首个原生语言世界模型「Qwen-AgentWorld」,解决智能体真实交互环境试错难题。该模型有35B-A3B与397B-A17B两种参数规模,依托超千万真实交互轨迹经CPT继续预训练、SFT监督微调、GSPO强化学习三阶段训练,单一模型覆盖文本、GUI七大交互领域,配套自研评测基准AgentWorldBench,397B规模版本评测得分超越GPT-5.4等主流模型,可作为模拟器实现可控模拟训练、也可作为基础模型提升跨域智能体能力,当前模型、评测基准均已在HuggingFace、ModelScope、GitHub开源,配套博客与技术报告可供查阅。
参考:Qwen-AgentWorld 开源:让 Agent 学会“先预测,再行动”
京东开源全球首个全栈开源实时视觉语言交互模型「JoyAI-VL-Interaction」
6月24日消息,京东开源全球首个全栈开源实时视觉语言交互模型「JoyAI-VL-Interaction」,和OpenAI前CTO创立公司同步押注主动式交互AI赛道,该8B轻量化模型单张3090即可部署,能持续识别视频画面自主判断主动响应或保持静默,复杂任务可自动调度外部大模型,多场景实测性能领先国内外主流模型;依托零售、物流、工业等海量线下场景优势,京东同步布局具身智能数据采集,计划两年积累千万小时真实视频数据,模型可落地家庭看护、AI眼镜、仓储机器人、赛事实时解读等场景,还配套开源推理系统并原生适配vLLM-Omni,推动AI从被动问答转向主动感知物理世界的具身智能。
参考:京东和Open AI前CTO Mira Murati,押注了同一个AI赛道
AI Agent
OpenAI Codex上线「Record & Replay」录制复现新功能
6月19日,OpenAI Codex上线「Record & Replay」录制复现新功能,仅支持Mac系统且需开启Computer Use,用户演示一遍电脑重复操作即可生成可编辑、灵活适配变量的复用技能,可自动复现报表制作、视频上传、报销等繁琐流程;该功能依托Computer Use、Chrome扩展等多途径操控电脑软件,打破传统自动化依赖API的限制,还兼容本地开源模型与第三方大模型,标志AI可直接学习人类图形界面操作,将人的操作经验转化为AI自动化能力。
参考:刚刚,Codex 大更新,你在电脑的操作正在成为 AI 经验包
豆包上线基于豆包2.1系列大模型的专业版,搭载全新「办公任务模式」
6月24日,豆包正式上线基于豆包2.1系列大模型的专业版,搭载全新「办公任务模式」,可自主拆解任务、操控本地电脑与浏览器、制作Office文档、搭建网页应用、调用专业技能、设置定时自动化工作;专业版分68/200/500元三档包月套餐,提供更高模型调用额度,大学生认证后购标准套餐享38元特惠,免费用户也可体验2.1 Turbo办公模式,后续产品还会持续更新功能。
参考:今天,豆包正式推出专业版
Anthropic推出基于Opus 4.8、适配Slack平台的Beta版「Claude Tag」
6月24日,Anthropic推出基于Opus 4.8、适配Slack平台的Beta版「Claude Tag」,面向Claude企业与团队客户,用户通过@Claude即可让AI化身团队协作者,该功能支持多人共享上下文、长期留存频道信息、异步自主推进长周期任务,开启Ambient模式后还能主动同步关键信息,管理员可精细化管控各频道工具、数据访问权限并设置Token消耗上限;内部实测其承担团队大量代码、数据追踪、故障排查工作,Karpathy评价其是LLM交互第三次重大革新,功能无单独服务费但会消耗Token,官方同步提供试用额度,原有Slack端Claude应用将在30天内完成迁移。
ima上线「Skill」功能,零代码封装自动化工作流
6月25日,ima上线「Skill」功能,可将周报整理、会议纪要、播客生成等标准化重复工作流程封装为可一键调用的自动化能力,用户只需和Copilot对话描述需求即可自动生成、注册并调试Skill,无需代码;用户既能自建自用,也可将做好的Skill发布至平台Skills广场分享复用,广场内也有各类现成技能可直接安装调用,大幅降低重复事务处理成本。
AI 工具
Anthropic为Claude Code上线Beta版「Artifacts」功能
6月19日,Anthropic为Claude Code上线Beta版「Artifacts」功能,仅面向Team与企业用户,可依托会话、代码、数据自动生成实时更新的私有交互式单页看板,用于故障排查、数据展示、项目复盘等场景,页面无后端数据库、仅组织内可访问;该功能与同期OpenAI Codex Sites形成路线差异,前者轻量化用于工作过程可视化同步,后者侧重完整内部应用搭建,也标志AI编程工具竞争从代码生成转向团队协作与工作可视化能力比拼。
参考:Claude Code 发了个「王炸」功能,打工人狂喜
QQ邮箱推出面向各类AI智能体的专属邮箱「Agently Mail」并开启内测
6月23日,QQ邮箱推出面向各类AI智能体的专属邮箱「Agently Mail」并开启内测,可与个人邮箱数据完全隔离以保护隐私,实名认证机制规避滥用;该邮箱赋予AI独立对外身份,支持自主收验证码、跨Agent自动商务对接,适配发票归档、订阅整理、自动求职投递、订单对账等自动化场景,豆包、Kimi、Claude等主流Agent均可按指引扫码配置使用,邮件操作与授权记录均可在官网统一管理。
移远通信发布面向全品类IoT硬件的嵌入式AI Agent框架「UniClaw」
6月23日,移远通信发布面向全品类IoT硬件的嵌入式AI Agent框架「UniClaw」,开启Agentic IoT行业新范式,该框架可适配各类芯片模组解决硬件碎片化痛点,采用端云协同架构兼顾本地数据隐私与云端扩展能力,搭载持久记忆引擎与后台常驻机制,让设备从被动响应转为主动预判服务;依托三层智能架构实现全链路自主可控,配套开放技能生态,打通人、车、家、办公多设备协同,现已面向全球开发者开放,还将亮相MWC上海展会。
参考:从万物智联到万物智行!移远通信发布UniClaw,开启Agentic IoT新范式
Google将「Computer Use」电脑自主操作能力集成至Gemini 3.5 Flash模型
6月25日消息,Google将「Computer Use」电脑自主操作能力集成至轻量低成本的Gemini 3.5 Flash,模型可读取屏幕UI,自主完成点击、输入、页面切换等操作,支持网页、桌面、移动端多类界面,能连续数十轮循环执行长任务;内置安全校验机制,敏感操作需用户确认,可识别间接攻击风险;相比Anthropic、OpenAI同类产品,Google选择轻量化模型承载该能力以控制运行成本,可用于产品测试、多平台信息采集等重复办公场景,实测复杂长浏览器任务表现对齐行业前沿水平。
参考:谷歌把电脑操作能力塞进Gemini 3.5 Flash!自己看屏幕狂点70轮
市场动态
AI Token聚合平台:可审计账本,是AI经济的核心信任护城河
6月23日,市场前沿资讯显示AI Token聚合平台的审计对账账本是行业稀缺护城河,这类平台计费存在客户、平台、上游供应商数据不一致的“三体问题”,还面临不同厂商接口Token统计口径差异带来的跨协议转换难题;平台需搭建input、缓存、推理等统一Token计量标准,搭建四层分层对账证据链,遵循对账仅排查差异、不自动修改资金账户的金融级规范;当前Token聚合平台分为低门槛基础中转工具与具备完整可审计账本的企业级平台,后者依靠完整对账体系获取企业客户信任,如今可审计对账能力已成为企业采购AI服务硬性门槛,完善的精细化计费对账体系还能提升平台定价灵活度与毛利率,可审计的账本体系是AI经济核心信任基础设施。
参考:AI账本即信任:Token聚合平台的账本,正在成为AI经济最被低估的护城河
OpenAI推出首款专为大模型推理从零设计的自研芯片「Jalapeño」
6月24日,OpenAI推出首款专为大模型推理从零设计的自研芯片「Jalapeño」(墨西哥辣椒),携手博通、Celestica分工协作,仅耗时九个月完成从架构设计到流片,创下高性能先进ASIC最快开发周期;研发依托软硬件协同开发,还借助自家AI模型加速芯片设计优化,芯片针对大模型运行时的数据搬运、算力、内存、网络做均衡优化,实测能效大幅领先行业顶尖水准,工程样片已可运行GPT-5.3-Codex-Spark等模型;该芯片是其全栈布局核心,年底部署,后续将共建吉瓦级算力中心,依靠AI与芯片相互迭代,降低AI使用成本。
更多推荐




所有评论(0)