中科大&智象未来:强模型打底、轻模型精修,重塑视频超分体验丨CVPR 2026
中科大&智象未来:强模型打底、轻模型精修,重塑视频超分体验丨CVPR 2026 | 雷峰网
导读
PS-SR:兼顾速度、细节与稳定性,让低清画面更可信。
原文快照
站内保留一份可阅读的正文副本;如抓取失败,则保留摘要和原文链接。
中科大&智象未来:强模型打底、轻模型精修,重塑视频超分体验丨CVPR 2026
在生成式 AI 进入视频生产链之后,视频增强正在从后期修补工具,变成内容生产、内容分发和机器视觉理解中的基础能力。
现实需求已经不只是让画面变清楚,而是要在电商直播中看清商品质感,在工业巡检中识别裂纹和仪表读数,在远程协作中保留设计细节,在文博数字化中尽量还原影像纹理。
随着 4K 级高清内容逐渐成为视频平台、智能电视、大屏显示和专业制作流程中的常见需求,低清素材如何被稳定放大到更高分辨率,同时保留纹理、边缘和运动连续性,也成为视频增强技术必须面对的问题。
难点在于,视频增强不能只追求锐度。传统单步模型速度快,但细节往往保守;多步扩散模型细节丰富,但推理成本高,难以大规模落地。更复杂的是,视频不是单张图片,每一帧清楚还不够,帧与帧之间还要稳定,否则就会出现闪烁、跳动和细节漂移。
在这样的背景下,中国科学技术大学与智象未来研究团队提出了《PS-SR: Pseudo-Single-Step Video Super-Resolution via Speculative Diffusion》。
这项研究没有简单地在单步和多步之间二选一,而是让强大的 base model 先恢复整体结构,再让轻量 draft model 补充细节,并通过频域更新约束生成范围,让模型尽量增强纹理而不改写主体内容。
它真正回应的问题是:当视频增强进入大规模应用时,系统能不能既足够快,又足够稳,还能生成可信细节。PS-SR 探索的伪单步扩散路径,为高质量视频增强提供了一种更接近实际部署的方案,也为内容平台、智能视觉系统和生成式视频工具提供了新的技术参考。
项目地址:https://waq2001.github.io/PS-SR-page/
像单步一样快,像多步一样细
实验结果方面,PS-SR 在画质、速度、稳定性三方面较均衡,核心优势是接近单步模型的速度,同时具备多步扩散模型级别的细节表现,主要提升体现在纹理更清楚、结构更稳定、帧间抖动更少,适用场景包括合成退化视频和真实互联网低质视频
与其他方法相比,PS-SR 相比 STAR、SeedVR 速度明显更快,相比 DLoRAL、SeedVR2、DOVE 细节更自然、结构偏移更少。
重建质量表现上,UDM10、SPMCS、YouHQ40 的整体重建指标靠前,结构一致性较强,低频内容保留较好,输入视频主体信息变化较小,高质量输出更接近真实高清视频。雷峰网
真实视频表现上,VideoLQ 是无高清参考的真实低质视频,PS-SR 在人脸区域能让五官边缘更稳定、细节不过度扭曲。
时间一致性表现上,PS-SR 的帧间连续性优于对比方法,视频闪烁减少,局部纹理跳动减少,运动区域更平滑,播放观感更稳定,关键原因是基础视频扩散模型中的 motion prior 被保留。
主观评价结果显示,参与者更倾向选择 PS-SR,偏好原因是清晰度、自然感、连续性综合更好,视觉优势不是单纯锐化,而是结构保真 + 细节增强,用户感知重点集中在人脸自然度、物体边缘、视频流畅度。
消融实验结果显示,去掉 VSD 后生成质量下降,画面细节不够丰富,去掉对抗损失后真实感下降,纹理表现变弱,去掉像素监督后局部区域还原能力下降,去掉频域更新后细节可能更“锐”,但结构更容易偏移,完整 PS-SR 在细节、稳定性、输入一致性之间更平衡。雷峰网
速度结果显示,PS-SR 采用 1 次 base model 推理 + 3 次 draft model 细化,推理耗时接近单步方法,计算开销明显低于多步扩散方法,实用价值是更适合实际视频增强部署。
参数分析结果显示,采样步数较少时结构保真更强,但细节不足。采样步数较多时细节更丰富,但内容偏移风险增加,最终设置为 T = 4,细化强度较低时画面稳定,但不够清晰,细化强度较高时画面更锐,但可能改变结构,最终设置为 α = 0.6,draft model 剪枝过少时速度提升有限,draft model 剪枝过多时细节生成能力不足,最终设置为剪掉 20 个 DiT block。
这些结果也解释了 PS-SR 为什么采用“强模型打底,轻模型精修”的设计:它不是单纯增加推理步骤来换取画质,也不是为了速度压缩到只剩一次生成,而是在结构恢复、细节补充和计算成本之间寻找平衡。下面进一步拆解研究团队如何搭建和验证这一流程。
强模型打底,轻模型精修
整体来看,研究的实验目的包括验证 PS-SR 的视频超分能力,验证“伪单步”框架的速度优势,验证多步细化带来的细节提升,验证频域更新对结构稳定性的作用,验证真实低质视频中的泛化能力。
数据准备阶段使用 YouHQ 高质量视频片段作为训练数据,通过 RealESRGAN 退化流程构造低质输入,合成测试集包括 UDM10、SPMCS、YouHQ40,真实测试集为 VideoLQ,数据覆盖人物、车辆、动物、街景、互联网低质视频。
输入处理阶段以低质量视频作为输入,通过 VAE encoder 编码,进入 latent space 表示空间,目的在于降低视频处理成本,便于扩散模型生成。
base model 阶段的模型来源是 Wan2.1 视频扩散基础模型,微调方式为 LoRA,主要任务是一次性恢复全局结构,重点内容包括画面布局、主体形状、低频语义信息,执行次数只执行 1 次,设计目的在于避免大模型多步推理造成高成本。
base model 训练包括 latent space 训练、VSD 约束、对抗训练、pixel space 微调和 patch 训练,其中 latent space 训练用于学习低质视频到高质视频的整体映射,VSD 约束用于让单步输出接近多步扩散模型的质量分布,对抗训练用于增强视觉真实感,pixel space 微调用于提升局部区域质量,patch 训练通过随机裁剪局部区域减少显存压力。
训练目标是全局结构准确 + 局部细节清晰;draft model 阶段的模型来源是 base model 的轻量剪枝版本,结构变化是移除部分 DiT block,主要任务是后续高频细节补充,重点内容包括边缘、纹理、局部清晰度,执行次数为多次轻量细化,设计目的在于用较小计算量模拟多步扩散的细节生成能力。
draft model 特征增强阶段将 base model 特征传递给 draft model,融合方式为对应层特征拼接,后续处理通过 FC layer 恢复维度,作用是让轻量模型获得强模型的表达信息,好处是剪枝后仍保持细节生成能力。
draft model 训练以中间 latent 状态作为输入,输出细化方向,训练损失为 L2 loss + pixel loss,不使用 VSD 以减少训练复杂度,不使用对抗损失以避免过度追求分布对齐,训练重点是高频细节恢复。
频域更新规则相当于给细节增强加了一道边界。模型会先在像素空间中把画面从 RGB 转到 YUV,并重点处理亮度信息:上一轮结果中的整体结构和低频内容被保留下来,当前 draft model 预测出的高频纹理则被补充进去。
这样做的好处是,模型不是重新改写整幅画面,而是在原有结构上增加细节,从而减少语义漂移,让纹理更丰富,同时让主体形状保持稳定。
完整推理流程依次为低质视频输入、VAE 编码、base model 单步恢复、draft model 第 1 次细化、频域更新、draft model 第 2 次细化、频域更新、draft model 第 3 次细化、频域更新、VAE 解码、高质量视频输出。
对比实验设置包括多步扩散方法 STAR、SeedVR,单步扩散方法 DLoRAL、SeedVR2、DOVE,对比维度包括画质、细节、结构一致性、时间稳定性、速度,对比方式包括量化指标 + 视觉案例 + 人工评价。
评价内容包括重建类指标用于判断结构是否接近 GT,感知类指标用于判断画面是否自然、清晰,无参考指标用于判断真实视频中的视觉质量,时间一致性指标用于判断帧间是否稳定,主观评价用于判断人眼观看偏好。
分析实验包括模块消融、步数分析、剪枝分析、强度分析和长视频讨论,其中模块消融分析 VSD、对抗损失、像素监督、频域更新,步数分析不同 T 的效果,剪枝分析不同 draft model 规模,强度分析不同 α 的细节增强程度,长视频讨论重叠切片与融合策略。
从看清视频,到看懂世界
总的来说,这项研究更重要的价值不只是提出一种视频超分方法,而是回应了普通人日常观看视频时最直接的痛点,也就是低清、模糊、压缩严重、细节丢失和播放不稳定。
伪单步框架的意义在于它并不是真正只做 1 步,而是让视觉体验和速度体验接近单步,同时在内部保留轻量多步细化,大模型负责关键一步,小模型负责后续修补,从而降低计算量,并保留细节生成能力。
base model 的意义在于提供全局结构基础,保证主体形状不乱,保证语义内容不偏,保证低频信息稳定,相当于先把整体轮廓建立准确。draft model 的意义在于以低成本补充细节,模拟多步扩散的细化过程,提升边缘、纹理、局部清晰度,避免每一步都使用大模型,相当于在稳定轮廓上继续补充纹理。
频域更新的意义在于把结构和细节分开处理,低频负责整体内容,高频负责纹理细节,只更新高频可以减少内容改写,保留低频可以增强输入输出一致性,关键价值是防止越修越偏。
对画质提升来说,PS-SR 能让细节增强更自然,人脸区域更可信,物体边缘更清楚,背景纹理更丰富,画面不容易假锐化,结果更接近真实高清视频。对视频稳定性来说,它提升的不只是单帧清晰度,还能减少帧间闪烁,让运动变化更平滑,让观看体验更舒服,这一点对真实视频应用尤其重要。
从效率的角度来看,大模型只运行关键一步,轻量模型承担重复细化,推理速度接近单步方法,计算成本远低于完整多步扩散,更利于部署在视频增强系统中。
实际应用上,这项研究可用于互联网低清视频增强、老视频修复、短视频平台画质提升、监控视频清晰化、压缩视频修复和长视频分段增强。
对后续研究来说,强模型 + 轻模型协作范式、频域约束生成思路可以迁移到视频去噪、去模糊、去压缩伪影,也能启发其他生成任务中的低成本多步细化,对实时高保真视频生成具有参考价值。
总体来看,研究形成了一个面向视频超分的效率质量折中方案,一个减少扩散模型推理成本的结构设计,一个控制语义漂移的频域细化机制,以及一个更接近实际部署需求的视频增强框架。
去哪看 CVPR 核心【演讲/论文】详解?
为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 CVPR 2026 的完整干货,雷峰网(公众号:雷峰网)已全面上线【CVPR 2026 深度专区】。
专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方记者的第一手会议动态。
扫描下方二维码,或点击「阅读原文」关注专区。
与全球 8000 名顶尖大脑同步呼吸,抢先透视具身智能的下一个五年!
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
CVPR 2026 | 支撑春晚合肥 7 分钟的4K画面奇观 PS- ...
智象未来超两千亿参数图像大模型HiDream-O1-Image-P ...
智象未来完成新一轮融资,全力打造下一代原生全模态 ...
大模型不再只是生成:智象未来CTO姚霆谈AI如何开始“ ...
万字长谈丨同济工智院华先胜:工程智能,是 AI 的「成人礼」
港中文李鸿升团队论文 MindVLA-U1:VLA 不再输给 VA,语言真正进入自动驾驶决策
“声智融合、智启未来”全场景语音AI技术与产业发展战略研讨会在北京大学成功召开,开启语音交互的未来生活方式
CVPR 2026 视频模型趋势梳理:不止生成下一帧,更要理解下一步
CVPR 2026 自动驾驶与协作智能梳理:模型正在走向可控真实世界
Nature 子刊收录!清华李勇团队用 AI 解码全球气候耦合,ENSO 预测提前期延长至 19 个月
CVPR 2026 模型适应性研究盘点:从保留旧知识,到适应真实世界
生成预测四大权威榜单第一!开悟世界模型确立具身智能世界模型新标杆
CVPR 2026终极盘点:这5篇论文、1个演讲、3个展台,藏着计算机视觉下一个十年的答案
会写字、懂排版、能分镜:HiDream-O1-Image-1.5 全能图像生成能力解析
从诺奖项目到生成式药物设计,Latent Labs 创始人 Simon Kohl:AI 正在让生物学进入「可编程时代」 | CVPR 2026