中科大&智象未来：强模型打底、轻模型精修，重塑视频超分体验丨CVPR 2026

中科大&智象未来：强模型打底、轻模型精修，重塑视频超分体验丨CVPR 2026 | 雷峰网

2026年6月12日 17:15 雷锋网 AI 中文资讯关注 13 分钟阅读 3819 字归档：2026年6月12日 17:15 查看原文 →

模型

导读

PS-SR：兼顾速度、细节与稳定性，让低清画面更可信。

原文快照

站内保留一份可阅读的正文副本；如抓取失败，则保留摘要和原文链接。

中科大&智象未来：强模型打底、轻模型精修，重塑视频超分体验丨CVPR 2026

在生成式 AI 进入视频生产链之后，视频增强正在从后期修补工具，变成内容生产、内容分发和机器视觉理解中的基础能力。

现实需求已经不只是让画面变清楚，而是要在电商直播中看清商品质感，在工业巡检中识别裂纹和仪表读数，在远程协作中保留设计细节，在文博数字化中尽量还原影像纹理。

随着 4K 级高清内容逐渐成为视频平台、智能电视、大屏显示和专业制作流程中的常见需求，低清素材如何被稳定放大到更高分辨率，同时保留纹理、边缘和运动连续性，也成为视频增强技术必须面对的问题。

难点在于，视频增强不能只追求锐度。传统单步模型速度快，但细节往往保守；多步扩散模型细节丰富，但推理成本高，难以大规模落地。更复杂的是，视频不是单张图片，每一帧清楚还不够，帧与帧之间还要稳定，否则就会出现闪烁、跳动和细节漂移。

在这样的背景下，中国科学技术大学与智象未来研究团队提出了《PS-SR: Pseudo-Single-Step Video Super-Resolution via Speculative Diffusion》。

这项研究没有简单地在单步和多步之间二选一，而是让强大的 base model 先恢复整体结构，再让轻量 draft model 补充细节，并通过频域更新约束生成范围，让模型尽量增强纹理而不改写主体内容。

它真正回应的问题是：当视频增强进入大规模应用时，系统能不能既足够快，又足够稳，还能生成可信细节。PS-SR 探索的伪单步扩散路径，为高质量视频增强提供了一种更接近实际部署的方案，也为内容平台、智能视觉系统和生成式视频工具提供了新的技术参考。

项目地址：https://waq2001.github.io/PS-SR-page/

像单步一样快，像多步一样细

实验结果方面，PS-SR 在画质、速度、稳定性三方面较均衡，核心优势是接近单步模型的速度，同时具备多步扩散模型级别的细节表现，主要提升体现在纹理更清楚、结构更稳定、帧间抖动更少，适用场景包括合成退化视频和真实互联网低质视频

与其他方法相比，PS-SR 相比 STAR、SeedVR 速度明显更快，相比 DLoRAL、SeedVR2、DOVE 细节更自然、结构偏移更少。

重建质量表现上，UDM10、SPMCS、YouHQ40 的整体重建指标靠前，结构一致性较强，低频内容保留较好，输入视频主体信息变化较小，高质量输出更接近真实高清视频。雷峰网

真实视频表现上，VideoLQ 是无高清参考的真实低质视频，PS-SR 在人脸区域能让五官边缘更稳定、细节不过度扭曲。

时间一致性表现上，PS-SR 的帧间连续性优于对比方法，视频闪烁减少，局部纹理跳动减少，运动区域更平滑，播放观感更稳定，关键原因是基础视频扩散模型中的 motion prior 被保留。

主观评价结果显示，参与者更倾向选择 PS-SR，偏好原因是清晰度、自然感、连续性综合更好，视觉优势不是单纯锐化，而是结构保真 + 细节增强，用户感知重点集中在人脸自然度、物体边缘、视频流畅度。

消融实验结果显示，去掉 VSD 后生成质量下降，画面细节不够丰富，去掉对抗损失后真实感下降，纹理表现变弱，去掉像素监督后局部区域还原能力下降，去掉频域更新后细节可能更“锐”，但结构更容易偏移，完整 PS-SR 在细节、稳定性、输入一致性之间更平衡。雷峰网

速度结果显示，PS-SR 采用 1 次 base model 推理 + 3 次 draft model 细化，推理耗时接近单步方法，计算开销明显低于多步扩散方法，实用价值是更适合实际视频增强部署。

参数分析结果显示，采样步数较少时结构保真更强，但细节不足。采样步数较多时细节更丰富，但内容偏移风险增加，最终设置为 T = 4，细化强度较低时画面稳定，但不够清晰，细化强度较高时画面更锐，但可能改变结构，最终设置为 α = 0.6，draft model 剪枝过少时速度提升有限，draft model 剪枝过多时细节生成能力不足，最终设置为剪掉 20 个 DiT block。

这些结果也解释了 PS-SR 为什么采用“强模型打底，轻模型精修”的设计：它不是单纯增加推理步骤来换取画质，也不是为了速度压缩到只剩一次生成，而是在结构恢复、细节补充和计算成本之间寻找平衡。下面进一步拆解研究团队如何搭建和验证这一流程。

强模型打底，轻模型精修

整体来看，研究的实验目的包括验证 PS-SR 的视频超分能力，验证“伪单步”框架的速度优势，验证多步细化带来的细节提升，验证频域更新对结构稳定性的作用，验证真实低质视频中的泛化能力。

数据准备阶段使用 YouHQ 高质量视频片段作为训练数据，通过 RealESRGAN 退化流程构造低质输入，合成测试集包括 UDM10、SPMCS、YouHQ40，真实测试集为 VideoLQ，数据覆盖人物、车辆、动物、街景、互联网低质视频。

输入处理阶段以低质量视频作为输入，通过 VAE encoder 编码，进入 latent space 表示空间，目的在于降低视频处理成本，便于扩散模型生成。

base model 阶段的模型来源是 Wan2.1 视频扩散基础模型，微调方式为 LoRA，主要任务是一次性恢复全局结构，重点内容包括画面布局、主体形状、低频语义信息，执行次数只执行 1 次，设计目的在于避免大模型多步推理造成高成本。

base model 训练包括 latent space 训练、VSD 约束、对抗训练、pixel space 微调和 patch 训练，其中 latent space 训练用于学习低质视频到高质视频的整体映射，VSD 约束用于让单步输出接近多步扩散模型的质量分布，对抗训练用于增强视觉真实感，pixel space 微调用于提升局部区域质量，patch 训练通过随机裁剪局部区域减少显存压力。

训练目标是全局结构准确 + 局部细节清晰；draft model 阶段的模型来源是 base model 的轻量剪枝版本，结构变化是移除部分 DiT block，主要任务是后续高频细节补充，重点内容包括边缘、纹理、局部清晰度，执行次数为多次轻量细化，设计目的在于用较小计算量模拟多步扩散的细节生成能力。

draft model 特征增强阶段将 base model 特征传递给 draft model，融合方式为对应层特征拼接，后续处理通过 FC layer 恢复维度，作用是让轻量模型获得强模型的表达信息，好处是剪枝后仍保持细节生成能力。

draft model 训练以中间 latent 状态作为输入，输出细化方向，训练损失为 L2 loss + pixel loss，不使用 VSD 以减少训练复杂度，不使用对抗损失以避免过度追求分布对齐，训练重点是高频细节恢复。

频域更新规则相当于给细节增强加了一道边界。模型会先在像素空间中把画面从 RGB 转到 YUV，并重点处理亮度信息：上一轮结果中的整体结构和低频内容被保留下来，当前 draft model 预测出的高频纹理则被补充进去。

这样做的好处是，模型不是重新改写整幅画面，而是在原有结构上增加细节，从而减少语义漂移，让纹理更丰富，同时让主体形状保持稳定。

完整推理流程依次为低质视频输入、VAE 编码、base model 单步恢复、draft model 第 1 次细化、频域更新、draft model 第 2 次细化、频域更新、draft model 第 3 次细化、频域更新、VAE 解码、高质量视频输出。

对比实验设置包括多步扩散方法 STAR、SeedVR，单步扩散方法 DLoRAL、SeedVR2、DOVE，对比维度包括画质、细节、结构一致性、时间稳定性、速度，对比方式包括量化指标 + 视觉案例 + 人工评价。

评价内容包括重建类指标用于判断结构是否接近 GT，感知类指标用于判断画面是否自然、清晰，无参考指标用于判断真实视频中的视觉质量，时间一致性指标用于判断帧间是否稳定，主观评价用于判断人眼观看偏好。

分析实验包括模块消融、步数分析、剪枝分析、强度分析和长视频讨论，其中模块消融分析 VSD、对抗损失、像素监督、频域更新，步数分析不同 T 的效果，剪枝分析不同 draft model 规模，强度分析不同 α 的细节增强程度，长视频讨论重叠切片与融合策略。

从看清视频，到看懂世界

总的来说，这项研究更重要的价值不只是提出一种视频超分方法，而是回应了普通人日常观看视频时最直接的痛点，也就是低清、模糊、压缩严重、细节丢失和播放不稳定。

伪单步框架的意义在于它并不是真正只做 1 步，而是让视觉体验和速度体验接近单步，同时在内部保留轻量多步细化，大模型负责关键一步，小模型负责后续修补，从而降低计算量，并保留细节生成能力。

base model 的意义在于提供全局结构基础，保证主体形状不乱，保证语义内容不偏，保证低频信息稳定，相当于先把整体轮廓建立准确。draft model 的意义在于以低成本补充细节，模拟多步扩散的细化过程，提升边缘、纹理、局部清晰度，避免每一步都使用大模型，相当于在稳定轮廓上继续补充纹理。

频域更新的意义在于把结构和细节分开处理，低频负责整体内容，高频负责纹理细节，只更新高频可以减少内容改写，保留低频可以增强输入输出一致性，关键价值是防止越修越偏。

对画质提升来说，PS-SR 能让细节增强更自然，人脸区域更可信，物体边缘更清楚，背景纹理更丰富，画面不容易假锐化，结果更接近真实高清视频。对视频稳定性来说，它提升的不只是单帧清晰度，还能减少帧间闪烁，让运动变化更平滑，让观看体验更舒服，这一点对真实视频应用尤其重要。

从效率的角度来看，大模型只运行关键一步，轻量模型承担重复细化，推理速度接近单步方法，计算成本远低于完整多步扩散，更利于部署在视频增强系统中。

实际应用上，这项研究可用于互联网低清视频增强、老视频修复、短视频平台画质提升、监控视频清晰化、压缩视频修复和长视频分段增强。

对后续研究来说，强模型 + 轻模型协作范式、频域约束生成思路可以迁移到视频去噪、去模糊、去压缩伪影，也能启发其他生成任务中的低成本多步细化，对实时高保真视频生成具有参考价值。

总体来看，研究形成了一个面向视频超分的效率质量折中方案，一个减少扩散模型推理成本的结构设计，一个控制语义漂移的频域细化机制，以及一个更接近实际部署需求的视频增强框架。

去哪看 CVPR 核心【演讲/论文】详解？

为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 CVPR 2026 的完整干货，雷峰网(公众号：雷峰网)已全面上线【CVPR 2026 深度专区】。

专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲，更将持续更新前方记者的第一手会议动态。

扫描下方二维码，或点击「阅读原文」关注专区。

与全球 8000 名顶尖大脑同步呼吸，抢先透视具身智能的下一个五年！

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

CVPR 2026 | 支撑春晚合肥 7 分钟的4K画面奇观 PS- ...

智象未来超两千亿参数图像大模型HiDream-O1-Image-P ...

智象未来完成新一轮融资，全力打造下一代原生全模态 ...

大模型不再只是生成：智象未来CTO姚霆谈AI如何开始“ ...

万字长谈丨同济工智院华先胜：工程智能，是 AI 的「成人礼」

港中文李鸿升团队论文 MindVLA-U1：VLA 不再输给 VA，语言真正进入自动驾驶决策

“声智融合、智启未来”全场景语音AI技术与产业发展战略研讨会在北京大学成功召开，开启语音交互的未来生活方式

CVPR 2026 视频模型趋势梳理：不止生成下一帧，更要理解下一步

CVPR 2026 自动驾驶与协作智能梳理：模型正在走向可控真实世界

Nature 子刊收录！清华李勇团队用 AI 解码全球气候耦合，ENSO 预测提前期延长至 19 个月

CVPR 2026 模型适应性研究盘点：从保留旧知识，到适应真实世界

生成预测四大权威榜单第一！开悟世界模型确立具身智能世界模型新标杆

CVPR 2026终极盘点：这5篇论文、1个演讲、3个展台，藏着计算机视觉下一个十年的答案

会写字、懂排版、能分镜：HiDream-O1-Image-1.5 全能图像生成能力解析

从诺奖项目到生成式药物设计，Latent Labs 创始人 Simon Kohl：AI 正在让生物学进入「可编程时代」 | CVPR 2026