热点新闻

新浪科技讯 1月14日上午消息，爱诗科技发布支持最高1080P分辨率通用实时世界模型PixVerse R1，宣布首次将视频生成的延迟从“秒级”降至“即时”响应，实现了“所想即所见、所说即所现”的实时交互体验，标志着AIGC领域的视频生成正式从“静态输出”迈入“实时交互”的全新阶段。

在传统视频制作流程中，高延迟、固定时长生成是长期存在的痛点，难以满足用户对实时响应与内容共创的需求。PixVerse R1通过Omni 原生多模态基础模型、自回归流式生成机制，与瞬时响应引擎三大核心技术突破，系统性地解决了上述问题，推动数字媒体从“预录制回放”向“实时动态生成”演进。

首先，Omni 原生多模态基础模型打破了传统多模态系统“拼接式”处理的局限。它采用Transformer架构，具有高扩展性，模型统一Token流架构，将文本、图像、音频与视频融合为单一生成序列，实现真正端到端的跨模态理解与输出。更为关键的是，模型全程在原生分辨率下训练，避免了上采样带来的模糊与伪影。通过scaleup训练，使光影变化、物体运动与物理交互具备一致性和真实感。

在此基础上，自回归流式生成机制解决了长时序一致性这一行业难题。通过引入记忆增强注意力模块，可生成任意长度的视频内容，并长期维持角色身份、物体状态与环境逻辑的一致性。用户不再受限于几秒片段，而能在生成过程中随时插入新指令，系统即时响应并动态调整叙事，实现真正的“流式交互”。

而让这一切“实时”成为可能的，是创造性的瞬时响应引擎。IRE 通过时间轨迹折叠、引导校正和自适应稀疏采样三大创新，将传统扩散模型所需的 50+ 采样步数压缩至惊人的 1–4 步，计算效率提升数百倍，让动态画面进入人眼可感知的“即时”响应阈值。

爱诗科技发布通用实时世界模型PixVerse R1，支持最高1080P分辨率

相关推荐