爱诗科技发布通用实时世界模型PixVerse R1,支持最高1080P分辨率

新浪科技讯 1月14日上午消息,爱诗科技发布支持最高1080P分辨率通用实时世界模型PixVerse R1,宣布首次将视频生成的延迟从“秒级”降至“即时”响应,实现了“所想即所见、所说即所现”的实时交互体验,标志着AIGC领域的视频生成正式从“静态输出”迈入“实时交互”的全新阶段。

在传统视频制作流程中,高延迟、固定时长生成是长期存在的痛点,难以满足用户对实时响应与内容共创的需求。PixVerse R1通过Omni 原生多模态基础模型、自回归流式生成机制,与瞬时响应引擎三大核心技术突破,系统性地解决了上述问题,推动数字媒体从“预录制回放”向“实时动态生成”演进。

首先,Omni 原生多模态基础模型打破了传统多模态系统“拼接式”处理的局限。它采用Transformer架构,具有高扩展性,模型统一Token流架构,将文本、图像、音频与视频融合为单一生成序列,实现真正端到端的跨模态理解与输出。更为关键的是,模型全程在原生分辨率下训练,避免了上采样带来的模糊与伪影。通过scaleup训练,使光影变化、物体运动与物理交互具备一致性和真实感。

在此基础上,自回归流式生成机制解决了长时序一致性这一行业难题。通过引入记忆增强注意力模块,可生成任意长度的视频内容,并长期维持角色身份、物体状态与环境逻辑的一致性。用户不再受限于几秒片段,而能在生成过程中随时插入新指令,系统即时响应并动态调整叙事,实现真正的“流式交互”。

而让这一切“实时”成为可能的,是创造性的瞬时响应引擎。IRE 通过时间轨迹折叠、引导校正和自适应稀疏采样三大创新,将传统扩散模型所需的 50+ 采样步数压缩至惊人的 1–4 步,计算效率提升数百倍,让动态画面进入人眼可感知的“即时”响应阈值。

上一篇:苹果谷歌AI联姻 分析师:有两大原因迫使苹果这么做
免责声明:

1、本网站所展示的内容均转载自网络其他平台,主要用于个人学习、研究或者信息传播的目的;所提供的信息仅供参考,并不意味着本站赞同其观点或其内容的真实性已得到证实;阅读者务请自行核实信息的真实性,风险自负。