如何用 AI 多智能体打造精品视频内容

在 AI 内容创作工具百花齐放，创作者面临的最大痛点不是”有没有工具”，而是”工具太多、流程太碎”。剧本要写、分镜要画、资产要生成、视频要渲染。每一步都在不同平台间跳转，风格难以统一，协作效率低下。

VibePaper 深度基于原生多模态多 Agent 与知识图谱处理能力，是一张可以发挥一切创造力的”像素画纸”。从剧本拆解到成片交付，通过对话与点击交互即可深度智能化实现精品内容的端到端创作。VibePaper 能覆盖全创作流程。

一、VibePaper 是什么？

VibePaper 是多模态 AI 创作平台，核心定位是”像素画纸”。通过多智能体协作与知识图谱驱动，用户通过自然对话和画布交互，完成从剧本到成片的完整内容生产。

两大版本满足不同需求

个人版：提供完整的画布与 Agent 能力（除 Seedance 2.0 视频生成模型），支持多 Agent 自动化实现剧本拆解、资产图片生成、分镜图片生成、分镜视频生成，辅助或代理构建端到端的精品内容交付能力。

企业版：在个人版完整画布能力的基础上，进一步增强团队协作与管理能力，提供成员与权限管理、资源用量监控、企业级数据可视化看板等功能，适配企业级开发流程规范，满足数据安全与合规要求。

二、快速入门

访问VibePaper官网，点击左侧侧边导航”我的账号”，选择微信、谷歌或抖音登录，如未注册过将自动完成注册。

登录后在右侧对话框中输入文字即可开始对话，右侧可以看到对话的历史记录。

进阶技巧：可以选中画布中的内容（文、图、视频）作为 Agent 的上下文来进行对话，让 AI 基于已有素材继续创作。

生成图片 / 视频

方式一：手动生成

点击下方「+」按钮，点击选择并创建生图卡片

画布出现生图卡片，其中可调节参数

输入提示词并点击运行，结果将在卡片中展示

方式二：对话生成

通过对话输入想要的语义来控制内容实现图片生成。

同样可以选中画布中的内容（文、图、视频）作为 Agent 的上下文来进行生成。

上传内容

点击下方「上传」按钮

点击选择上传图片，图片会快速上传云端永久存储。

以上操作视频同理，选择创建生视频卡片即可。

三、VibePaper核心能力解析

内置多智能体与多原生模型

VibePaper 的 Agent 自动布局所有分镜：如何拆分镜头剧本、适配哪些人物场景资产、如何撰写静态动态提示词，都智能完成。

多 Agent 协作推进，涵盖：多模态意图识别；内容知识图谱构建；长中短记忆管理；多 Agent 执行操作与画布感知。

覆盖多种模型：

类型	支持模型
文本	Gemini、Claude、OpenAI、Seed、Kimi 等
图片	Banana、GPT-Image、Wan、Seedream、Midjourney 等
视频	Seedance、Veo、Vidu、Wan、MiniMax、PixVerse、Kling 等

记忆模块：越用越懂你的创作 Agent

Agent 的记忆是可观测、可修改、可分享的，包含三个层级：

长期记忆：跨任务可复用的视频制作流程、方法论与审美风格模板，记录创作者使用习惯。
中期记忆：当前项目有效的人物、剧情、场景和关系，保持人物、场景、风格整体一致性。
短期记忆：上下文内容。

记忆模块随账号永久保存，通过对话让 Agent 记住你的创作风格、流程与习惯，训练专属于自己的创作 Agent。

技能库：可配置的创作能力

所有技能可配置为两种文件格式：

skill.md：用户指导模型行为的描述性文字
skill.ts：模型真实调用工具、执行任务的工具调用方案

拥抱开放的创作模式

每个团队都有独特的创作协同流程，每个创作者都有自己独特的审美与习惯。VibePaper 从技术上兼容所有可能性，去掉束缚，在空间、智能、人的协同中共同进化。

四、最佳实践：海外真人精品 AI 剧情生成（推荐执行顺序）

整体流程建议按以下步骤执行：

上传剧本：以 Markdown 文件形式上传剧本，交给 Agent 实现剧本拆解
生成资产：同时 Agent 生成人物与场景资产图
生成分镜图：基于以上生成的结果，生成单个场景分镜图
生成分镜视频：基于单个场景分镜图，生成单个场景的分镜视频
后期处理：分镜视频完成后期处理，交付成片

五、精选提示词案例

九宫格分镜提示词（国内版）

适用场景：根据剧情梗概快速生成 3×3 电影感分镜网格。

使用方法：将以下模板中的【剧情梗概】替换为你的内容，交给 Agent 执行。

故事梗概:【在这里输入你的剧情梗概】

重要提示:不要直接生成图像,而是为图像创建详细的提示词。图像提示词必须参考用户提供的故事和参考图,且必须严格遵循图像提示词的细节要求。

当用户提供短篇故事梗概时,请遵循以下步骤:
1.分析梗概并识别:
-主要主体(个人、双人、群体、生物、车辆、物体)
-他们的外貌和定义性特征
-环境和基调
-情感或叙事节拍
-故事隐含的光影/氛围

2.创建一个完整的3×3电影感分镜网格,包含同一主体在同一环境下的9个不同镜头,保持服装、光影和氛围的高度一致。

3.输出一个包含所有9个帧(标记为1-9)的单一内聚AI图像提示词,使用以下结构:

输出格式
电影感3×3分镜提示词
故事梗概(解读):<<对用户梗概的一句话解读>

提示词正文:创建一个专业的3×3电影感分镜网格,展示梗概中相同的主体在相同的环境中。保持外貌、服装、光影、氛围和环境细节的绝对一致。每个面板代表遵循电影惯例的独立摄像镜头。

第一排–交代环境
1.大远景(ELS):展示完整环境,主体在画面中很小。匹配故事的设定、光影和氛围。
2.全景(LS):主体完整可见(从头到脚,或物体/车辆全貌),自然地站立/放置在环境中。
3.中远景(MLS/3-4/美式镜头):从膝盖以上构图(或物体的3/4角度),展示姿态、体态和核心情绪。

第二排–核心覆盖
4.中景(MS):腰部以上构图。捕捉故事隐含的关键动作、态度或情感节拍。
5.中特写(MCU):胸部以上构图。聚焦于情绪、表情、微观互动或叙事张力。
6.特写(CU):脸部紧凑镜头(或物体的正面细节)。电影级景深,情感表达清晰。

第三排-细节与角度
7.大特写(ECU):宏观细节:眼睛、手部、象征性物体、纹理或关键故事元素。
8.低角度镜头(虫瞻位):摄像机从下方仰视主体。根据故事基调呈现戏剧性、英雄感或威压感。
9.高角度镜头(鸟瞰位):摄像机从上方俯视。展示空间清晰度、脆弱感或动作全景。

全局要求
-所有9帧中必须是相同的图像主体
-相同的服装、发型、道具、武器或配饰
-相同的光影条件和调色方案
-一致的环境和天气
-每个镜头具备正确的写实感和电影级景深
-照片级的纹理细节

九宫格分镜提示词（海外版）

适用场景：海外真人风格剧情，强调对话序列与轴线规则。

Use the uploaded characters as references, keeping facial structure, proportions, and identity exactly consistent with the character references and naturally integrated into the scene.

They sit directly opposite each other at a table inside [LOCATION], arranged for a dialogue sequence.

All panels must appear as [VISUAL STYLE] frames (e.g., live action, anime).

Build a single 3×3 cinematic storyboard grid, panels clearly separated by thin black borders, counted left to right, top to bottom, adhering strictly to the shot structure below:

1: The Master Shot — wide, slightly elevated establishing frame that maps the spatial relationship between characters, table and environment, revealing architectural context and background movement.

2: The Two-Shot — balanced medium-wide frame at seated eye level, holding both characters in equal visual weight across the table, preserving clean eye-line continuity.

3: Over-the-Shoulder (Character A) — camera placed just behind Character A’s shoulder on the established side of the axis, using their shoulder as a soft foreground frame while focusing on Character B.

4: Over-the-Shoulder (Character B) — camera remains on the same conversational axis, positioned behind Character B’s shoulder maintaining consistent screen direction and spatial logic while framing Character A.

5: Medium Close-Up (Character A) — chest-up framing, with controlled contrast and softly diffused background detail.

6: Medium Close-Up (Character B) — chest-up framing mirroring the previous shot, maintaining visual rhythm and lighting continuity.

7: Close-Up (Character A) — tight facial framing capturing fine emotional detail, shallow depth of field isolating the subject from the environment.

8: Close-Up (Character B) — tight facial framing counterbalancing the previous close-up, matching lens behavior and lighting quality.

9: Insert Shot — extreme close-up of [PHYSICAL DETAIL]

Seedance 2.0 分镜提示词案例

适用场景：国漫 CG 风格动作剧情，含详细人物设定与分镜时间轴。

以下是一个完整的 15 秒动作剧情分镜示例，可直接作为参考模板修改使用：

画风设定：顶尖 3D 国漫电影 CG 画风，《画江湖之不良人》水墨与 3D 融合美学，电影级角色建模，实时游戏引擎质感，超精细材质，动态光照，体积雾，粒子特效，墨色气劲特效，流畅 60fps。

主角设定：张三，东亚面孔，18 至 25 岁……（此处保留完整的人物外貌、服装、配饰细节描述）

场景设定：唐末雨夜山间，薄雾从深谷翻涌而上……

分镜时间轴：

镜头 01（0-1.5s）：俯拍广角远景，烟雨山间，栈道蜿蜒于峭壁之侧……

镜头 02（1.5-3s）：低角度侧面跟拍中景，张三在前追赶……

镜头 03（3-4s）：正面中近景，张三追至孤崖截住和尚……

……（依此类推至镜头 10）

VibePaper 的本质不是替代创作者，是将创作过程中重复、繁琐、技术门槛高的环节交给 AI Agent，让创作者把精力集中在创意、审美和叙事上。从一张空白的”像素画纸”开始，通过对话与点击，你的每一个灵感都能被结构化地拆解、可视化地呈现、高质量地交付。

现在登录 VibePaper，上传你的第一个剧本，让 Agent 为你拆解第一个分镜。