Coze 创意实战：AI 让历史人物“开口说话”，一键生成自述视频全流程指南

本文最后更新于 2025年11月27日，距今已 230 天，其中的信息可能已经发生变化，请注意甄别。

你是否刷到过这样的创意视频：李清照身着宋装娓娓道来南渡历程，曹操以豪迈语气讲述官渡之战，搭配贴合场景的古风插画与背景音乐，让枯燥的历史变得生动鲜活？借助 Coze（扣子）的可视化工作流，无需专业剪辑、设计技能，就能自动化完成从文案创作到视频输出的全流程，让历史人物“复活”在屏幕上。

本文将从原理拆解、分步实操、参数优化、故障排查四个维度，详细讲解这套创意视频的制作逻辑，补充原文未覆盖的提示词技巧、风格定制方法和多场景扩展，帮你不仅能“照搬流程”，更能灵活调整细节，打造独具特色的历史人物自述视频。

一、核心逻辑与前期准备

1. 工作流核心原理

这套 Coze 工作流的本质是“AI 工具链协同”，通过五大模块的自动化串联，实现“输入人物名称→输出完整视频”的闭环：

文案生成：AI 模拟历史人物口吻，撰写符合其生平与性格的第一人称自述；
文案分镜：将长文案拆分为短片段，每个片段对应一个视频镜头；
图片生成：为每个分镜匹配风格统一的可视化图片；
语音合成：生成贴合人物性别与气质的旁白音频；
视频合成：整合图片、语音、字幕、背景音乐，生成完整视频。

2. 输出效果与适用场景

效果特征：竖屏短视频（适配抖音/视频号），旁白自然流畅，画面与文案高度同步，风格统一（如古风漫画、写实插画）；
适用场景：历史科普内容、课堂教学素材、文化类自媒体作品、创意短视频创作。

3. 前置准备

工具：注册 Coze 账号（coze.cn），无需付费，免费插件即可满足全流程需求；
基础认知：熟悉 Coze 工作流的核心操作——添加节点、引用变量、配置批处理（可视化拖拽操作，无需代码基础）；
可选素材：提前准备免费商用背景音乐（如古风、史诗风格），或直接使用 Coze 内置音乐插件。

二、分步实操：五大模块详细拆解

整套工作流的关键在于“参数精准配置”与“节点逻辑衔接”，以下是每个模块的具体操作的详细解读，包含参数含义、优化技巧和插件选型建议：

1. 模块一：自述文案生成（视频的“灵魂骨架”）

核心目标：生成符合历史人物身份、性格、生平的第一人称文案，避免模板化表达，为后续分镜和画面奠定基础。

（1）核心节点配置

节点名称	功能描述	关键参数与配置细节
开始节点	定义输入变量，接收核心信息	- 必填变量1：`input`（旁白声音）→ 男性人物填“擎苍”，女性填“温柔小雅”； - 必填变量2：`role`（历史人物名称）→ 如“李清照”“曹操”“武则天”； - 可选变量3：`text`（自定义文案）→ 不建议填写，由 AI 自动生成更贴合人物语气
大模型-文案生成	模拟人物口吻撰写自述文案	- 模型选择：豆包·1.5 Pro 32k（长文本支持好，中文理解精准）； - 提示词优化（关键）： “你是{role}，以第一人称讲述自己的一生，要求： 1. 突出3-5个关键人生节点（如仕途、创作、重大事件）； 2. 语气贴合人物性格（李清照婉约深情，曹操豪迈霸气，武则天沉稳果决）； 3. 语言口语化，避免学术化表达，总长度800-1200字； 4. 段落清晰，每个段落对应一个独立场景（便于后续分镜）”
大模型-标题生成	生成吸睛视频标题	- 提示词：“为{role}的自述视频生成3个标题，格式为‘【人物】+ 核心亮点’，如‘【李清照】从书香才女到南渡流离，我的诗词与人生’”
文案变量聚合	统一输出文案和标题，供后续节点引用	- 输出变量：`content`（自述文案）、`title`（视频标题），方便后续节点直接调用

（2）文案优化技巧

人物细节补充：在提示词中加入人物特征，如“曹操，东汉末年政治家，讲述时穿插‘宁教我负天下人’的枭雄气质，重点突出官渡之战、赤壁之战”；
结构规范化：要求 AI 按“人生阶段”分段（如少年、中年、晚年），每个段落对应一个视频分镜，减少后续拆分难度。

2. 模块二：自述文案分镜（视频的“镜头划分”）

核心目标：将完整文案拆分为短片段（每段10-20字），每个片段对应一个视频镜头，确保画面与语音同步，避免出现“画面与文案不匹配”的问题。

（1）核心节点配置

节点名称	功能描述	关键参数与配置细节
文案自动分镜插件	将长文案拆分为短片段数组	- 输入变量：`text`→ 引用“文案变量聚合”节点的`content`； - 辅助参数：`num`（每行最短字数）→ 设为10，避免片段过短或过长； - 输出变量：`texts`（分镜文案数组），如["我出生于北宋济南的书香门第", "自幼受家庭熏陶，酷爱诗词"]
代码节点-添加序号	为分镜文案添加序号，便于匹配图片/语音	- 代码逻辑（JavaScript，Coze 内置代码节点直接使用）： `return texts.map((item, index) => ({ id: index + 1, content: item }))`； - 输出：带序号的分镜数组，如[{"id":1, "content":"我出生于北宋济南的书香门第"}]

（2）插件选型与避坑

插件选择：优先使用 Coze 官方“文案自动分镜”插件（调用成功率高、稳定性强），避免第三方插件的兼容性问题；
分镜调整：若生成的分镜过碎（如5字一段），可将num参数调整为15；若分镜过长（如30字一段），可调整为8，按需适配视频节奏。

3. 模块三：分镜图片生成（视频的“视觉外衣”）

核心目标：为每个分镜生成风格统一的可视化图片，让画面与文案精准匹配，同时保证整体视觉协调，避免风格混乱。

（1）核心节点配置（批处理循环）

该模块采用“批处理”节点，循环处理每个分镜文案，确保“一个分镜→一张图片”，核心逻辑是“提示词生成→图片生成→失败重试”：

节点名称	功能描述	关键参数与配置细节
批处理-生成图片	循环处理每个分镜文案	- 输入：带序号的分镜数组； - 输出：图片 URL 数组（与分镜一一对应）
大模型-图片提示词	生成精准的图片描述（提示词）	- 提示词优化： “基于分镜文案{content}，生成古风漫画风格图片，要求： 1. 人物为{role}，服饰符合其时代背景（北宋襦裙、东汉官服）； 2. 场景贴合文案（如书香门第、战场、书桌创作）； 3. 色调统一（李清照用暖粉色调，曹操用冷蓝色调）； 4. 无文字、画面简洁，突出人物主体”
图像生成插件	根据提示词生成图片	- 模型选择：通用-Pro（免费、生成速度快）； - 图片尺寸：1080×1920（竖屏，适配短视频平台）； - 参考图（可选）：上传一张目标风格参考图（如古风漫画范例），确保所有分镜风格一致
选择器-图片校验	处理图片生成失败场景	- 逻辑配置：若图片生成成功，直接输出 URL；若失败，自动优化提示词（如“简化场景，突出人物，色调统一”）重新生成，保障流程不中断

（3）图片风格优化技巧

风格统一性：所有分镜使用同一组风格关键词（如“古风漫画、线条简洁、色彩淡雅、无背景杂物”）；
人物一致性：在提示词中明确人物外貌特征，如“李清照，梳北宋双丫髻，着淡粉色襦裙，面容清秀，气质温婉”；
版权规避：选择 Coze 内置的免费商用图片生成插件，或在提示词中注明“免费商用、无版权风险”。

4. 模块四：文案转语音（视频的“声音灵魂”）

核心目标：生成贴合人物性别、性格的旁白音频，同时获取音频时长，为后续视频合成时的“画面-语音同步”提供数据支持。

（1）核心节点配置（批处理循环）

节点名称	功能描述	关键参数与配置细节
批处理-生成语音	循环处理每个分镜文案，生成对应音频	- 输入：带序号的分镜数组； - 输出：音频 URL 数组 + 时长数组
语音合成火山版	生成自然流畅的旁白音频	- 核心参数： 1. `text`→ 引用分镜文案`content`； 2. `voice_id`→ 引用“开始节点”的`input`（男选“擎苍”，女选“温柔小雅”）； 3. `speed_ratio`（语速）→ 默认1，曹操可设为1.1（偏快），李清照可设为0.9（偏慢）； 4. `emotion`（情感）→ 贴合分镜场景，如“悲伤”“豪迈”“温柔”； - 输出：`link`（音频 URL）
剪映小助手-获取时长	提取音频时长（秒）	- 输入：`mp3_url`→ 引用“语音合成火山版”的`link`； - 输出：`duration`（音频时长），如5秒，用于后续画面时长匹配

（2）语音优化技巧

情感适配：分镜文案涉及悲伤场景（如李清照“丈夫病逝”）时，设置emotion="悲伤"，emotion_scale=0.8（情感强度）；
避免卡顿：分镜文案长度控制在10-20字，音频时长约3-5秒，确保画面切换流畅，无拖沓感。

5. 模块五：视频合成（最终成品输出）

核心目标：将图片、语音、字幕、背景音乐、特效等元素整合为完整视频，无需手动剪辑，自动化完成后期制作。

（1）核心节点配置

该模块是工作流的“收尾环节”，核心依赖“剪映小助手”系列插件，节点较多但逻辑清晰，重点关注元素整合与同步：

节点名称	功能描述	关键参数与配置细节
文本处理-字幕生成	生成剪映支持的字幕格式	- 输入：带序号的分镜数组 + 音频时长数组； - 输出：字幕数据（包含每个字幕的开始时间、结束时间、内容），确保字幕与语音同步
关键帧生成	为图片添加切换特效	- 特效选择：淡入淡出（默认，适配大多数场景）、滑动切换（适合动态场景如战场）； - 画面时长：每个图片显示时长=对应音频时长，避免画面与语音不同步
背景音乐添加	为视频添加贴合风格的背景音乐	- 音乐选择：Coze 内置“古风音乐”插件（如古筝曲《渔舟唱晚》、二胡曲《二泉映月》）； - 音量设置：0.3（避免盖过旁白）； - 循环设置：若背景音乐时长短于视频总时长，启用“循环播放”
剪映小助手-视频合成	整合所有元素，生成最终视频	- 输入：图片数组 + 音频数组 + 字幕数据 + 背景音乐； - 输出参数：分辨率1080×1920（竖屏）、帧率30fps； - 输出结果：视频 URL，可直接下载或分享到短视频平台

（2）视频优化技巧

特效升级：历史转折场景（如曹操“官渡之战胜利”）可添加“缩放+高亮”特效，突出重点；
字幕样式：设置字幕字体为“楷体”，颜色为白色，背景为半透明黑色（提高可读性），字号适配手机屏幕；
时长校准：若出现“画面早于语音结束”或“语音早于画面结束”，调整“关键帧生成”节点的“画面时长”，强制与音频时长一致。

三、工作流导入与定制化修改

1. 快速导入工作流（拿来即用）

获取工作流模板：在 Coze 社区搜索“历史人物自述视频”，找到对应工作流模板，或导入他人分享的源码；
导入操作：打开 Coze 工作台→点击“工作流”→“导入”→粘贴源码→确认导入；
参数校验：导入后检查所有“引用变量”是否正确（如文案聚合的content、语音合成的voice_id），避免变量引用错误；
测试运行：输入“李清照”“温柔小雅”，点击“运行”，等待5-10分钟（图片生成+视频合成耗时较长），即可获取完整视频。

2. 定制化修改方向

风格替换：将图片风格从“古风漫画”改为“写实插画”，只需修改“图片提示词”中的风格关键词；
人物扩展：支持文学人物（如“林黛玉”）、神话人物（如“嫦娥”），只需在“文案生成”提示词中补充人物背景；
平台适配：生成横屏视频（1920×1080），调整图片尺寸、字幕位置，适配 B 站/西瓜视频；
元素添加：加入片头片尾（如“历史人物系列”片头动画）、自媒体账号水印，通过 Coze 内置“视频编辑”插件实现。

四、常见问题与故障排查

1. 图片生成失败/风格不一致

原因：提示词模糊、插件负载过高、风格关键词不统一；
解决方案：
- 优化提示词，明确风格、场景、人物特征（如“古风漫画，李清照，北宋襦裙，书桌创作，淡粉色调”）；
- 更换图片生成插件（如“DALL·E 迷你版”），避开高峰期使用；
- 启用“选择器-图片校验”节点的重试逻辑，失败后自动优化提示词重新生成。

2. 音频与字幕不同步

原因：音频时长获取错误、字幕开始/结束时间计算错误；
解决方案：
- 检查“剪映小助手-获取时长”节点的输出，确保duration为有效数字（如5秒）；
- 调整字幕生成逻辑，强制每个字幕的“结束时间=开始时间+音频时长”。

3. 视频合成失败

原因：素材过多（分镜超过15个）、插件调用超时、变量引用错误；
解决方案：
- 减少分镜数量，合并相似场景（如将“幼年读书”“少年学诗”合并为一个分镜）；
- 降低图片分辨率（如720×1280），加快合成速度；
- 逐一检查节点变量引用，确保无“未定义变量”。

五、创意扩展：不止于历史人物

这套工作流的核心逻辑是“文案→分镜→图片→语音→视频”，可灵活扩展到其他场景：

名人传记：生成“苏轼自述”“王阳明自述”视频，用于文化科普；
虚拟主播：创建“科普博主”人设，生成科技知识自述视频；
产品介绍：将“历史人物”替换为“产品”，生成“手机亲述”“耳机亲述”的创意广告；
儿童内容：生成“童话故事角色自述”（如“小红帽亲述森林奇遇”），用于儿童教育。

六、总结：AI 让创意视频零门槛

借助 Coze 的可视化工作流，普通人也能轻松打造创意历史人物自述视频，无需专业技能，只需专注于创意本身。核心优势在于“自动化串联”——AI 负责文案、图片、语音的生成，工作流负责节点衔接，你只需把控风格和细节，就能快速产出高质量内容。

无论是文化类自媒体、教育工作者，还是创意短视频爱好者，这套方法都能帮你节省80%的制作时间，让历史科普不再枯燥。现在就导入工作流，尝试让你喜欢的历史人物“开口说话”，用创意赋予历史新的生命力！

除非注明，否则均为李锋镝的博客原创文章，转载必须以链接形式标明本文链接
本文链接：https://www.lifengdi.com/ren-gong-zhi-neng/4599

Coze 创意实战：AI 让历史人物“开口说话”，一键生成自述视频全流程指南

一、核心逻辑与前期准备

1. 工作流核心原理

2. 输出效果与适用场景

3. 前置准备

二、分步实操：五大模块详细拆解

1. 模块一：自述文案生成（视频的“灵魂骨架”）

（1）核心节点配置

（2）文案优化技巧

2. 模块二：自述文案分镜（视频的“镜头划分”）

（1）核心节点配置

（2）插件选型与避坑

3. 模块三：分镜图片生成（视频的“视觉外衣”）

（1）核心节点配置（批处理循环）

（3）图片风格优化技巧

4. 模块四：文案转语音（视频的“声音灵魂”）

（1）核心节点配置（批处理循环）

（2）语音优化技巧

5. 模块五：视频合成（最终成品输出）

（1）核心节点配置

（2）视频优化技巧

三、工作流导入与定制化修改

1. 快速导入工作流（拿来即用）

2. 定制化修改方向

四、常见问题与故障排查

1. 图片生成失败/风格不一致

2. 音频与字幕不同步

3. 视频合成失败

五、创意扩展：不止于历史人物

六、总结：AI 让创意视频零门槛

推荐阅读

文章评论

那年今日（07月15日）