实测:openClaw中创建SKILL实现视频内容的快速总结
OpenClaw 视频快速总结默认方式是:字幕 / 元数据优先、轻量采样 ASR、Gemini‑3‑Flash 生成结构化要点,1–2 分钟出结果,不问你、不等待、不下载全片。当明确说:“全文转写”、“逐字字幕”、“提取全部知识点”时会走:完整下载 → 全量 ASR(Whisper/FunASR)→ 全文总结 → 时间戳要点。Whisper 技能(OpenAI 出品),需要帮点个openai的API ,FunASR 技能(阿里达摩院), TTS 小模型本地部署,CPU运行,实测速度还可以,跟调用阿里云上的速度差不多。
我需要的是Openclaw的视频的全文总结功能,但是我没有OpenAI的API,经过多轮实验,最终让Agent生成了3个SKILL来解决问题:
实际测试效果:一个300多M,10多分钟的视频,全文转写总结的时间为2分钟。另外一个400多M,25分钟的视频,全文转写总结时间也是2分钟。
三大语音/视频处理技能介绍
📹 video-summarizer
功能: 视频内容综合分析
| 特性 | 说明 |
|---|---|
| 关键帧抽取 | 自动根据视频时长调整间隔(短2s/中5s/长10s) |
| 音频提取 | 从视频提取音频用于语音转录 |
| 语音转录 | 优先 FunASR 本地,失败降级 DashScope 云端 |
| 结构化输出 | JSON 结果 + 关键帧图片 + 转录文本 |
使用场景: 视频总结、演示分析、内容提取
python3 ~/.openclaw/skills/video-summarizer/scripts/video_summarize.py <视频文件>
🎙️ funasr
功能: 本地离线语音转录(FunASR Paraformer)
| 特性 | 说明 |
|---|---|
| 本地处理 | 数据不上传云端,隐私保护 |
| 高准确度 | 中文识别优于云端(正确识别专业术语) |
| 快速处理 | ~12x 实时速度(CPU) |
| 免费使用 | 无 API 调用成本 |
使用场景: 隐私内容、离线环境、批量处理、中文音频
python3 ~/.openclaw/skills/funasr/scripts/funasr_transcribe.py <音频/视频>
🌐 audio-transcription
功能: 云端语音转录(DashScope ASR API)
| 特性 | 说明 |
|---|---|
| 云端 API | 阿里云 DashScope,需要 API Key |
| 短音频 | qwen3-asr-flash(≤5分钟,快速) |
| 长音频 | paraformer-v2(≤12小时,异步) |
| 多语言 | 支持中英混合 |
使用场景: 网络可用、多语言内容、快速单次转录
python3 ~/.openclaw/skills/audio-transcription/scripts/asr_transcribe.py <音频/视频>
🔗 技能协作关系
video-summarizer
│
├── 提取音频
│
└── 语音转录(自动选择最优方案)
│
├── 1️⃣ funasr (优先)
│ 本地 Paraformer → 失败则降级
│
├── 2️⃣ audio-transcription (备用)
│ 云端 DashScope API
📊 选择建议
| 场景 | 推荐技能 |
|---|---|
| 隐私敏感内容 | funasr ✅ |
| 离线/无网络 | funasr ✅ |
| 批量处理 | funasr ✅(免费) |
| 多语言/英文为主 | audio-transcription ✅ |
| 视频综合分析 | video-summarizer ✅(自动选择 ASR) |
三大技能实现原理
📹 video-summarizer
核心技术:ffmpeg + 技能编排
视频文件
│
├── ffmpeg 提取关键帧
│ └── fps滤镜 → 按间隔抽帧 → JPG图片
│
├── ffmpeg 提取音频
│ └── 音频流分离 → MP3编码
│
└── Python 脚本编排
├── 自动计算帧间隔(时长自适应)
├── 调用 FunASR 脚本转录(优先)
├── 失败则调用 DashScope API(降级)
└── 输出 JSON 结构化结果
🎙️ funasr
核心技术:FunASR Paraformer 并行解码
音频输入 (16kHz PCM)
│
├── Feature Extractor (特征提取)
│ └── Mel频谱 → FBANK特征
│
├── Paraformer Encoder (编码器)
│ └── 自注意力机制 → 语义表征
│
├── Paraformer Decoder (并行解码器) ⭐
│ └── 一次预测整句 → 速度快10-25倍
│ └── (传统ASR是串行逐字解码)
│
├── VAD (语音活动检测)
│ └── fsmn-vad → 识别有效语音段
│
└── PUNC (标点恢复)
│ └── ct-punc-c → 自动添加标点
│
└── 输出文本 + 时间戳
关键创新:并行解码 → 传统ASR逐字生成,Paraformer一次预测完整句子
🌐 audio-transcription
核心技术:DashScope ASR API(云端)
音频文件
│
├── 短音频(≤5分钟)
│ └── qwen3-asr-flash SDK
│ └── 直接上传 → 实时返回文本
│
└── 长音频(>5分钟)
│ └── paraformer-v2 异步API
│ ├── Files API 上传音频
│ ├── 提交异步任务
│ ├── 轮询任务状态
│ └── 获取转录结果
│
└── 输出文本 + 句子级时间戳
📊 原理对比
| 维度 | funasr | audio-transcription |
|---|---|---|
| 处理位置 | 本地 CPU/GPU | 云端服务器 |
| 解码方式 | 并行解码(快) | 传统/并行混合 |
| 模型加载 | 首次下载 ~1GB | 云端预加载 |
| 延迟来源 | CPU计算时间 | 网络延迟 + API排队 |
| 核心技术 | Paraformer架构 | 阿里云 ASR 服务 |
备注:
1、video-summarizer技能: 这个SKILL 会调用 audio-transcription 对视频进行音频抽取和asr转录,然后通过 ffmpeg 从视频中抽取关键帧,然后调用image mode进行视觉识别 ,然后把音频转录和视频识别内容综合起来经行总结
前置需求:要在openclaw 的配置文件中把agent默认的图片识别模型 image model 预先配置好。
2、funasr 技能:调用本地的asr模型进行语音转录
前置需求:技能中已经描述。
3、audio-transcription技能: 这个 SKILL 先通过 ffmpeg 从视频中抽取音频文件,然后调用阿里云的 dashscope (Python SDK) 使用qwen3-asr-flash进行同步快速asr转录(<5分钟的场景) 或者使用paraformer-v2模型进行异步转录(>5 分钟的场景)
前置需求(SKILL中已经说明,Agent读取SKILL应该会自动安装):
ffmpeg – For audio extraction from video files
dashscope (Python SDK) – For SDK transcription method
requests – For async API method (这个要在openclaw的配置文件openclaw.json 的模型配置中有dashscope 或者 aliyun名称的模型供应商名称)
实际测试效果:
指令:总结视频内容 : videos/单据复刻片段1.mp4
用户提供了对话的元数据信息,现在可以生成完整的视频总结。我需要整合:
- 视频基本信息
- 视觉分析结果(关键帧)
- 音频转录内容
- 综合总结
这是一个企业级演示视频,展示了通过 AI 多模态模型(Kimi K2.5)从其他系统截图自动生成 HZERO 低代码平台业务对象和页面的完整流程。
让我生成一个完整的视频总结。## 🎬 视频内容总结:HZERO 单据页面智能复刻演示
📋 基本信息
| 属性 | 值 |
|---|---|
| 视频时长 | 633.5 秒 (10分33秒) |
| 分辨率 | 752×1036 (竖屏) |
| 关键帧数 | 20 帧 |
| 转录字符 | 2073 字符 |
| 处理速度 | 16.9x 实时 (FunASR) |
🎯 视频核心内容
主题: 展示 Kimi K2.5 多模态模型 + HZERO AI 平台实现单据页面智能复刻的完整流程
🔍 视觉内容分析
1. 主要界面体系
| 界面 | 功能 |
|---|---|
| 模型组合配置 | AIGC中台配置 Kimi K2.5 多模态模型 |
| 低代码AI助手 | 自然语言交互 + 图片上传入口 |
| 合同信息录入界面 | AI生成的业务表单预览 |
| AIGC生成流程监控 | BPMN风格服务编排执行追踪 |
| 页面资产管理 | 低代码平台的资产沉淀 |
2. 从截图到代码的完整流程
┌─────────────────┐
│ 上传业务截图 │ 合同信息录入界面-其他系统.png
│ (其他系统) │
└────────┬────────┘
↓
┌─────────────────┐
│ Kimi K2.5 │ 多模态模型图片识别
│ 图片识别 │ → 提取表单结构、字段、布局
└────────┬────────┘
↓
┌─────────────────┐
│ JSON Schema │ 大模型格式化输出
│ 格式转换 │
└────────┬────────┘
↓
┌─────────────────┐
│ 批量创建对象 │ 合同基本信息、税目明细、付款计划
│ + 页面 │
└────────┬────────┘
↓
┌─────────────────┐
│ 页面资产管理 │ 合同列表页、合同详情页
│ 沉淀复用 │
└─────────────────┘
🎧 音频转录要点
讲述者演示流程:
“我们来测一下,用 Kimi K2.5 多模态模型来生成 HZERO 低代码的业务对象和页面…上传一个图片,这是从其他系统做的截图——合同信息录入界面,有合同基本信息、税目信息、付款条件…”
核心步骤:
| 步骤 | 内容 |
|---|---|
| 1. 配置模型 | 在模型组合中配置 Kimi K2.5 多模态模型 |
| 2. 上传截图 | 其他系统合同录入界面截图 |
| 3. 图片识别 | Kimi K2.5 提取图片中的表单结构 |
| 4. 参数处理 | 将杂乱文字格式化为 JSON Schema |
| 5. 创建对象 | 批量创建业务对象(合同、税目、付款计划) |
| 6. 创建页面 | 批量创建功能页面(列表页、详情页) |
| 7. 资产沉淀 | 页面和对象纳入低代码平台资产库 |
实现原理:
“完成这个功能用的是 HZERO PaaS 平台的 AI 平台能力…在 AI 知识平台上做一个 Agent 编排…图片识别后用大模型格式化成 JSON Schema,再调用系统 API 批量创建对象和页面…”
📊 生成成果展示
识别并生成的业务对象:
| 对象 | 字段结构 |
|---|---|
| 合同基本信息 | 合同名称、编号、类别、状态、甲方乙方、签约日期等 |
| 价格信息 | 合同总金额、总税额、不含税总额 |
| 合同税目明细 | 税率、合同金额、进项税额(可编辑网格) |
| 付款计划 | 付款条件、付款比例、付款日期 |
生成的页面:
- ✅ 合同列表页(主页)
- ✅ 合同详情页
- ✅ 完整增删改查功能
🛠️ 技术架构
| 层级 | 技术 |
|---|---|
| AI 模型 | Kimi K2.5 多模态(图片识别 + 文本生成) |
| AI 平台 | HZERO AIGC 中台 + Agent 编排引擎 |
| 低代码平台 | HZERO 非搭零代码平台 |
| 流程监控 | BPMN 可视化编排与执行追踪 |
| 资产管理 | 业务领域 + 页面模板沉淀 |
🎥 综合总结
视频定位
企业级 AI+低代码 产品功能演示,完整展示从”其他系统截图”到”可运行业务页面”的端到端自动化流程。
核心价值
| 价值维度 | 具体体现 |
|---|---|
| 效率革命 | 传统2-3天表单开发 → 分钟级完成 |
| 降低门槛 | 业务人员截图即可生成系统 |
| 质量保证 | 自动识别字段类型、校验规则、关联关系 |
| 资产沉淀 | 生成的页面纳入平台资产库可复用 |
| 流程可控 | 可视化监控确保生成过程可审计可回滚 |
技术亮点
- 多模态 AI 应用:Kimi K2.5 图片识别 + 文本生成双重能力
- Agent 编排引擎:BPMN 流程可视化编排与监控
- API 自动调用:批量创建对象和页面的系统集成
- 资产管理体系:生成的代码纳入低代码平台资产管理
实战场景
“其他系统 → HZERO 单据复刻” 的典型场景:
- 老系统迁移:截图即可复刻,无需手工重写代码
- 竞品对标:快速借鉴其他系统的优秀设计
- 业务敏捷:业务需求截图 → 分钟级交付可用系统
一句话总结: 这是一个展示 Kimi K2.5 多模态模型 + HZERO AI 平台实现从”其他系统截图”自动生成”低代码业务对象和页面”的完整流程演示视频,证明了 AI+低代码 的单据智能复刻能力,将传统开发效率提升数十倍。
关于作者:
| 昵称:Jack.shang 档案信息:jack.shang 程序员->项目经理->技术总监->项目总监->部门总监->事业部总经理->子公司总经理->集团产品运营支持 联系方式:你可以通过syfvb@hotmail.com联系作者 点击查看Jack.shang发表过的所有文章... 本文永久链接: http://blog.retailsolution.cn/archives/5921 |
对本文的评价:
