实测：OpenClaw总结视频内容 – Jack.Shang的技术博客

OpenClaw 视频快速总结默认方式是：字幕 / 元数据优先、轻量采样 ASR、Gemini‑3‑Flash 生成结构化要点，1–2 分钟出结果，不问你、不等待、不下载全片。当明确说：“全文转写”、“逐字字幕”、“提取全部知识点”时会走：完整下载 → 全量 ASR（Whisper/FunASR）→ 全文总结 → 时间戳要点。Whisper 技能（OpenAI 出品）,需要帮点个openai的API ，FunASR 技能（阿里达摩院）, TTS 小模型本地部署，CPU运行，实测速度还可以，跟调用阿里云上的速度差不多。

我需要的是Openclaw的视频的全文总结功能，但是我没有OpenAI的API，经过多轮实验，最终让Agent生成了3个SKILL来解决问题：

实际测试效果：一个300多M，10多分钟的视频，全文转写总结的时间为2分钟。另外一个400多M，25分钟的视频，全文转写总结时间也是2分钟。

三大语音/视频处理技能介绍

📹 video-summarizer

功能： 视频内容综合分析

特性	说明
关键帧抽取	自动根据视频时长调整间隔（短2s/中5s/长10s）
音频提取	从视频提取音频用于语音转录
语音转录	优先 FunASR 本地，失败降级 DashScope 云端
结构化输出	JSON 结果 + 关键帧图片 + 转录文本

使用场景： 视频总结、演示分析、内容提取

python3 ~/.openclaw/skills/video-summarizer/scripts/video_summarize.py <视频文件>

🎙️ funasr

功能： 本地离线语音转录（FunASR Paraformer）

特性	说明
本地处理	数据不上传云端，隐私保护
高准确度	中文识别优于云端（正确识别专业术语）
快速处理	~12x 实时速度（CPU）
免费使用	无 API 调用成本

使用场景： 隐私内容、离线环境、批量处理、中文音频

python3 ~/.openclaw/skills/funasr/scripts/funasr_transcribe.py <音频/视频>

🌐 audio-transcription

功能： 云端语音转录（DashScope ASR API）

特性	说明
云端 API	阿里云 DashScope，需要 API Key
短音频	qwen3-asr-flash（≤5分钟，快速）
长音频	paraformer-v2（≤12小时，异步）
多语言	支持中英混合

使用场景： 网络可用、多语言内容、快速单次转录

python3 ~/.openclaw/skills/audio-transcription/scripts/asr_transcribe.py <音频/视频>

🔗 技能协作关系

video-summarizer
│
├── 提取音频
│
└── 语音转录（自动选择最优方案）
│
├── 1️⃣ funasr (优先)
│ 本地 Paraformer → 失败则降级
│
├── 2️⃣ audio-transcription (备用)
│ 云端 DashScope API

📊 选择建议

场景	推荐技能
隐私敏感内容	funasr ✅
离线/无网络	funasr ✅
批量处理	funasr ✅（免费）
多语言/英文为主	audio-transcription ✅
视频综合分析	video-summarizer ✅（自动选择 ASR）

三大技能实现原理

📹 video-summarizer

核心技术：ffmpeg + 技能编排

视频文件
    │
    ├── ffmpeg 提取关键帧
    │   └── fps滤镜 → 按间隔抽帧 → JPG图片
    │
    ├── ffmpeg 提取音频
    │   └── 音频流分离 → MP3编码
    │
    └── Python 脚本编排
        ├── 自动计算帧间隔（时长自适应）
        ├── 调用 FunASR 脚本转录（优先）
        ├── 失败则调用 DashScope API（降级）
        └── 输出 JSON 结构化结果

🎙️ funasr

核心技术：FunASR Paraformer 并行解码

音频输入 (16kHz PCM)
    │
    ├── Feature Extractor (特征提取)
    │   └── Mel频谱 → FBANK特征
    │
    ├── Paraformer Encoder (编码器)
    │   └── 自注意力机制 → 语义表征
    │
    ├── Paraformer Decoder (并行解码器) ⭐
    │   └── 一次预测整句 → 速度快10-25倍
    │   └── (传统ASR是串行逐字解码)
    │
    ├── VAD (语音活动检测)
    │   └── fsmn-vad → 识别有效语音段
    │
    └── PUNC (标点恢复)
    │   └── ct-punc-c → 自动添加标点
    │
    └── 输出文本 + 时间戳

关键创新：并行解码 → 传统ASR逐字生成，Paraformer一次预测完整句子

🌐 audio-transcription

核心技术：DashScope ASR API（云端）

音频文件
    │
    ├── 短音频（≤5分钟）
    │   └── qwen3-asr-flash SDK
    │       └── 直接上传 → 实时返回文本
    │
    └── 长音频（>5分钟）
    │   └── paraformer-v2 异步API
    │       ├── Files API 上传音频
    │       ├── 提交异步任务
    │       ├── 轮询任务状态
    │       └── 获取转录结果
    │
    └── 输出文本 + 句子级时间戳

📊 原理对比

维度	funasr	audio-transcription
处理位置	本地 CPU/GPU	云端服务器
解码方式	并行解码（快）	传统/并行混合
模型加载	首次下载 ~1GB	云端预加载
延迟来源	CPU计算时间	网络延迟 + API排队
核心技术	Paraformer架构	阿里云 ASR 服务

备注：

1、video-summarizer技能：这个SKILL 会调用 audio-transcription 对视频进行音频抽取和asr转录，然后通过 ffmpeg 从视频中抽取关键帧，然后调用image mode进行视觉识别，然后把音频转录和视频识别内容综合起来经行总结

前置需求：要在openclaw 的配置文件中把agent默认的图片识别模型 image model 预先配置好。

2、funasr 技能：调用本地的asr模型进行语音转录

前置需求：技能中已经描述。

3、audio-transcription技能：这个 SKILL 先通过 ffmpeg 从视频中抽取音频文件，然后调用阿里云的 dashscope (Python SDK) 使用qwen3-asr-flash进行同步快速asr转录（<5分钟的场景）或者使用paraformer-v2模型进行异步转录（>5 分钟的场景）

前置需求（SKILL中已经说明，Agent读取SKILL应该会自动安装）：
ffmpeg – For audio extraction from video files
dashscope (Python SDK) – For SDK transcription method
requests – For async API method （这个要在openclaw的配置文件openclaw.json 的模型配置中有dashscope 或者 aliyun名称的模型供应商名称）

实际测试效果：

指令：总结视频内容： videos/单据复刻片段1.mp4

Agent输出总结内容：

======================

用户提供了对话的元数据信息，现在可以生成完整的视频总结。我需要整合：

视频基本信息
视觉分析结果（关键帧）
音频转录内容
综合总结

这是一个企业级演示视频，展示了通过 AI 多模态模型（Kimi K2.5）从其他系统截图自动生成 HZERO 低代码平台业务对象和页面的完整流程。

让我生成一个完整的视频总结。## 🎬 视频内容总结：HZERO 单据页面智能复刻演示

📋 基本信息

属性	值
视频时长	633.5 秒 (10分33秒)
分辨率	752×1036 (竖屏)
关键帧数	20 帧
转录字符	2073 字符
处理速度	16.9x 实时 (FunASR)

🎯 视频核心内容

主题： 展示 Kimi K2.5 多模态模型 + HZERO AI 平台实现单据页面智能复刻的完整流程

🔍 视觉内容分析

1. 主要界面体系

界面	功能
模型组合配置	AIGC中台配置 Kimi K2.5 多模态模型
低代码AI助手	自然语言交互 + 图片上传入口
合同信息录入界面	AI生成的业务表单预览
AIGC生成流程监控	BPMN风格服务编排执行追踪
页面资产管理	低代码平台的资产沉淀

2. 从截图到代码的完整流程

┌─────────────────┐
│  上传业务截图   │  合同信息录入界面-其他系统.png
│  (其他系统)     │  
└────────┬────────┘
         ↓
┌─────────────────┐
│  Kimi K2.5      │  多模态模型图片识别
│  图片识别       │  → 提取表单结构、字段、布局
└────────┬────────┘
         ↓
┌─────────────────┐
│  JSON Schema    │  大模型格式化输出
│  格式转换       │  
└────────┬────────┘
         ↓
┌─────────────────┐
│  批量创建对象   │  合同基本信息、税目明细、付款计划
│  + 页面         │  
└────────┬────────┘
         ↓
┌─────────────────┐
│  页面资产管理   │  合同列表页、合同详情页
│  沉淀复用       │  
└─────────────────┘

🎧 音频转录要点

讲述者演示流程：

“我们来测一下，用 Kimi K2.5 多模态模型来生成 HZERO 低代码的业务对象和页面…上传一个图片，这是从其他系统做的截图——合同信息录入界面，有合同基本信息、税目信息、付款条件…”

核心步骤：

步骤	内容
1. 配置模型	在模型组合中配置 Kimi K2.5 多模态模型
2. 上传截图	其他系统合同录入界面截图
3. 图片识别	Kimi K2.5 提取图片中的表单结构
4. 参数处理	将杂乱文字格式化为 JSON Schema
5. 创建对象	批量创建业务对象（合同、税目、付款计划）
6. 创建页面	批量创建功能页面（列表页、详情页）
7. 资产沉淀	页面和对象纳入低代码平台资产库

实现原理：

“完成这个功能用的是 HZERO PaaS 平台的 AI 平台能力…在 AI 知识平台上做一个 Agent 编排…图片识别后用大模型格式化成 JSON Schema，再调用系统 API 批量创建对象和页面…”

📊 生成成果展示

识别并生成的业务对象：

对象	字段结构
合同基本信息	合同名称、编号、类别、状态、甲方乙方、签约日期等
价格信息	合同总金额、总税额、不含税总额
合同税目明细	税率、合同金额、进项税额（可编辑网格）
付款计划	付款条件、付款比例、付款日期

生成的页面：

✅ 合同列表页（主页）
✅ 合同详情页
✅ 完整增删改查功能

🛠️ 技术架构

层级	技术
AI 模型	Kimi K2.5 多模态（图片识别 + 文本生成）
AI 平台	HZERO AIGC 中台 + Agent 编排引擎
低代码平台	HZERO 非搭零代码平台
流程监控	BPMN 可视化编排与执行追踪
资产管理	业务领域 + 页面模板沉淀

🎥 综合总结

视频定位

企业级 AI+低代码产品功能演示，完整展示从”其他系统截图”到”可运行业务页面”的端到端自动化流程。

核心价值

价值维度	具体体现
效率革命	传统2-3天表单开发 → 分钟级完成
降低门槛	业务人员截图即可生成系统
质量保证	自动识别字段类型、校验规则、关联关系
资产沉淀	生成的页面纳入平台资产库可复用
流程可控	可视化监控确保生成过程可审计可回滚

技术亮点

多模态 AI 应用：Kimi K2.5 图片识别 + 文本生成双重能力
Agent 编排引擎：BPMN 流程可视化编排与监控
API 自动调用：批量创建对象和页面的系统集成
资产管理体系：生成的代码纳入低代码平台资产管理

实战场景

“其他系统 → HZERO 单据复刻” 的典型场景：

老系统迁移：截图即可复刻，无需手工重写代码
竞品对标：快速借鉴其他系统的优秀设计
业务敏捷：业务需求截图 → 分钟级交付可用系统

一句话总结： 这是一个展示 Kimi K2.5 多模态模型 + HZERO AI 平台实现从”其他系统截图”自动生成”低代码业务对象和页面”的完整流程演示视频，证明了 AI+低代码的单据智能复刻能力，将传统开发效率提升数十倍。

Agent输出总结内容结束

================================

作者： Jack.shang

jack.shang 程序员->项目经理->技术总监->项目总监->部门总监->事业部总经理->子公司总经理->集团产品运营支持查看Jack.shang的所有文章

一	二	三	四	五	六	日
« 6月
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31