首页 > 默认 > 实测:openClaw中创建SKILL实现视频内容的快速总结

实测:openClaw中创建SKILL实现视频内容的快速总结

2026年5月18日

OpenClaw 视频快速总结默认方式是:字幕 / 元数据优先、轻量采样 ASR、Gemini‑3‑Flash 生成结构化要点,1–2 分钟出结果,不问你、不等待、不下载全片。当明确说:“全文转写”、“逐字字幕”、“提取全部知识点”时会走:完整下载 → 全量 ASR(Whisper/FunASR)→ 全文总结 → 时间戳要点。Whisper 技能(OpenAI 出品),需要帮点个openai的API ,FunASR 技能(阿里达摩院), TTS 小模型本地部署,CPU运行,实测速度还可以,跟调用阿里云上的速度差不多。

我需要的是Openclaw的视频的全文总结功能,但是我没有OpenAI的API,经过多轮实验,最终让Agent生成了3个SKILL来解决问题:

实际测试效果:一个300多M,10多分钟的视频,全文转写总结的时间为2分钟。另外一个400多M,25分钟的视频,全文转写总结时间也是2分钟。

三大语音/视频处理技能介绍


📹 video-summarizer

功能: 视频内容综合分析

特性说明
关键帧抽取自动根据视频时长调整间隔(短2s/中5s/长10s)
音频提取从视频提取音频用于语音转录
语音转录优先 FunASR 本地,失败降级 DashScope 云端
结构化输出JSON 结果 + 关键帧图片 + 转录文本

使用场景: 视频总结、演示分析、内容提取

python3 ~/.openclaw/skills/video-summarizer/scripts/video_summarize.py <视频文件>

🎙️ funasr

功能: 本地离线语音转录(FunASR Paraformer)

特性说明
本地处理数据不上传云端,隐私保护
高准确度中文识别优于云端(正确识别专业术语)
快速处理~12x 实时速度(CPU)
免费使用无 API 调用成本

使用场景: 隐私内容、离线环境、批量处理、中文音频

python3 ~/.openclaw/skills/funasr/scripts/funasr_transcribe.py <音频/视频>

🌐 audio-transcription

功能: 云端语音转录(DashScope ASR API)

特性说明
云端 API阿里云 DashScope,需要 API Key
短音频qwen3-asr-flash(≤5分钟,快速)
长音频paraformer-v2(≤12小时,异步)
多语言支持中英混合

使用场景: 网络可用、多语言内容、快速单次转录

python3 ~/.openclaw/skills/audio-transcription/scripts/asr_transcribe.py <音频/视频>

🔗 技能协作关系

video-summarizer

├── 提取音频

└── 语音转录(自动选择最优方案)

├── 1️⃣ funasr (优先)
│ 本地 Paraformer → 失败则降级

├── 2️⃣ audio-transcription (备用)
│ 云端 DashScope API


📊 选择建议

场景推荐技能
隐私敏感内容funasr ✅
离线/无网络funasr ✅
批量处理funasr ✅(免费)
多语言/英文为主audio-transcription ✅
视频综合分析video-summarizer ✅(自动选择 ASR)

三大技能实现原理


📹 video-summarizer

核心技术:ffmpeg + 技能编排

视频文件
    │
    ├── ffmpeg 提取关键帧
    │   └── fps滤镜 → 按间隔抽帧 → JPG图片
    │
    ├── ffmpeg 提取音频
    │   └── 音频流分离 → MP3编码
    │
    └── Python 脚本编排
        ├── 自动计算帧间隔(时长自适应)
        ├── 调用 FunASR 脚本转录(优先)
        ├── 失败则调用 DashScope API(降级)
        └── 输出 JSON 结构化结果

🎙️ funasr

核心技术:FunASR Paraformer 并行解码

音频输入 (16kHz PCM)
    │
    ├── Feature Extractor (特征提取)
    │   └── Mel频谱 → FBANK特征
    │
    ├── Paraformer Encoder (编码器)
    │   └── 自注意力机制 → 语义表征
    │
    ├── Paraformer Decoder (并行解码器) ⭐
    │   └── 一次预测整句 → 速度快10-25倍
    │   └── (传统ASR是串行逐字解码)
    │
    ├── VAD (语音活动检测)
    │   └── fsmn-vad → 识别有效语音段
    │
    └── PUNC (标点恢复)
    │   └── ct-punc-c → 自动添加标点
    │
    └── 输出文本 + 时间戳

关键创新:并行解码 → 传统ASR逐字生成,Paraformer一次预测完整句子


🌐 audio-transcription

核心技术:DashScope ASR API(云端)

音频文件
    │
    ├── 短音频(≤5分钟)
    │   └── qwen3-asr-flash SDK
    │       └── 直接上传 → 实时返回文本
    │
    └── 长音频(>5分钟)
    │   └── paraformer-v2 异步API
    │       ├── Files API 上传音频
    │       ├── 提交异步任务
    │       ├── 轮询任务状态
    │       └── 获取转录结果
    │
    └── 输出文本 + 句子级时间戳

📊 原理对比

维度funasraudio-transcription
处理位置本地 CPU/GPU云端服务器
解码方式并行解码(快)传统/并行混合
模型加载首次下载 ~1GB云端预加载
延迟来源CPU计算时间网络延迟 + API排队
核心技术Paraformer架构阿里云 ASR 服务

备注:

1、video-summarizer技能: 这个SKILL 会调用 audio-transcription 对视频进行音频抽取和asr转录,然后通过 ffmpeg 从视频中抽取关键帧,然后调用image mode进行视觉识别 ,然后把音频转录和视频识别内容综合起来经行总结

前置需求:要在openclaw 的配置文件中把agent默认的图片识别模型 image model 预先配置好。

2、funasr 技能:调用本地的asr模型进行语音转录

前置需求:技能中已经描述。

3、audio-transcription技能: 这个 SKILL 先通过 ffmpeg 从视频中抽取音频文件,然后调用阿里云的 dashscope (Python SDK) 使用qwen3-asr-flash进行同步快速asr转录(<5分钟的场景) 或者使用paraformer-v2模型进行异步转录(>5 分钟的场景)

前置需求(SKILL中已经说明,Agent读取SKILL应该会自动安装):
ffmpeg – For audio extraction from video files
dashscope (Python SDK) – For SDK transcription method
requests – For async API method (这个要在openclaw的配置文件openclaw.json 的模型配置中有dashscope 或者 aliyun名称的模型供应商名称)

实际测试效果:

指令:总结视频内容 : videos/单据复刻片段1.mp4

用户提供了对话的元数据信息,现在可以生成完整的视频总结。我需要整合:

  1. 视频基本信息
  2. 视觉分析结果(关键帧)
  3. 音频转录内容
  4. 综合总结

这是一个企业级演示视频,展示了通过 AI 多模态模型(Kimi K2.5)从其他系统截图自动生成 HZERO 低代码平台业务对象和页面的完整流程。

让我生成一个完整的视频总结。## 🎬 视频内容总结:HZERO 单据页面智能复刻演示


📋 基本信息

属性
视频时长633.5 秒 (10分33秒)
分辨率752×1036 (竖屏)
关键帧数20 帧
转录字符2073 字符
处理速度16.9x 实时 (FunASR)

🎯 视频核心内容

主题: 展示 Kimi K2.5 多模态模型 + HZERO AI 平台实现单据页面智能复刻的完整流程


🔍 视觉内容分析

1. 主要界面体系

界面功能
模型组合配置AIGC中台配置 Kimi K2.5 多模态模型
低代码AI助手自然语言交互 + 图片上传入口
合同信息录入界面AI生成的业务表单预览
AIGC生成流程监控BPMN风格服务编排执行追踪
页面资产管理低代码平台的资产沉淀

2. 从截图到代码的完整流程

┌─────────────────┐
│  上传业务截图   │  合同信息录入界面-其他系统.png
│  (其他系统)     │  
└────────┬────────┘
         ↓
┌─────────────────┐
│  Kimi K2.5      │  多模态模型图片识别
│  图片识别       │  → 提取表单结构、字段、布局
└────────┬────────┘
         ↓
┌─────────────────┐
│  JSON Schema    │  大模型格式化输出
│  格式转换       │  
└────────┬────────┘
         ↓
┌─────────────────┐
│  批量创建对象   │  合同基本信息、税目明细、付款计划
│  + 页面         │  
└────────┬────────┘
         ↓
┌─────────────────┐
│  页面资产管理   │  合同列表页、合同详情页
│  沉淀复用       │  
└─────────────────┘

🎧 音频转录要点

讲述者演示流程:

“我们来测一下,用 Kimi K2.5 多模态模型来生成 HZERO 低代码的业务对象和页面…上传一个图片,这是从其他系统做的截图——合同信息录入界面,有合同基本信息、税目信息、付款条件…”

核心步骤:

步骤内容
1. 配置模型在模型组合中配置 Kimi K2.5 多模态模型
2. 上传截图其他系统合同录入界面截图
3. 图片识别Kimi K2.5 提取图片中的表单结构
4. 参数处理将杂乱文字格式化为 JSON Schema
5. 创建对象批量创建业务对象(合同、税目、付款计划)
6. 创建页面批量创建功能页面(列表页、详情页)
7. 资产沉淀页面和对象纳入低代码平台资产库

实现原理:

“完成这个功能用的是 HZERO PaaS 平台的 AI 平台能力…在 AI 知识平台上做一个 Agent 编排…图片识别后用大模型格式化成 JSON Schema,再调用系统 API 批量创建对象和页面…”


📊 生成成果展示

识别并生成的业务对象:

对象字段结构
合同基本信息合同名称、编号、类别、状态、甲方乙方、签约日期等
价格信息合同总金额、总税额、不含税总额
合同税目明细税率、合同金额、进项税额(可编辑网格)
付款计划付款条件、付款比例、付款日期

生成的页面:

  • ✅ 合同列表页(主页)
  • ✅ 合同详情页
  • ✅ 完整增删改查功能

🛠️ 技术架构

层级技术
AI 模型Kimi K2.5 多模态(图片识别 + 文本生成)
AI 平台HZERO AIGC 中台 + Agent 编排引擎
低代码平台HZERO 非搭零代码平台
流程监控BPMN 可视化编排与执行追踪
资产管理业务领域 + 页面模板沉淀

🎥 综合总结

视频定位

企业级 AI+低代码 产品功能演示,完整展示从”其他系统截图”到”可运行业务页面”的端到端自动化流程。

核心价值

价值维度具体体现
效率革命传统2-3天表单开发 → 分钟级完成
降低门槛业务人员截图即可生成系统
质量保证自动识别字段类型、校验规则、关联关系
资产沉淀生成的页面纳入平台资产库可复用
流程可控可视化监控确保生成过程可审计可回滚

技术亮点

  1. 多模态 AI 应用:Kimi K2.5 图片识别 + 文本生成双重能力
  2. Agent 编排引擎:BPMN 流程可视化编排与监控
  3. API 自动调用:批量创建对象和页面的系统集成
  4. 资产管理体系:生成的代码纳入低代码平台资产管理

实战场景

“其他系统 → HZERO 单据复刻” 的典型场景:

  • 老系统迁移:截图即可复刻,无需手工重写代码
  • 竞品对标:快速借鉴其他系统的优秀设计
  • 业务敏捷:业务需求截图 → 分钟级交付可用系统

一句话总结: 这是一个展示 Kimi K2.5 多模态模型 + HZERO AI 平台实现从”其他系统截图”自动生成”低代码业务对象和页面”的完整流程演示视频,证明了 AI+低代码 的单据智能复刻能力,将传统开发效率提升数十倍。

 

 

关于作者:

昵称:Jack.shang
档案信息:jack.shang 程序员->项目经理->技术总监->项目总监->部门总监->事业部总经理->子公司总经理->集团产品运营支持
联系方式:你可以通过syfvb@hotmail.com联系作者
点击查看发表过的所有文章...
本文永久链接: http://blog.retailsolution.cn/archives/5921

 

 

对本文的评价:

 

 

分类: 默认 标签:
本文的评论功能被关闭了.