返回顶部
d

dmxapi-image-recognition

使用 DMXAPI 平台进行图像识别和理解。支持 Gemini 等多模态视觉模型。可进行图片描述、OCR文字识别、图表数据分析、物体检测、场景理解等任务。当用户需要识别图片内容、提取图片文字、分析图表、理解图像时使用此技能。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
75
下载量
1
收藏
概述
安装方式
版本历史

dmxapi-image-recognition

# DMXAPI 图像识别/理解 通过 DMXAPI 统一 CLI 调用多种 AI 视觉模型进行图像识别和理解。 ## 前置准备 1. 安装 CLI 工具(需要 Node.js 20+): ```bash npm install -g dmxapi-cli ``` 2. 配置 API Key(从 [DMXAPI 控制台](https://www.dmxapi.cn/) 获取): ```bash dmxapi config set apiKey sk-your-api-key ``` ## 命令格式 ```bash dmxapi chat -m <model> "提示词" --image <path> ``` ## 选项 | 选项 | 说明 | 示例 | |------|------|------| | `-m, --model <model>` | 视觉模型名称(默认 `gpt-5-mini`) | `-m gemini-3-flash-preview` | | `--image <path>` | 图片路径(本地文件或 URL) | `--image ./photo.png` | | `-s, --system <message>` | 系统消息(定义识别任务) | `-s "你是一个OCR专家"` | | `-t, --temperature <number>` | 采样温度 0-2 | `-t 0.3` | | `--max-tokens <number>` | 最大输出 token 数 | `--max-tokens 2000` | ## 支持的图片格式 - PNG (`.png`) - JPEG (`.jpg`, `.jpeg`) - WebP (`.webp`) - GIF (`.gif`) ## 图片输入方式 1. **本地文件路径**:自动转换为 base64 data URL ```bash dmxapi chat "描述这张图片" --image ./photo.jpg ``` 2. **远程 URL**:直接使用网络图片 ```bash dmxapi chat "分析这张图片" --image https://example.com/image.png ``` ## 推荐模型 | 模型 | 特点 | 适用场景 | |------|------|----------| | `gpt-5-mini` | 默认模型,速度快,成本低 | 通用图像识别 | | `gemini-3-flash-preview` | Google 最新视觉模型 | 复杂图像分析、场景理解 | ## 使用步骤 1. 确定用户的图像识别需求类型(描述、OCR、分析等) 2. 选择合适的视觉模型 3. 根据任务类型编写精确的提示词 4. 构建 `dmxapi chat` 命令并执行 5. 将识别结果返回给用户 ## 示例 ### 图片描述 ```bash # 基本描述 dmxapi chat "请详细描述这张图片的内容" --image ./landscape.jpg # 简洁描述 dmxapi chat "用一句话描述这张图片" --image ./photo.png ``` ### OCR 文字识别 ```bash # 通用 OCR dmxapi chat "识别图片中的所有文字,按原始排版输出" --image ./document.png # 手写文字识别 dmxapi chat "识别图片中的手写文字" --image ./handwriting.jpg # 表格识别 dmxapi chat "识别图片中的表格,以 Markdown 表格格式输出" --image ./table.png ``` ### 图表数据分析 ```bash # 图表解读 dmxapi chat "分析这张图表,提取关键数据点并总结趋势" --image ./chart.png # 数据提取 dmxapi chat "提取图中柱状图的所有数值,以 JSON 格式输出" --image ./bar-chart.jpg ``` ### 物体检测与识别 ```bash # 物体检测 dmxapi chat "识别图片中的所有物体,列出它们的名称和位置" --image ./room.jpg # 动植物识别 dmxapi chat "识别图片中的植物种类" --image ./flower.png ``` ### 场景理解 ```bash # 场景分析 dmxapi chat "分析这张图片的场景,描述环境、氛围和可能的用途" --image ./scene.jpg # 安全检查 dmxapi chat "检查这张图片是否存在安全隐患" --image ./workplace.png ``` ### 文档理解 ```bash # 文档摘要 dmxapi chat "总结这张文档图片的主要内容" --image ./contract.png # 信息提取 dmxapi chat "从身份证图片中提取姓名和身份证号" --image ./id-card.jpg ``` ### 代码/截图识别 ```bash # 代码识别 dmxapi chat "识别图片中的代码并输出为可复制的文本格式" --image ./code-screenshot.png # UI 分析 dmxapi chat "分析这个 UI 界面的设计元素和布局" --image ./ui-screenshot.jpg ``` ## 使用 System 消息增强效果 通过 `-s` 参数设置 system 消息,可以让模型专注于特定任务: ```bash # OCR 专家模式 dmxapi chat -s "你是一个专业的OCR识别助手,只输出识别到的文字内容,不要添加任何解释" "识别文字" --image ./doc.png # 数据分析专家模式 dmxapi chat -s "你是一个数据分析专家,擅长从图表中提取数据" "分析图表" --image ./chart.png # 多语言识别 dmxapi chat -s "识别图片中的文字,如果是英文请翻译成中文" "识别并翻译" --image ./english-doc.png ``` ## 注意事项 - 本地图片文件会自动转换为 base64 data URL 上传 - 远程 URL 图片直接传递给 API 处理 - 对于复杂识别任务,建议使用 `gemini-3-flash-preview` - 如果识别结果不满意,可以调整提示词或降低 temperature 参数获得更确定的输出

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 dmxapi-image-recognition-1775977389 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 dmxapi-image-recognition-1775977389 技能

通过命令行安装

skillhub install dmxapi-image-recognition-1775977389

下载 Zip 包

⬇ 下载 dmxapi-image-recognition v1.0.0

文件大小: 2.95 KB | 发布时间: 2026-4-13 10:03

v1.0.0 最新 2026-4-13 10:03
- 首次发布 dmxapi-image-recognition 技能,支持多种图像识别与理解任务。
- 支持图片描述、OCR文字识别、图表分析、物体检测、场景理解等多种任务类型。
- 兼容多种图片输入格式(PNG、JPEG、WebP、GIF),支持本地文件与远程 URL。
- 命令行使用 dmxapi-cli,灵活选择模型与参数,提升视觉任务效果。
- 提供丰富的使用示例,涵盖常见图片识别与数据提取场景。

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部