返回顶部
i

image-recognition

图片识别 - 通用图片识别技能,支持 OCR 文字提取、物体识别、场景分析等。自动使用用户配置的视觉模型,适用于 Android/Termux 环境。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.1.0
安全检测
已通过
145
下载量
0
收藏
概述
安装方式
版本历史

image-recognition

# Image Recognition Skill (图片识别) **适用于 Android/Termux 环境的图片识别技能** ## 何时使用 ✅ **使用此技能:** - "识别这张图片" - "图片里有什么" - "提取图片中的文字" - OCR 文字识别 - 物体/场景识别 - 截图内容分析 ❌ **不使用此技能:** - 用户明确要求用其他 OCR 服务 - 图片文件不存在或损坏 ## 技术原理 **核心方法:** 1. 读取图片文件为二进制 2. Base64 编码 3. 调用用户配置的视觉模型 API 4. 返回识别结果 **为什么不用 sharp:** - `sharp` 模块在 Termux (Android arm64) 无法加载 - 直接使用 Python + requests 调用 API 更稳定 **支持的模型提供商:** - ✅ Bailian (通义千问) - `qwen3.5-plus`, `qwen-vl-max` - ✅ OpenRouter - 支持视觉的模型 - ✅ 其他 OpenAI 兼容接口 - 支持 `image_url` 格式的模型 ## 配置 ### 方式一:使用 OpenClaw 配置的模型(推荐) 脚本会自动读取 OpenClaw 的配置文件 `~/.openclaw/openclaw.json`,使用已配置的模型和 API Key。 **无需额外配置!** 只要你的 OpenClaw 配置了支持视觉的模型即可。 ### 方式二:手动配置环境变量 ```bash # Bailian (通义千问) export IMAGE_MODEL_PROVIDER="bailian" export IMAGE_MODEL_API_KEY="sk-sp-xxxxxxxxxxxxx" export IMAGE_MODEL_NAME="qwen3.5-plus" export IMAGE_MODEL_ENDPOINT="https://coding.dashscope.aliyuncs.com/v1/chat/completions" # OpenRouter export IMAGE_MODEL_PROVIDER="openrouter" export IMAGE_MODEL_API_KEY="sk-or-xxxxxxxxxxxxx" export IMAGE_MODEL_NAME="qwen/qwen-2.5-vl-72b-instruct" export IMAGE_MODEL_ENDPOINT="https://openrouter.ai/api/v1/chat/completions" ``` ### Python 依赖 ```bash pip3 install requests Pillow ``` ## 使用方法 ### 方式一:自动检测(推荐) 脚本会自动读取 OpenClaw 配置文件,使用已配置的**支持视觉的模型**。 ```bash python3 ~/.openclaw/skills/image-recognition/recognize.py /path/to/image.jpg ``` **无需额外配置!** 只要你的 OpenClaw 配置了支持视觉的模型(如 `qwen3.5-plus`)即可。 ### 方式二:手动指定环境变量 ```bash # Bailian (通义千问) export IMAGE_MODEL_PROVIDER="bailian" export IMAGE_MODEL_API_KEY="sk-sp-xxxxxxxxxxxxx" export IMAGE_MODEL_NAME="qwen3.5-plus" # OpenRouter export IMAGE_MODEL_PROVIDER="openrouter" export IMAGE_MODEL_API_KEY="sk-or-xxxxxxxxxxxxx" export IMAGE_MODEL_NAME="qwen/qwen-2.5-vl-72b-instruct" # 使用 python3 recognize.py /path/to/image.jpg ``` ### 方式三:在 Python 代码中使用 ```python from recognize import recognize_image, get_model_config # 自动检测配置 config = get_model_config() print(f"使用模型:{config['provider']}/{config['model']}") # 识别图片 result = recognize_image("/path/to/image.jpg", "提取图片中的文字") print(result) # 或手动指定配置 custom_config = { "provider": "bailian", "api_key": "sk-sp-xxx", "model": "qwen3.5-plus", "endpoint": "https://coding.dashscope.aliyuncs.com/v1/chat/completions", "headers": {"Authorization": f"Bearer sk-sp-xxx"} } result = recognize_image("/path/to/image.jpg", config=custom_config) ``` ## API 配置(高级) **大多数用户不需要手动配置**,脚本会自动使用 OpenClaw 的模型配置。 ### 自动检测逻辑 1. **优先使用环境变量**(如果设置了) 2. **其次读取 OpenClaw 配置**(`~/.openclaw/openclaw.json`) 3. **最后使用默认配置**(Bailian qwen3.5-plus) ### 手动配置各提供商 #### Bailian (通义千问) ```bash export IMAGE_MODEL_PROVIDER="bailian" export IMAGE_MODEL_API_KEY="sk-sp-xxxxxxxxxxxxx" export IMAGE_MODEL_NAME="qwen3.5-plus" # 端点自动设置为:https://coding.dashscope.aliyuncs.com/v1/chat/completions ``` #### OpenRouter ```bash export IMAGE_MODEL_PROVIDER="openrouter" export IMAGE_MODEL_API_KEY="sk-or-xxxxxxxxxxxxx" export IMAGE_MODEL_NAME="qwen/qwen-2.5-vl-72b-instruct" # 端点自动设置为:https://openrouter.ai/api/v1/chat/completions ``` #### 其他 OpenAI 兼容接口 ```bash export IMAGE_MODEL_PROVIDER="openai" export IMAGE_MODEL_API_KEY="sk-xxxxxxxxxxxxx" export IMAGE_MODEL_NAME="gpt-4o" export IMAGE_MODEL_ENDPOINT="https://api.openai.com/v1/chat/completions" ``` ## 支持的平台 ✅ **已测试:** - Android (Termux) - arm64 - Linux - x86_64, arm64 - macOS - x86_64, arm64 ✅ **支持的图片格式:** - JPEG/JPG - PNG - GIF (静态) - WebP - BMP ## 常见问题 ### Q: 为什么不用 sharp 模块? A: `sharp` 依赖 libvips,在 Termux (Android) 上编译和安装非常困难。直接使用 Python + requests 调用 API 更简单稳定。 ### Q: API Key 无效怎么办? A: 检查: 1. API Key 是否正确(`sk-sp-` 开头) 2. 是否使用了正确的端点(`coding.dashscope.aliyuncs.com`) 3. API Key 是否已开通视觉模型权限 ### Q: 识别速度慢怎么办? A: - 图片太大 → 压缩到 2MB 以内 - 网络问题 → 检查网络连接 - 模型响应慢 → 尝试 `qwen-turbo` ### Q: 识别不准确怎么办? A: - 图片模糊 → 提供更清晰的图片 - 文字太小 → 放大或裁剪 - 特殊字体 → 尝试其他 OCR 服务 ## 成本 - `qwen3.5-plus`:约 0.002 元/次(1000x1000 图片) - 具体价格参考:https://help.aliyun.com/zh/model-studio/pricing ## 替代方案 如无 Bailian API,可使用: - OpenRouter: `qwen/qwen-2.5-vl-72b-instruct` - 本地 OCR: `tesseract`(需要安装) - 其他云服务:百度 OCR、腾讯 OCR 等 ## 更新日志 - **2026-04-01**: 初始版本,支持 Bailian API 图片识别 - 适用于 Android/Termux 环境,绕过 sharp 模块限制

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 image-recognition-1775889737 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 image-recognition-1775889737 技能

通过命令行安装

skillhub install image-recognition-1775889737

下载 Zip 包

⬇ 下载 image-recognition v1.1.0

文件大小: 8.67 KB | 发布时间: 2026-4-12 10:15

v1.1.0 最新 2026-4-12 10:15
- Added automatic model provider detection: now supports Bailian, OpenRouter, and other OpenAI-compatible visual models by reading configuration or environment variables.
- Updated documentation with new provider options and configuration examples; homepage now at clawhub.ai.
- Removed mandatory sharp and related references; continues to require only `requests` and `Pillow`.
- Simplified usage: script auto-detects the configured model from OpenClaw or environment variables for seamless setup.
- Maintains Android/Termux compatibility and supports a wide range of image formats.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部