返回顶部
p

pdf-parser

使用 MinerU API 将 PDF 解析为 Markdown,支持公式、表格、OCR。提供本地文件和在线 URL 两种解析方式。触发条件:(1) 用户说"解析 PDF [路径]",(2) 用户说"将 PDF 转为 Markdown",(3) 在 paper-workflow 中自动调用。使用场景:学术论文解析、文档提取、知识库构建。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 3.0.3
安全检测
已通过
333
下载量
1
收藏
概述
安装方式
版本历史

pdf-parser

# PDF Parser Skill 基于 [MinerU](https://github.com/opendatalab/MinerU) 提供 PDF 解析能力。 ## 功能 - **PDF 解析**: 将 PDF 转换为 Markdown 格式 - **公式识别**: 支持 LaTeX 公式提取 - **表格识别**: 自动识别并转换表格结构 - **OCR**: 支持图片型 PDF 文字识别 - **多语言**: 支持中文、英文,日文、韩文等 ## ⚠️ 安装前必读 **使用本技能即表示:** 1. 你愿意提供你的 MinerU API Token (`MINERU_TOKEN`) 2. Token 会被发送给 https://mineru.net/ 3. 确认 MinerU 服务可信,接受其隐私政策 4. 已在本地源码中确认无额外意外行为 ## 前提条件 ### 1. 安装依赖 ```bash pip install requests ``` ### 2. 获取 MinerU Token 访问 <https://mineru.net/> 注册并获取 API Token。 ### 3. 设置环境变量 **Windows (PowerShell):** ```powershell $env:MINERU_TOKEN = "your-token-here" ``` **macOS / Linux:** ```bash export MINERU_TOKEN=your-token-here ``` ## 支持的引擎 | 引擎 | 说明 | |------|------| | vlm | VLM 引擎(默认) | | pipeline | 管道引擎 | | MinerU-HTML | HTML 输出 | ## 快速开始 ```bash # 解析 PDF (默认 vlm 引擎) python scripts/mineru_api.py -f <pdf路径> --wait # 指定引擎 python scripts/mineru_api.py -f <pdf路径> --engine pipeline --wait ``` ## 选项 | 参数 | 说明 | 默认值 | |------|------|--------| | -f, --files | 本地 PDF 文件 | - | | --engine | 解析引擎 | vlm | | --lang | 语言 (ch/en/ja/ko) | ch | | --wait | 等待解析完成 | 否 | ## 环境变量 | 变量 | 必填 | 说明 | |------|------|------| | MINERU_TOKEN | 是 | MinerU API Token | ## 输出 解析结果保存在 `~/.openclaw/MinerU_Results/` 目录下。 ## 工作流 1. 设置 `MINERU_TOKEN` 环境变量 2. 执行解析命令 3. 等待解析完成 4. 读取 full.md 分析内容 5. 根据内容重命名目录

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 mineru-pdf-parser-1776173714 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 mineru-pdf-parser-1776173714 技能

通过命令行安装

skillhub install mineru-pdf-parser-1776173714

下载 Zip 包

⬇ 下载 pdf-parser v3.0.3

文件大小: 6.55 KB | 发布时间: 2026-4-15 10:28

v3.0.3 最新 2026-4-15 10:28
- 简化并拓展了描述,明确支持本地文件和在线 URL 两种解析方式
- 新增技能触发条件说明,包括用户命令触发和 paper-workflow 自动调用
- 新增典型使用场景说明(学术论文解析、文档提取、知识库构建)
- 其他内容与上版一致,未涉及核心功能代码调整

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部