返回顶部
s

scrapling-fetch-basic

基础网页抓取工具,支持绕过反爬系统、自动定位正文区域、HTML 转 Markdown。适合抓取博客、新闻、公告等静态页面。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
76
下载量
0
收藏
概述
安装方式
版本历史

scrapling-fetch-basic

# Scrapling Fetch Basic 基础版网页抓取工具,快速高效,适合大多数场景。 ## 主要功能 ### 🌐 网页内容抓取 - **智能正文提取**:自动识别并提取网页正文内容,无需手动指定选择器 - **Markdown 输出**:将 HTML 自动转换为干净的 Markdown 格式 - **字符数控制**:支持自定义最大输出字符数(默认 30000) ### 🔓 反爬绕过 - **Cloudflare Turnstile**:stealth 模式可绕过 Cloudflare 反爬验证 - **浏览器指纹伪装**:隐身模式下模拟真实浏览器 ### 🎯 模式选择 - **basic 模式**:快速 HTTP 抓取,适合静态页面(默认) - **stealth 模式**:隐身浏览器抓取,适合有反爬保护的网站 ## 快速开始 ```bash # 基础抓取 python3 scripts/scrapling_fetch.py https://example.com/article # 指定字符数 python3 scripts/scrapling_fetch.py https://example.com/article 50000 # 绕过反爬保护 python3 scripts/scrapling_fetch.py https://protected-site.com --mode stealth # JSON 输出 python3 scripts/scrapling_fetch.py https://example.com --json ``` ## 正文选择器(11个) 按优先级自动尝试: 1. `article` - HTML5 article 元素 2. `main` - HTML5 main 主元素 3. `.post-content` - 博客常见内容区域 4. `.article-content` - 新闻常见内容区域 5. `.entry-content` - WordPress 常见 6. `.post-body` - 文章正文 7. `[class*='body']` - 包含 "body" 的类名 8. `[class*='content']` - 包含 "content" 的类名 9. `#content` - content ID 10. `#main` - main ID 11. `body` - 最后回退 ## 依赖 | 包名 | 用途 | |------|------| | scrapling | 爬虫核心框架 | | html2text | HTML 转 Markdown | | playwright | 浏览器自动化(stealth 模式) | ## 使用场景 - ✅ 抓取博客文章 - ✅ 抓取新闻页面 - ✅ 抓取公告文档 - ✅ 绕过基础反爬保护 - ⚠️ 微信公众号文章(支持有限,建议使用专业版) ## 对比专业版 | 特性 | 基础版 | 专业版 | |------|--------|--------| | 抓取模式 | basic / stealth | basic / stealth / **auto** | | 选择器数量 | 11 个 | **16 个** | | 微信公众号 | ⚠️ 有限支持 | ✅ **完整支持** | | 噪音清理 | ❌ | ✅ **微信专用清理** | | 自动检测 | ❌ | ✅ **智能模式选择** | --- **版本**: 1.0.0 **作者**: OpenClaw

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 scrapling-fetch-basic-1775957539 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 scrapling-fetch-basic-1775957539 技能

通过命令行安装

skillhub install scrapling-fetch-basic-1775957539

下载 Zip 包

⬇ 下载 scrapling-fetch-basic v1.0.0

文件大小: 4.26 KB | 发布时间: 2026-4-13 11:53

v1.0.0 最新 2026-4-13 11:53
scrapling-fetch-basic 1.0.0 — 首发版

- 发布基础版网页抓取工具,支持静态页面内容提取与反爬绕过
- 自动定位正文区域,支持 11 种常用选择器
- 抓取结果可自动转换为 Markdown 格式
- 提供 basic 和 stealth 两种模式,满足常规与反爬页面需求
- 支持字符数自定义、JSON 输出等常用功能

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部