概述

  • Scrapegraph-ai 是一个开源的下一代网络爬虫,目前已获得 3.2K Star ⭐️。
  • 主要基于 LLM 和 Agent Workflow 构建。

主要功能

  1. 支持模型:Groq、Llama3 等,使用 Prompt 指挥抓取。
  2. 支持 Playwright 以处理 JavaScript 渲染的网页。
  3. 利用 graph builder 和 html、image、speech 节点自定义抓取和解析逻辑。

资源链接

在线 Demo

示例体验

高级功能

  • 结合 Graph Builder 实现多节点前处理/后处理,解决复杂的网页爬取和数据清洗。
  • 支持 image-to-text 和 text-to-speech 功能,以及直接完成 RAG 和问答过程。

文档

自定义流程

教育视频

博客分享

使用示例

发展规划

社区讨论

相关项目

商业化项目

原文在此