Scrapegraph-ai
文章目录
概述
- Scrapegraph-ai 是一个开源的下一代网络爬虫,目前已获得 3.2K Star ⭐️。
- 主要基于 LLM 和 Agent Workflow 构建。
主要功能
- 支持模型:Groq、Llama3 等,使用 Prompt 指挥抓取。
- 支持 Playwright 以处理 JavaScript 渲染的网页。
- 利用 graph builder 和 html、image、speech 节点自定义抓取和解析逻辑。
资源链接
在线 Demo
- 基于 streamlit 的在线 demo:https://t.co/QSFOCgZcZ9
示例体验
- 提供了 Colab 的 Notebook 示例体验抓取全过程:https://t.co/Jube1L2ojb
高级功能
- 结合 Graph Builder 实现多节点前处理/后处理,解决复杂的网页爬取和数据清洗。
- 支持 image-to-text 和 text-to-speech 功能,以及直接完成 RAG 和问答过程。
文档
自定义流程
- 基于 graph-builder、node、utils 的个性化爬虫实现方式:https://t.co/Fch8vWIAia
教育视频
- 知名 YouTube 博主 @fahdmirza 录制的 ScrapeGraphAI 讲解视频:https://t.co/66ORXSlSaW
博客分享
- @fahdmirza 在博客中分享为什么我们需要下一代网络爬虫:https://t.co/YBaeRJBi2J
使用示例
- 官网介绍了使用 ollama、openai 实现抓取的示例:https://t.co/QX75WtevKS
发展规划
- 后续的发展路线图:https://t.co/64H9b8pETa
社区讨论
- HackerNews 上的详细讨论帖子:https://t.co/fEtlNPu7vg
相关项目
- llm-scraper,同样开源,1.4K Star ⭐️:https://t.co/BDlDFfMOD7
- AutoCrawler,目前开源,300 Star:https://t.co/HPqA6Q6WWD
商业化项目
- 类似的还有一些商业化的项目,例如:https://t.co/MxTA6QWK2J https://t.co/imiwbnwIFy
- 背后是 AgentGPT 开源项目:https://t.co/B26qUNGeFO