Crawl4?AI是什么
Crawl4AI 是一款?開源 的 LLM 友好型 Web 爬蟲工具,旨在簡化異步 Web 爬取和數(shù)據(jù)提取,專為大型語言模型 (LLM) 和 AI 應(yīng)用程序設(shè)計。它可以作為 Python 包或通過 Docker 安裝,提供靈活的使用方式。Crawl4AI 的主要特點包括支持多 URL 并行爬取、提取所有媒體標(biāo)簽、外部和內(nèi)部鏈接、元數(shù)據(jù)等。它支持自定義鉤子、用戶代理、頁面截圖、JavaScript 執(zhí)行,并能生成結(jié)構(gòu)化的輸出,適合各種復(fù)雜的爬取場景,工具還具備異步架構(gòu)和隱私保護(hù)功能。
Crawl4AI 特點
- ? 完全免費且開源
- ? 性能超快,超越許多付費服務(wù)
- ? LLM 友好的輸出格式(JSON、清理的 HTML、markdown)
- ? 支持同時抓取多個 URL
- ? 提取并返回所有媒體標(biāo)簽(圖像、音頻和視頻)
- ? 提取所有外部和內(nèi)部鏈接
- ? 從頁面中提取元數(shù)據(jù)
- ? 爬取之前用于身份驗證、標(biāo)頭和頁面修改的自定義鉤子
- ?? 用戶代理自定義
- ?? 截取頁面截圖
- ? 抓取前執(zhí)行多個自定義 JavaScript
- ? 使用 JsonCssExtractionStrategy 生成無需 LLM 的結(jié)構(gòu)化輸出
- ? 各種分塊策略:基于主題、正則表達(dá)式、句子等
- ? 高級提取策略:余弦聚類、LLM 等
- ? CSS 選擇器支持精確的數(shù)據(jù)提取
- ? 傳遞指令 / 關(guān)鍵字以優(yōu)化提取
- ? 代理支持,增強(qiáng)隱私和訪問
- ? 針對復(fù)雜的多頁面爬取場景的會話管理
- ? 異步架構(gòu),提高性能和可擴(kuò)展性
Crawl4?AI如何安裝
Crawl4AI 提供靈活的安裝選項,以適應(yīng)各種用例。您可以將其安裝為??Python?包或使用 Docker。
使用 pip ?
選擇最適合您需求的安裝選項:
基本安裝
對于基本的網(wǎng)頁爬取和抓取任務(wù):
pip install crawl4ai
默認(rèn)情況下,這將安裝 Crawl4AI 的異步版本,使用 Playwright 進(jìn)行網(wǎng)絡(luò)爬取。
? 注意:安裝 Crawl4AI 時,安裝腳本應(yīng)自動安裝并設(shè)置 Playwright。但是,如果遇到任何與 Playwright 相關(guān)的錯誤,則可以使用以下方法之一手動安裝它:
-
通過命令行:
playwright install
-
如果上述方法不起作用,請嘗試這個更具體的命令:
python -m
playwright install
chromium
在某些情況下,第二種方法已被證明更為可靠。
同步版本安裝
如果您需要使用 Selenium 的同步版本:
pip install crawl4ai
[sync]
開發(fā)安裝
對于計劃修改源代碼的貢獻(xiàn)者:
git clone https://github.com/unclecode/crawl4ai.git
cd crawl4ai
pip install -e .
使用 Docker
我們正在創(chuàng)建 Docker 鏡像并將其推送到 Docker Hub。這將提供一種在容器化環(huán)境中運行 Crawl4AI 的簡便方法。敬請期待更新!
開源地址:https://github.com/unclecode/crawl4ai