豬豆網(wǎng)全新上線啦！每日更新有價值的內(nèi)容，歡迎收藏分享本網(wǎng)站。

Crawl4AI：開源LLM友好型Web爬蟲和抓取工具

182次閱讀

Crawl4?AI是什么

Crawl4AI 是一款?開源的 LLM 友好型 Web 爬蟲工具，旨在簡化異步 Web 爬取和數(shù)據(jù)提取，專為大型語言模型 (LLM) 和 AI 應(yīng)用程序設(shè)計。它可以作為 Python 包或通過 Docker 安裝，提供靈活的使用方式。Crawl4AI 的主要特點包括支持多 URL 并行爬取、提取所有媒體標(biāo)簽、外部和內(nèi)部鏈接、元數(shù)據(jù)等。它支持自定義鉤子、用戶代理、頁面截圖、JavaScript 執(zhí)行，并能生成結(jié)構(gòu)化的輸出，適合各種復(fù)雜的爬取場景，工具還具備異步架構(gòu)和隱私保護(hù)功能。

Crawl4AI 特點

? 完全免費且開源
? 性能超快，超越許多付費服務(wù)
? LLM 友好的輸出格式（JSON、清理的 HTML、markdown）
? 支持同時抓取多個 URL
? 提取并返回所有媒體標(biāo)簽（圖像、音頻和視頻）
? 提取所有外部和內(nèi)部鏈接
? 從頁面中提取元數(shù)據(jù)
? 爬取之前用于身份驗證、標(biāo)頭和頁面修改的自定義鉤子
?? 用戶代理自定義
?? 截取頁面截圖
? 抓取前執(zhí)行多個自定義 JavaScript
? 使用 JsonCssExtractionStrategy 生成無需 LLM 的結(jié)構(gòu)化輸出
? 各種分塊策略：基于主題、正則表達(dá)式、句子等
? 高級提取策略：余弦聚類、LLM 等
? CSS 選擇器支持精確的數(shù)據(jù)提取
? 傳遞指令 / 關(guān)鍵字以優(yōu)化提取
? 代理支持，增強(qiáng)隱私和訪問
? 針對復(fù)雜的多頁面爬取場景的會話管理
? 異步架構(gòu)，提高性能和可擴(kuò)展性

Crawl4?AI如何安裝

Crawl4AI 提供靈活的安裝選項，以適應(yīng)各種用例。您可以將其安裝為??Python?包或使用 Docker。

使用 pip ?

選擇最適合您需求的安裝選項：

基本安裝

對于基本的網(wǎng)頁爬取和抓取任務(wù)：

pip install crawl4ai

默認(rèn)情況下，這將安裝 Crawl4AI 的異步版本，使用 Playwright 進(jìn)行網(wǎng)絡(luò)爬取。

? 注意：安裝 Crawl4AI 時，安裝腳本應(yīng)自動安裝并設(shè)置 Playwright。但是，如果遇到任何與 Playwright 相關(guān)的錯誤，則可以使用以下方法之一手動安裝它：

通過命令行：
```
playwright install
```
如果上述方法不起作用，請嘗試這個更具體的命令：
```
python -m playwright install chromium
```

在某些情況下，第二種方法已被證明更為可靠。

同步版本安裝

如果您需要使用 Selenium 的同步版本：

pip install crawl4ai[sync]

開發(fā)安裝

對于計劃修改源代碼的貢獻(xiàn)者：

git clone https://github.com/unclecode/crawl4ai.git
cd crawl4ai
pip install -e .

使用 Docker

我們正在創(chuàng)建 Docker 鏡像并將其推送到 Docker Hub。這將提供一種在容器化環(huán)境中運行 Crawl4AI 的簡便方法。敬請期待更新！

開源地址：https://github.com/unclecode/crawl4ai

正文完

Crawl4AI

發(fā)表至：值得一看開源項目

2024-10-10

0

版權(quán)聲明：本站原創(chuàng)文章，由老馬于2024-10-10發(fā)表，共計1182字。

轉(zhuǎn)載說明：本站提供的一切軟件、教程、電子書、視頻、圖片、音樂、文字以及所有內(nèi)容信息僅供個人學(xué)習(xí)、研究或欣賞；不得將上述內(nèi)容用于商業(yè)或者非法用途，否則，一切后果請用戶自負(fù)。本站信息來自網(wǎng)友分享及網(wǎng)絡(luò)收集整理，版權(quán)爭議與本站無關(guān)。您必須在下載后的24個小時之內(nèi)，從您的電腦或手機(jī)中徹底刪除上述內(nèi)容。如果您喜歡相關(guān)內(nèi)容信息，請支持正版，進(jìn)行購買注冊，以得到更好的正版服務(wù)。我們非常重視版權(quán)問題，如有侵權(quán)請郵件與我們聯(lián)系處理。敬請諒解！侵刪請致信E-mail：tntwl@qq.com

UdioAI：AI音樂生成器，一鍵即可生成音樂

F-Droid：一個專注于Android平臺上自由開源軟件（FOSS）的應(yīng)用市場

影視狗：一個超好用的影視資源站點

拾音人：高清MV免費下載網(wǎng)站

FetchV：一個強(qiáng)大的的網(wǎng)頁視頻下載插件

photoshop在線網(wǎng)頁版

Kimi 瀏覽器助手：一款幫助用戶高效閱讀和寫作的插件

fnd.io：全球iTunes和App Store搜索工具

無本AI內(nèi)容創(chuàng)作課