97久久精品无码一区二区天美,开裆裤羞辱调教高h绳子,欧美成人brazzers,成人免费午夜性大片,成人国产一区二区精品小说

Crawl4AI:開源LLM友好型Web爬蟲和抓取工具

182次閱讀
沒有評論

Crawl4AI:開源 LLM 友好型 Web 爬蟲和抓取工具

Crawl4?AI是什么

Crawl4AI 是一款?開源 的 LLM 友好型 Web 爬蟲工具,旨在簡化異步 Web 爬取和數(shù)據(jù)提取,專為大型語言模型 (LLM) 和 AI 應(yīng)用程序設(shè)計。它可以作為 Python 包或通過 Docker 安裝,提供靈活的使用方式。Crawl4AI 的主要特點包括支持多 URL 并行爬取、提取所有媒體標(biāo)簽、外部和內(nèi)部鏈接、元數(shù)據(jù)等。它支持自定義鉤子、用戶代理、頁面截圖、JavaScript 執(zhí)行,并能生成結(jié)構(gòu)化的輸出,適合各種復(fù)雜的爬取場景,工具還具備異步架構(gòu)和隱私保護(hù)功能。

Crawl4AI 特點

  • ? 完全免費且開源
  • ? 性能超快,超越許多付費服務(wù)
  • ? LLM 友好的輸出格式(JSON、清理的 HTML、markdown)
  • ? 支持同時抓取多個 URL
  • ? 提取并返回所有媒體標(biāo)簽(圖像、音頻和視頻)
  • ? 提取所有外部和內(nèi)部鏈接
  • ? 從頁面中提取元數(shù)據(jù)
  • ? 爬取之前用于身份驗證、標(biāo)頭和頁面修改的自定義鉤子
  • ?? 用戶代理自定義
  • ?? 截取頁面截圖
  • ? 抓取前執(zhí)行多個自定義 JavaScript
  • ? 使用 JsonCssExtractionStrategy 生成無需 LLM 的結(jié)構(gòu)化輸出
  • ? 各種分塊策略:基于主題、正則表達(dá)式、句子等
  • ? 高級提取策略:余弦聚類、LLM 等
  • ? CSS 選擇器支持精確的數(shù)據(jù)提取
  • ? 傳遞指令 / 關(guān)鍵字以優(yōu)化提取
  • ? 代理支持,增強(qiáng)隱私和訪問
  • ? 針對復(fù)雜的多頁面爬取場景的會話管理
  • ? 異步架構(gòu),提高性能和可擴(kuò)展性

Crawl4?AI如何安裝

Crawl4AI 提供靈活的安裝選項,以適應(yīng)各種用例。您可以將其安裝為??Python?包或使用 Docker。

使用 pip ?

選擇最適合您需求的安裝選項:

基本安裝

對于基本的網(wǎng)頁爬取和抓取任務(wù):

pip install crawl4ai

默認(rèn)情況下,這將安裝 Crawl4AI 的異步版本,使用 Playwright 進(jìn)行網(wǎng)絡(luò)爬取。

? 注意:安裝 Crawl4AI 時,安裝腳本應(yīng)自動安裝并設(shè)置 Playwright。但是,如果遇到任何與 Playwright 相關(guān)的錯誤,則可以使用以下方法之一手動安裝它:

  1. 通過命令行:

    playwright install
  2. 如果上述方法不起作用,請嘗試這個更具體的命令:

    python -m playwright install chromium

在某些情況下,第二種方法已被證明更為可靠。

同步版本安裝

如果您需要使用 Selenium 的同步版本:

pip install crawl4ai[sync]

開發(fā)安裝

對于計劃修改源代碼的貢獻(xiàn)者:

git clone https://github.com/unclecode/crawl4ai.git
cd crawl4ai
pip install -e .

使用 Docker

我們正在創(chuàng)建 Docker 鏡像并將其推送到 Docker Hub。這將提供一種在容器化環(huán)境中運行 Crawl4AI 的簡便方法。敬請期待更新!

開源地址:https://github.com/unclecode/crawl4ai

正文完
 0
老馬
版權(quán)聲明:本站原創(chuàng)文章,由 老馬 于2024-10-10發(fā)表,共計1182字。
轉(zhuǎn)載說明:本站提供的一切軟件、教程、電子書、視頻、圖片、音樂、文字以及所有內(nèi)容信息僅供個人學(xué)習(xí)、研究或欣賞;不得將上述內(nèi)容用于商業(yè)或者非法用途,否則,一切后果請用戶自負(fù)。本站信息來自網(wǎng)友分享及網(wǎng)絡(luò)收集整理,版權(quán)爭議與本站無關(guān)。您必須在下載后的24個小時之內(nèi),從您的電腦或手機(jī)中徹底刪除上述內(nèi)容。如果您喜歡相關(guān)內(nèi)容信息,請支持正版,進(jìn)行購買注冊,以得到更好的正版服務(wù)。我們非常重視版權(quán)問題,如有侵權(quán)請郵件與我們聯(lián)系處理。敬請諒解!侵刪請致信E-mail:tntwl@qq.com
評論(沒有評論)