Chunkr 是一個開源基于視覺模型的 PDF 數(shù)據(jù)提取工具,專注于文檔布局分析、OCR 和分塊處理。它能夠將 PDF、DOC、PPT 和 XLS 文件轉換為適用于 RAG(檢索增強生成)和 LLM(大語言模型)的結構化數(shù)據(jù)。Chunkr 使用先進的視覺模型和 OCR 技術,提取文檔中的邊界框和結構化文本,支持文本、表格、圖像和手寫內容的處理。由 Lumina AI Inc. 維護,支持 GPU 和 CPU 環(huán)境,提供免費試用和定價方案。
正文完