🚀 內容核心
內容核心是一個強大的、由人工智能驅動的內容提取與處理平臺,它能將任何來源的內容轉化為簡潔、結構化的信息。通過統一的界面和多種集成選項,你可以從網站提取文本、轉錄視頻、處理文檔並生成人工智能摘要。
🚀 快速開始
安裝
使用 pip 安裝內容核心:
pip install content-core
pip install content-core[docling]
pip install content-core
pip install content-core[docling]
或者,如果你在本地開發:
git clone https://github.com/lfnovo/content-core
cd content-core
uv sync
命令行界面
內容核心提供了三個用於提取、清理和總結內容的 CLI 命令:ccore、cclean 和 csum。這些命令支持從文本、URL、文件或管道數據輸入(例如,通過 cat file | command)。
uvx --from "content-core" ccore https://example.com
uvx --from "content-core" ccore document.pdf
uvx --from "content-core" csum video.mp4 --context "bullet points"
Python 庫
import content_core as cc
result = await cc.extract("https://example.com/article")
summary = await cc.summarize_content(result, context="explain to a child")
✨ 主要特性
- 🎯 智能自動檢測:根據內容類型和可用服務自動選擇最佳提取方法。
- 🔧 智能引擎選擇:
- URL:Firecrawl → Jina → BeautifulSoup 備用鏈。
- 文檔:Docling → 增強型 PyMuPDF → 簡單提取備用。
- 媒體:OpenAI Whisper 轉錄。
- 圖像:支持多引擎的 OCR。
- 📊 增強型 PDF 處理:高級 PyMuPDF 引擎,具有質量標誌、表格檢測和可選的數學公式 OCR。
- 🌍 多集成方式:CLI、Python 庫、MCP 服務器、Raycast 擴展、macOS 服務。
- ⚡ 零安裝選項:使用
uvx 無需安裝即可即時訪問。
- 🧠 人工智能驅動的處理:集成大語言模型進行內容清理和總結。
- 🔄 異步處理:使用
asyncio 構建,實現高效處理。
📦 安裝指南
安裝 Content Core
可以使用 pip 進行安裝:
pip install content-core
pip install content-core[docling]
pip install content-core
pip install content-core[docling]
或者在本地開發時:
git clone https://github.com/lfnovo/content-core
cd content-core
uv sync
💻 使用示例
基礎用法
import asyncio
from content_core.extraction import extract_content
async def main():
text_data = await extract_content({"content": "This is my sample text content."})
print(text_data)
url_data = await extract_content({"url": "https://www.example.com"})
print(url_data)
video_data = await extract_content({"file_path": "path/to/your/video.mp4"})
print(video_data)
md_data = await extract_content({"file_path": "path/to/your/document.md"})
print(md_data)
doc_data = await extract_content({
"file_path": "path/to/your/document.pdf",
"document_engine": "docling",
"output_format": "html"
})
url_data = await extract_content({
"url": "https://www.example.com",
"url_engine": "firecrawl"
})
print(doc_data)
if __name__ == "__main__":
asyncio.run(main())
(更多詳細示例請參見 src/content_core/notebooks/run.ipynb)
高級用法
與 Langchain 集成
對於與 Langchain 框架集成的用戶,content-core 提供了一組兼容的工具。這些工具位於 src/content_core/tools 目錄中,允許你直接在 Langchain 代理和鏈中利用 content-core 的提取、清理和總結功能。
from content_core.tools import extract_content_tool, cleanup_content_tool, summarize_content_tool
from langchain.agents import initialize_agent, AgentType
tools = [extract_content_tool, cleanup_content_tool, summarize_content_tool]
agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True)
agent.run("Extract the content from https://example.com and then summarize it.")
Docling 集成
Content Core 支持一個可選的基於 Docling 的提取引擎,用於處理豐富的文檔格式(PDF、DOCX、PPTX、XLSX、Markdown、AsciiDoc、HTML、CSV、圖像)。
from content_core.config import set_document_engine, set_url_engine, set_docling_output_format
set_document_engine("docling")
set_url_engine("firecrawl")
set_docling_output_format("html")
result = await cc.extract("document.pdf")
📚 詳細文檔
MCP 服務器集成
Content Core 包含一個模型上下文協議(MCP)服務器,可實現與 Claude Desktop 和其他 MCP 兼容應用程序的無縫集成。MCP 服務器通過標準化協議暴露 Content Core 的強大提取功能。
pip install content-core
uvx --from "content-core" content-core-mcp
添加到你的 claude_desktop_config.json:
{
"mcpServers": {
"content-core": {
"command": "uvx",
"args": [
"--from",
"content-core",
"content-core-mcp"
]
}
}
}
詳細的設置說明、配置選項和使用示例,請參閱 MCP 文檔。
增強型 PDF 處理
Content Core 採用了優化的 PyMuPDF 提取引擎,對科學文檔和複雜 PDF 有顯著改進。
extraction:
pymupdf:
enable_formula_ocr: true
formula_threshold: 3
ocr_fallback: true
from content_core.config import set_pymupdf_ocr_enabled
set_pymupdf_ocr_enabled(True)
brew install tesseract
sudo apt-get install tesseract-ocr
注意:OCR 是可選的 - 無需任何額外設置即可自動獲得改進的 PDF 提取。
macOS 服務集成
Content Core 提供了與 macOS Finder 的強大右鍵集成,允許你無需安裝即可從任何文件中提取和總結內容。你可以選擇剪貼板或 TextEdit 輸出,以獲得最大的靈活性。
詳細的設置說明和使用示例,請參閱 macOS 服務文檔。
Raycast 擴展
Content Core 提供了一個強大的 Raycast 擴展,具有智能自動檢測功能,可無縫處理 URL 和文件路徑。你可以直接從 Raycast 界面提取和總結內容,無需切換應用程序。
詳細的設置說明、配置選項和使用示例,請參閱 Raycast 擴展文檔。
🔧 技術細節
智能引擎選擇
- URL:採用 Firecrawl → Jina → BeautifulSoup 備用鏈。
- 文檔:使用 Docling → 增強型 PyMuPDF → 簡單提取備用。
- 媒體:利用 OpenAI Whisper 進行轉錄。
- 圖像:支持多引擎的 OCR。
增強型 PDF 處理
Content Core 的 PyMuPDF 提取引擎有顯著改進,包括:
- 🔬 數學公式提取:增強的質量標誌消除了
<!-- formula-not-decoded --> 佔位符。
- 📊 自動錶格檢測:將表格轉換為 Markdown 格式,便於大語言模型處理。
- 🔧 高質量文本渲染:更好的連字、空格和圖像 - 文本集成。
- ⚡ 可選 OCR 增強:對公式較多的頁面進行選擇性 OCR(需要 Tesseract)。
📄 許可證
本項目採用 MIT 許可證。有關詳細信息,請參閱 LICENSE 文件。
貢獻
歡迎貢獻!有關如何開始的更多詳細信息,請參閱我們的 貢獻指南。