Content Core MCP服務器 - 支持多源內容提取處理，多方式集成的AI開發利器

探索

Content Core

Content Core是一個AI驅動的多功能內容提取與處理平臺，支持從網頁、文檔、音視頻等各類來源提取內容，並提供智能清理、摘要生成等功能，支持命令行、Python庫、MCP服務等多種集成方式。

人工智能聊天機器人研究與數據 #內容提取 #AI處理 #多格式支持 #智能摘要 .Python

評分 : 2.5分

下載量 : 12.4K

更新時間 : 2025-07-31

打開站點

什麼是Content Core MCP Server?

Content Core MCP Server是一個基於Model Context Protocol的內容處理服務，能夠從網頁、文檔、視頻、音頻等多種來源智能提取內容，並進行結構化處理和AI摘要生成。

如何使用MCP Server?

通過簡單的HTTP請求或直接集成到Claude Desktop等應用中，即可調用強大的內容提取和處理能力。支持零配置快速啟動和深度定製兩種模式。

適用場景

適用於需要從多種格式提取內容的AI應用、研究資料收集、內容摘要生成、知識庫建設等場景。特別適合與Claude等AI助手配合使用。

主要功能

多源內容提取

支持網頁、文檔(PDF/Word等)、視頻、音頻、圖片等20+種內容源的智能提取

AI內容處理

內置內容清洗、結構化處理和多種風格的摘要生成能力

智能引擎選擇

自動根據內容類型選擇最佳提取引擎(Firecrawl/Jina/OCR等)

Claude深度集成

一鍵配置即可在Claude對話中直接調用內容提取功能

優勢

開箱即用，無需複雜配置

支持內容類型廣泛，從網頁到專業文檔

處理速度快，採用異步架構

與Claude等AI助手無縫集成

侷限性

部分專業文檔格式需要額外OCR支持

視頻處理需要本地計算資源

高級功能需要API密鑰

如何使用

安裝服務

通過pip安裝或使用uvx零安裝方式運行

Claude集成配置

在Claude Desktop配置文件中添加MCP服務器設置

調用服務

在對話中使用特定語法觸發內容提取或摘要功能

使用案例

網頁內容提取

從新聞網站提取正文並生成執行摘要

學術PDF處理

從科研論文中提取摘要和圖表說明

會議錄音轉文字

將錄音文件轉換為文字記錄並提取行動項

常見問題

需要自己部署OCR服務嗎?

處理大文件會超時嗎?

如何查看提取的原始內容?

支持中文內容處理嗎?

🚀 內容核心

內容核心是一個強大的、由人工智能驅動的內容提取與處理平臺，它能將任何來源的內容轉化為簡潔、結構化的信息。通過統一的界面和多種集成選項，你可以從網站提取文本、轉錄視頻、處理文檔並生成人工智能摘要。

🚀 快速開始

安裝

使用 pip 安裝內容核心：

# 基礎安裝（PyMuPDF + BeautifulSoup/Jina 提取）
pip install content-core

# 包含增強文檔處理（添加 Docling）
pip install content-core[docling]

# 支持 MCP 服務器（現在默認包含）
pip install content-core

# 完整安裝（包含增強文檔處理）
pip install content-core[docling]

或者，如果你在本地開發：

# 克隆倉庫
git clone https://github.com/lfnovo/content-core
cd content-core

# 使用 uv 安裝
uv sync

命令行界面

內容核心提供了三個用於提取、清理和總結內容的 CLI 命令：ccore、cclean 和 csum。這些命令支持從文本、URL、文件或管道數據輸入（例如，通過 cat file | command）。

# 零安裝使用 uvx
# 提取內容
uvx --from "content-core" ccore https://example.com
uvx --from "content-core" ccore document.pdf

# 生成 AI 摘要
uvx --from "content-core" csum video.mp4 --context "bullet points"

Python 庫

import content_core as cc

# 從任何來源提取
result = await cc.extract("https://example.com/article")
summary = await cc.summarize_content(result, context="explain to a child")

✨ 主要特性

🎯 智能自動檢測：根據內容類型和可用服務自動選擇最佳提取方法。
🔧 智能引擎選擇：
- URL：Firecrawl → Jina → BeautifulSoup 備用鏈。
- 文檔：Docling → 增強型 PyMuPDF → 簡單提取備用。
- 媒體：OpenAI Whisper 轉錄。
- 圖像：支持多引擎的 OCR。
📊 增強型 PDF 處理：高級 PyMuPDF 引擎，具有質量標誌、表格檢測和可選的數學公式 OCR。
🌍 多集成方式：CLI、Python 庫、MCP 服務器、Raycast 擴展、macOS 服務。
⚡ 零安裝選項：使用 uvx 無需安裝即可即時訪問。
🧠 人工智能驅動的處理：集成大語言模型進行內容清理和總結。
🔄 異步處理：使用 asyncio 構建，實現高效處理。

📦 安裝指南

安裝 Content Core

可以使用 pip 進行安裝：

# 基礎安裝（PyMuPDF + BeautifulSoup/Jina 提取）
pip install content-core

# 包含增強文檔處理（添加 Docling）
pip install content-core[docling]

# 支持 MCP 服務器（現在默認包含）
pip install content-core

# 完整安裝（包含增強文檔處理）
pip install content-core[docling]

或者在本地開發時：

# 克隆倉庫
git clone https://github.com/lfnovo/content-core
cd content-core

# 使用 uv 安裝
uv sync

💻 使用示例

基礎用法

import asyncio
from content_core.extraction import extract_content

async def main():
    # 從原始文本中提取
    text_data = await extract_content({"content": "This is my sample text content."})
    print(text_data)

    # 從 URL 中提取（默認使用 'auto' 引擎）
    url_data = await extract_content({"url": "https://www.example.com"})
    print(url_data)

    # 從本地視頻文件中提取（獲取轉錄內容，默認引擎為 'auto'）
    video_data = await extract_content({"file_path": "path/to/your/video.mp4"})
    print(video_data)

    # 從本地 Markdown 文件中提取（默認引擎為 'auto'）
    md_data = await extract_content({"file_path": "path/to/your/document.md"})
    print(md_data)

    # 對文檔使用 Docling 進行單次執行覆蓋
    doc_data = await extract_content({
        "file_path": "path/to/your/document.pdf",
        "document_engine": "docling",
        "output_format": "html"
    })
    
    # 對 URL 使用 Firecrawl 進行單次執行覆蓋
    url_data = await extract_content({
        "url": "https://www.example.com",
        "url_engine": "firecrawl"
    })
    print(doc_data)

if __name__ == "__main__":
    asyncio.run(main())

（更多詳細示例請參見 src/content_core/notebooks/run.ipynb）

高級用法

與 Langchain 集成

對於與 Langchain 框架集成的用戶，content-core 提供了一組兼容的工具。這些工具位於 src/content_core/tools 目錄中，允許你直接在 Langchain 代理和鏈中利用 content-core 的提取、清理和總結功能。

from content_core.tools import extract_content_tool, cleanup_content_tool, summarize_content_tool
from langchain.agents import initialize_agent, AgentType

tools = [extract_content_tool, cleanup_content_tool, summarize_content_tool]
agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True)
agent.run("Extract the content from https://example.com and then summarize it.")

Docling 集成

Content Core 支持一個可選的基於 Docling 的提取引擎，用於處理豐富的文檔格式（PDF、DOCX、PPTX、XLSX、Markdown、AsciiDoc、HTML、CSV、圖像）。

from content_core.config import set_document_engine, set_url_engine, set_docling_output_format

# 切換文檔引擎到 Docling
set_document_engine("docling")

# 切換 URL 引擎到 Firecrawl
set_url_engine("firecrawl")

# 選擇輸出格式：'markdown'、'html' 或 'json'
set_docling_output_format("html")

# 現在使用 ccore.extract 或 ccore.ccore
result = await cc.extract("document.pdf")

📚 詳細文檔

MCP 服務器集成

Content Core 包含一個模型上下文協議（MCP）服務器，可實現與 Claude Desktop 和其他 MCP 兼容應用程序的無縫集成。MCP 服務器通過標準化協議暴露 Content Core 的強大提取功能。

# 安裝 Content Core（包含 MCP 服務器）
pip install content-core

# 或者直接使用 uvx（無需安裝）
uvx --from "content-core" content-core-mcp

添加到你的 claude_desktop_config.json：

{
  "mcpServers": {
    "content-core": {
      "command": "uvx",
      "args": [
        "--from",
        "content-core",
        "content-core-mcp"
      ]
    }
  }
}

詳細的設置說明、配置選項和使用示例，請參閱 MCP 文檔。

增強型 PDF 處理

Content Core 採用了優化的 PyMuPDF 提取引擎，對科學文檔和複雜 PDF 有顯著改進。

# 在 cc_config.yaml 中
extraction:
  pymupdf:
    enable_formula_ocr: true      # 對公式較多的頁面啟用 OCR
    formula_threshold: 3          # 每頁觸發 OCR 的最小公式數量
    ocr_fallback: true           # OCR 失敗時的優雅回退

# 運行時配置
from content_core.config import set_pymupdf_ocr_enabled
set_pymupdf_ocr_enabled(True)

# 安裝 Tesseract OCR（可選，用於公式增強）
# macOS
brew install tesseract

# Ubuntu/Debian
sudo apt-get install tesseract-ocr

注意：OCR 是可選的 - 無需任何額外設置即可自動獲得改進的 PDF 提取。

macOS 服務集成

Content Core 提供了與 macOS Finder 的強大右鍵集成，允許你無需安裝即可從任何文件中提取和總結內容。你可以選擇剪貼板或 TextEdit 輸出，以獲得最大的靈活性。詳細的設置說明和使用示例，請參閱 macOS 服務文檔。

Raycast 擴展

Content Core 提供了一個強大的 Raycast 擴展，具有智能自動檢測功能，可無縫處理 URL 和文件路徑。你可以直接從 Raycast 界面提取和總結內容，無需切換應用程序。詳細的設置說明、配置選項和使用示例，請參閱 Raycast 擴展文檔。

🔧 技術細節

智能引擎選擇

URL：採用 Firecrawl → Jina → BeautifulSoup 備用鏈。
文檔：使用 Docling → 增強型 PyMuPDF → 簡單提取備用。
媒體：利用 OpenAI Whisper 進行轉錄。
圖像：支持多引擎的 OCR。

增強型 PDF 處理

Content Core 的 PyMuPDF 提取引擎有顯著改進，包括：

🔬 數學公式提取：增強的質量標誌消除了  佔位符。
📊 自動錶格檢測：將表格轉換為 Markdown 格式，便於大語言模型處理。
🔧 高質量文本渲染：更好的連字、空格和圖像 - 文本集成。
⚡ 可選 OCR 增強：對公式較多的頁面進行選擇性 OCR（需要 Tesseract）。

📄 許可證

本項目採用 MIT 許可證。有關詳細信息，請參閱 LICENSE 文件。

貢獻

歡迎貢獻！有關如何開始的更多詳細信息，請參閱我們的貢獻指南。

Markdownify MCP

Markdownify是一個多功能文件轉換服務，支持將PDF、圖片、音頻等多種格式及網頁內容轉換為Markdown格式。

百度地圖MCP Server是國內首個兼容MCP協議的地圖服務，提供地理編碼、路線規劃等10個標準化API接口，支持Python和Typescript快速接入，賦能智能體實現地圖相關功能。

Firecrawl MCP Server是一個集成Firecrawl網頁抓取能力的模型上下文協議服務器，提供豐富的網頁抓取、搜索和內容提取功能。

TypeScript

155.0K

5分

Sequential Thinking MCP Server

一個基於MCP協議的結構化思維服務器，通過定義思考階段幫助分解複雜問題並生成總結

Context7 MCP是一個為AI編程助手提供即時、版本特定文檔和代碼示例的服務，通過Model Context Protocol直接集成到提示中，解決LLM使用過時信息的問題。

TypeScript

98.6K

4.7分

Edgeone Pages MCP Server

EdgeOne Pages MCP是一個通過MCP協議快速部署HTML內容到EdgeOne Pages並獲取公開URL的服務

一個基於Python的MCP服務器，通過Notion API提供高級待辦事項管理和內容組織功能，實現AI模型與Notion的無縫集成。

Magic Component Platform (MCP) 是一個AI驅動的UI組件生成工具，通過自然語言描述幫助開發者快速創建現代化UI組件，支持多種IDE集成。

智啟未來，您的人工智慧解決方案智庫

Content Core

概述

安裝

工具列表

內容詳情

替代品

什麼是Content Core MCP Server?

如何使用MCP Server?

適用場景

主要功能

如何使用

使用案例

常見問題

相關資源

安裝

🚀 內容核心

🚀 快速開始

安裝

命令行界面

Python 庫

✨ 主要特性

📦 安裝指南

安裝 Content Core

💻 使用示例

基礎用法

高級用法

與 Langchain 集成

Docling 集成

📚 詳細文檔

MCP 服務器集成

增強型 PDF 處理

macOS 服務集成

Raycast 擴展

🔧 技術細節

智能引擎選擇

增強型 PDF 處理

📄 許可證

貢獻

替代品