Content Core MCPサーバー：多源コンテンツ抽出処理と多様な統合方式をサポートするAI開発ツール

Content Core

Content Coreは、AIによって駆動される多機能なコンテンツ抽出および処理プラットフォームで、ウェブページ、ドキュメント、音声/ビデオなどのさまざまなソースからコンテンツを抽出し、スマートなクリーニング、要約生成などの機能を提供します。コマンドライン、Pythonライブラリ、MCPサービスなどのさまざまな統合方法をサポートしています。

人工知能チャットボット研究とデータ #コンテンツ抽出 #AI処理 #多形式サポート #スマート要約 .Python

スコア : 2.5ポイント

ダウンロード数 : 4.9K

更新時間 : 2025-07-31

サイトを開く

Content Core MCPサーバーとは？

Content Core MCPサーバーは、Model Context Protocolに基づくコンテンツ処理サービスで、ウェブページ、ドキュメント、ビデオ、オーディオなどのさまざまなソースからコンテンツをスマートに抽出し、構造化処理とAIによる要約生成を行います。

MCPサーバーの使い方は？

簡単なHTTPリクエストを行うか、Claude Desktopなどのアプリに直接統合することで、強力なコンテンツ抽出および処理機能を呼び出すことができます。ゼロ設定での迅速な起動と深度のあるカスタマイズの2つのモードをサポートしています。

適用シーン

さまざまな形式からコンテンツを抽出する必要があるAIアプリケーション、研究資料の収集、コンテンツ要約の生成、知識ベースの構築などのシーンに適しています。特にClaudeなどのAIアシスタントとの連携に最適です。

主要機能

多ソースコンテンツ抽出

ウェブページ、ドキュメント（PDF/Wordなど）、ビデオ、オーディオ、画像など20種類以上のコンテンツソースのスマートな抽出をサポートします。

AIコンテンツ処理

コンテンツのクリーニング、構造化処理、およびさまざまなスタイルの要約生成機能を内蔵しています。

スマートエンジン選択

コンテンツの種類に応じて自動的に最適な抽出エンジン（Firecrawl/Jina/OCRなど）を選択します。

Claudeとの深度統合

ワンクリックで設定するだけで、Claudeの会話内で直接コンテンツ抽出機能を呼び出すことができます。

利点

すぐに使えるため、複雑な設定は不要です。

ウェブページから専門ドキュメントまで、幅広いコンテンツタイプをサポートしています。

非同期アーキテクチャを採用しているため、処理速度が速いです。

ClaudeなどのAIアシスタントとシームレスに統合できます。

制限

一部の専門ドキュメント形式には、追加のOCRサポートが必要です。

ビデオ処理にはローカルの計算リソースが必要です。

高度な機能にはAPIキーが必要です。

使い方

サービスのインストール

pipを使ってインストールするか、uvxを使ってゼロインストールで実行します。

Claudeとの統合設定

Claude Desktopの設定ファイルにMCPサーバーの設定を追加します。

サービスの呼び出し

会話内で特定の構文を使ってコンテンツ抽出または要約機能をトリガーします。

使用例

ウェブページのコンテンツ抽出

ニュースサイトから本文を抽出し、執行要約を生成します。

学術PDFの処理

研究論文から要約と図表の説明を抽出します。

会議録音の文字起こし

録音ファイルを文字起こしし、アクションアイテムを抽出します。

よくある質問

自分でOCRサービスをデプロイする必要がありますか？

大きなファイルの処理でタイムアウトしますか？

抽出した元のコンテンツをどうやって見ることができますか？

中国語のコンテンツ処理はサポートされていますか？

🚀 Content Core

Content Core は強力なAIベースのコンテンツ抽出および処理プラットフォームです。あらゆるソースからクリーンで構造化されたコンテンツを生成します。統一されたインターフェースと複数の統合オプションを通じて、ウェブサイトからのテキスト抽出、ビデオの文字起こし、ドキュメントの処理、AIによる要約生成などを行うことができます。

🚀 クイックスタート

content-core をPythonプロジェクトに簡単に統合して、様々なソースからコンテンツを抽出、クリーニング、要約することができます。

import content_core as cc

# 任意のソースから抽出
result = await cc.extract("https://example.com/article")
summary = await cc.summarize_content(result, context="explain to a child")

✨ 主な機能

🎯 インテリジェントな自動検出：コンテンツの種類と利用可能なサービスに基づいて、最適な抽出方法を自動的に選択します。
🔧 スマートなエンジン選択：
- URL：Firecrawl → Jina → BeautifulSoupのフォールバックチェーン
- ドキュメント：Docling → 拡張されたPyMuPDF → シンプルな抽出のフォールバック
- メディア：OpenAI Whisperによる文字起こし
- 画像：複数のエンジンをサポートするOCR
📊 高度なPDF処理：品質フラグ、テーブル検出、数式のオプションOCRを備えた高度なPyMuPDFエンジン
🌍 複数の統合方法：CLI、Pythonライブラリ、MCPサーバー、Raycast拡張機能、macOSサービス
⚡ ゼロインストールオプション：uvx を使用することで、インストールなしですぐにアクセスできます。
🧠 AIによる処理：コンテンツのクリーニングと要約のためのLLM統合
🔄 非同期処理：asyncio を使用して効率的な処理を実現します。

📦 インストール

pip を使用してContent Coreをインストールします。

# 基本的なインストール (PyMuPDF + BeautifulSoup/Jina抽出)
pip install content-core

# 拡張されたドキュメント処理を含むインストール (Doclingを追加)
pip install content-core[docling]

# MCPサーバーサポート付き (現在はデフォルトで含まれています)
pip install content-core

# 完全なインストール (拡張されたドキュメント処理を含む)
pip install content-core[docling]

あるいは、ローカルで開発する場合は、以下の手順を実行します。

# リポジトリをクローン
git clone https://github.com/lfnovo/content-core
cd content-core

# uvを使用してインストール
uv sync

💻 使用例

基本的な使用法

import content_core as cc

# 任意のソースからコンテンツを抽出
result = await cc.extract("https://example.com/article")

# 汚いコンテンツをクリーニング
cleaned_text = await cc.clean("...messy text with [brackets] and extra spaces...")

# オプションのコンテキストでコンテンツを要約
summary = await cc.summarize_content("long article text", context="explain to a child")

高度な使用法

import asyncio
from content_core.extraction import extract_content

async def main():
    # 生のテキストから抽出
    text_data = await extract_content({"content": "This is my sample text content."})
    print(text_data)

    # URLから抽出 (デフォルトで 'auto' エンジンを使用)
    url_data = await extract_content({"url": "https://www.example.com"})
    print(url_data)

    # ローカルのビデオファイルから抽出 (文字起こしを取得、デフォルトで engine='auto')
    video_data = await extract_content({"file_path": "path/to/your/video.mp4"})
    print(video_data)

    # ローカルのマークダウンファイルから抽出 (デフォルトで engine='auto')
    md_data = await extract_content({"file_path": "path/to/your/document.md"})
    print(md_data)

    # ドキュメントに対してDoclingを使用する実行時のオーバーライド
    doc_data = await extract_content({
        "file_path": "path/to/your/document.pdf",
        "document_engine": "docling",
        "output_format": "html"
    })
    
    # URLに対してFirecrawlを使用する実行時のオーバーライド
    url_data = await extract_content({
        "url": "https://www.example.com",
        "url_engine": "firecrawl"
    })
    print(doc_data)

if __name__ == "__main__":
    asyncio.run(main())

（詳細な例については、src/content_core/notebooks/run.ipynb を参照してください。）

📚 ドキュメント

Content Coreライブラリの使用方法、AIモデルの設定やカスタマイズの詳細については、使用ドキュメントを参照してください。

🔧 技術詳細

MCPサーバー統合

Content Coreには、Model Context Protocol (MCP) サーバーが含まれており、Claude Desktopや他のMCP互換アプリケーションとのシームレスな統合を可能にします。MCPサーバーは、標準化されたプロトコルを通じてContent Coreの強力な抽出機能を公開します。

# Content Coreをインストール (MCPサーバーを含む)
pip install content-core

# またはuvxを直接使用する (インストール不要)
uvx --from "content-core" content-core-mcp

claude_desktop_config.json に追加します。

{
  "mcpServers": {
    "content-core": {
      "command": "uvx",
      "args": [
        "--from",
        "content-core",
        "content-core-mcp"
      ]
    }
  }
}

詳細なセットアップ手順、設定オプション、および使用例については、MCPドキュメントを参照してください。

拡張されたPDF処理

Content Coreは、科学文献や複雑なPDFに対して大幅な改善を加えた最適化されたPyMuPDF抽出エンジンを備えています。

主な改善点

🔬 数式抽出：拡張された品質フラグにより、 プレースホルダーが排除されます。
📊 自動テーブル検出：テーブルがLLMで消費可能なマークダウン形式に変換されます。
🔧 品質の高いテキストレンダリング：より良い合字、空白、および画像テキストの統合
⚡ オプションのOCR強化：数式が多いページに対する選択的なOCR (Tesseractが必要)

科学文献のための設定

数式が多い文書の場合は、OCR強化を有効にします。

# cc_config.yaml 内
extraction:
  pymupdf:
    enable_formula_ocr: true      # 数式が多いページに対してOCRを有効にする
    formula_threshold: 3          # OCRをトリガーするページあたりの最小数式数
    ocr_fallback: true           # OCRが失敗した場合のグレースフルなフォールバック

# 実行時の設定
from content_core.config import set_pymupdf_ocr_enabled
set_pymupdf_ocr_enabled(True)

OCR強化の要件

# Tesseract OCRをインストール (オプション、数式強化用)
# macOS
brew install tesseract

# Ubuntu/Debian
sudo apt-get install tesseract-ocr

注：OCRはオプションです。追加の設定なしで自動的に改善されたPDF抽出が行われます。

macOSサービス統合

Content Coreは、macOS Finderとの強力な右クリック統合を提供し、インストールなしで任意のファイルからコンテンツを抽出および要約することができます。最大限の柔軟性のために、クリップボードまたはTextEdit出力を選択できます。

利用可能なサービス

異なるワークフローのための4つの便利なサービスを作成します。

コンテンツを抽出 → クリップボード：即座に貼り付けるためのクイックコピー
コンテンツを抽出 → TextEdit：使用前に確認する
コンテンツを要約 → クリップボード：クイックな要約のコピー
コンテンツを要約 → TextEdit：見出し付きの整形された要約

クイックセットアップ

uvをインストール (まだインストールされていない場合)：
```
curl -LsSf https://astral.sh/uv/install.sh | sh
```
Automatorを使用してサービスを手動で作成 (5分でセットアップ)

使用方法

Finderでサポートされている任意のファイルを右クリック → サービス → オプションを選択します。

PDF、Wordドキュメント：即座にテキストを抽出
ビデオ、オーディオファイル：自動的に文字起こし
画像：OCRによるテキスト認識
ウェブコンテンツ：クリーンなテキストを抽出
複数のファイル：バッチ処理をサポート

特徴

ゼロインストール処理：uvx を使用して分離された実行を行います。
複数の出力オプション：クリップボードまたはTextEdit表示
システム通知：完了時の視覚的なフィードバック
幅広い形式サポート：20種類以上のファイル形式をサポート
バッチ処理：一度に複数のファイルを処理
キーボードショートカット：上級ユーザー向けに割り当て可能なホットキー

コピーアンドペースト可能なスクリプトを含む完全なセットアップ手順については、macOSサービスドキュメントを参照してください。

Raycast拡張機能

Content Coreは、URLとファイルパスの両方をシームレスに処理するスマートな自動検出機能を備えた強力なRaycast拡張機能を提供します。Raycastインターフェースから直接コンテンツを抽出および要約し、アプリケーションを切り替える必要がありません。

クイックセットアップ

Raycastストアから (近日公開)：

Raycastを開き、「Content Core」を検索します。
luis_novo による拡張機能をインストールします。
設定でAPIキーを構成します。

手動インストール：

リポジトリから拡張機能をダウンロードします。
Raycast → 「拡張機能をインポート」を開きます。
raycast-content-core フォルダを選択します。

コマンド

🔍 コンテンツを抽出：完全なインターフェースを備えたスマートなURL/ファイル検出
- リアルタイムでURLとファイルパスを自動検出
- 複数の出力形式 (テキスト、JSON、XML)
- ファイルのドラッグアンドドロップサポート
- メタデータ付きのリッチな結果ビュー
📝 コンテンツを要約：カスタマイズ可能なスタイルでAIによる要約
- 9種類の異なる要約スタイル (箇条書き、エグゼクティブサマリーなど)
- 視覚的なフィードバックでソースタイプを自動検出
- ワンクリックでのスニペット作成とクイックリンク
⚡ クイック抽出：即座にクリップボードに抽出
- 入力 → Tab → ソースを貼り付け → Enter
- UIなし、コマンドバーから直接動作
- クイックワークフローに最適

特徴

スマートな自動検出：URLとファイルパスを即座に認識
ゼロインストール：uvx を使用してContent Coreを実行
リッチな統合：キーボードショートカット、クリップボードアクション、Raycastスニペット
すべてのファイルタイプ：ドキュメント、ビデオ、オーディオ、画像、アーカイブ
視覚的なフィードバック：アイコンでリアルタイムのタイプ検出

詳細なセットアップ、設定、および使用例については、Raycast拡張機能ドキュメントを参照してください。

Langchainとの連携

Langchain フレームワークと連携するユーザー向けに、content-core は一連の互換性のあるツールを公開しています。これらのツールは src/content_core/tools ディレクトリにあり、Langchainのエージェントやチェーン内で直接 content-core の抽出、クリーニング、要約機能を利用することができます。

from content_core.tools import extract_content_tool, cleanup_content_tool, summarize_content_tool
from langchain.agents import initialize_agent, AgentType

tools = [extract_content_tool, cleanup_content_tool, summarize_content_tool]
agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True)
agent.run("Extract the content from https://example.com and then summarize it.")

特定のツールの実装と使用方法の詳細については、src/content_core/tools のソースコードを参照してください。

Docling統合

Content Coreは、豊富なドキュメント形式 (PDF、DOCX、PPTX、XLSX、マークダウン、AsciiDoc、HTML、CSV、画像) に対して、オプションのDoclingベースの抽出エンジンをサポートしています。

Doclingの有効化

Doclingは、ドキュメントを解析する際のデフォルトのエンジンではありません。使用しない場合は、エンジンを「simple」に設定する必要があります。

設定ファイルを介して

cc_config.yaml またはカスタム設定で、以下のように設定します。

extraction:
  document_engine: docling  # 'auto' (デフォルト), 'simple', または 'docling'
  url_engine: auto          # 'auto' (デフォルト), 'simple', 'firecrawl', または 'jina'
  docling:
    output_format: markdown  # markdown | html | json

Pythonでプログラム的に

from content_core.config import set_document_engine, set_url_engine, set_docling_output_format

# ドキュメントエンジンをDoclingに切り替え
set_document_engine("docling")

# URLエンジンをFirecrawlに切り替え
set_url_engine("firecrawl")

# 出力形式を選択: 'markdown', 'html', または 'json'
set_docling_output_format("html")

# これでccore.extractまたはccore.ccoreを使用できます
result = await cc.extract("document.pdf")

設定

設定 (外部サービスのAPIキー、ログレベルなど) は、環境変数または .env ファイルを通じて管理できます。python-dotenv を使用して自動的に読み込まれます。

例の .env ファイル：

OPENAI_API_KEY=your-key-here
GOOGLE_API_KEY=your-key-here

# エンジン選択 (オプション)
CCORE_DOCUMENT_ENGINE=auto  # auto, simple, docling
CCORE_URL_ENGINE=auto       # auto, simple, firecrawl, jina

環境変数を使用したエンジン選択

MCPサーバーやRaycast拡張機能などのデプロイメントシナリオでは、環境変数を使用して抽出エンジンをオーバーライドすることができます。

CCORE_DOCUMENT_ENGINE：ドキュメントエンジンを強制設定 (auto, simple, docling)
CCORE_URL_ENGINE：URLエンジンを強制設定 (auto, simple, firecrawl, jina)

これらの変数は、設定ファイルの設定よりも優先され、異なるデプロイメントシナリオに対して明示的な制御を提供します。

カスタムプロンプトテンプレート

Content Coreでは、コンテンツ処理のためのカスタムプロンプトテンプレートを定義することができます。デフォルトでは、ライブラリは prompts ディレクトリにある組み込みのプロンプトを使用します。ただし、独自のプロンプトテンプレートを作成し、専用のディレクトリに保存することができます。カスタムプロンプトの場所を指定するには、.env ファイルまたはシステム環境で PROMPT_PATH 環境変数を設定します。

カスタムプロンプトパスを含む例の .env ファイル：

OPENAI_API_KEY=your-key-here
GOOGLE_API_KEY=your-key-here
PROMPT_PATH=/path/to/your/custom/prompts

プロンプトテンプレートが要求されると、Content Coreはまず PROMPT_PATH で指定されたカスタムディレクトリを検索します (設定されていて存在する場合)。テンプレートがそこで見つからない場合は、デフォルトの組み込みプロンプトにフォールバックします。これにより、特定のプロンプトをオーバーライドしながら、他のプロンプトにはデフォルトのものを使用することができます。

開発

開発環境をセットアップするには、以下の手順を実行します。

# リポジトリをクローン
git clone <repository-url>
cd content-core

# 仮想環境を作成し、依存関係をインストール
uv venv
source .venv/bin/activate
uv sync --group dev

# テストを実行
make test

# コードをリント
make lint

# すべてのコマンドを表示
make help