知識グラフ構築MCPツール：テキストからグラフへの変換と多データベース統合をサポート

たんさく

Hkg Ontologizer Kgb MCP

知識グラフビルダーは、ローカルAIモデルを使用してテキストまたはウェブページの内容を構造化された知識グラフに変換し、大規模コンテンツの処理、リアルタイム可視化をサポートし、Neo4jとQdrantデータベースと統合します。

知識管理と記憶研究とデータ #知識グラフ #AI処理 #データベース統合 #可視化 .Python

スコア : 2ポイント

ダウンロード数 : 5.6K

更新時間 : 2025-07-24

サイトを開く

知識グラフビルダーMCPサーバーとは？

これはローカルAIモデルに基づく知識グラフ構築ツールで、任意のテキストまたはウェブページの内容を構造化された知識グラフに変換することができます。MCPプロトコルを使用して、知識をNeo4jとQdrantデータベースに保存し、リアルタイム可視化機能を提供します。

知識グラフビルダーMCPサーバーをどのように使用するか？

簡単なテキスト入力またはURL入力により、システムが自動的に内容を分析し、エンティティと関係を抽出し、構造化された知識グラフを生成します。ユーザーは異なるAIモデルを選択して処理を行うことができ、リアルタイム更新のグラフィカル表示を確認することもできます。

適用シーン

大量のテキストから構造化情報を抽出する必要があるシーン、例えば学術研究、企業データ分析、スマートカスタマーサービスの知識ベース構築などに適しています。

主要機能

ローカルAI処理

ローカルAIモデル（OllamaやLM Studioなど）を使用してエンティティを抽出し、データのプライバシーを保護します。

大ファイル対応

300MB以上の大きなコンテンツを処理でき、自動的にチャンク分割して結果を統合します。

ウェブページ内容抽出

どんなウェブページからも内容を抽出して分析でき、サイズ制限はありません。

知識グラフ生成

エンティティと関係を含む構造化された知識グラフを自動生成します。

スマートチャンク分割

大きなテキストを文境界で自動的に小さなチャンクに分割して処理します。

エンティティ統合

異なるチャンク内の重複するエンティティを自動的に統合します。

リアルタイム可視化

各チャンクの処理に伴い、SVG形式の知識グラフをリアルタイムで更新します。

インタラクティブなSVG出力

色分けされたエンティティタイプと進捗追跡機能があります。

MCP統合

データをNeo4j（グラフデータベース）とQdrant（ベクトルデータベース）に保存します。

UUID追跡

各エンティティに一意の識別子を生成して、システム間での追跡を実現します。

Gradioインターフェース

使いやすいWebインターフェースを提供し、JSONとSVG出力をサポートします。

利点

ネットワーク接続なしで機密データを処理できる

超大ファイルの処理をサポートする

リアルタイムのグラフィカル表示を提供する

複数のAIモデルを選択できる

重複するエンティティを自動的に統合する

ウェブページ内容の抽出をサポートする

制限

ローカルAIモデル（OllamaやLM Studioなど）をインストールする必要がある

非常に大きなデータセットに対しては、より多くの計算リソースが必要になる場合がある

環境変数を設定するために一定の技術的な知識が必要である

使い方

依存関係のインストール

まず、可視化とAI処理に必要なすべてのPythonパッケージをインストールします。

環境変数の設定

必要に応じて環境変数を設定します。例えば、使用するAIモデルや処理パラメータを選択します。

アプリケーションの起動

メインプログラムを実行すると、Gradioインターフェース付きのWebサービスが起動します。

内容の入力

インターフェース上でテキストまたはウェブページのリンクを入力すると、システムが分析を開始し、知識グラフを生成します。

結果の確認

システムは構造化された知識グラフとリアルタイム更新のSVGグラフィカル表示を返します。

使用例

企業知識管理

会社の内部文書を入力し、重要な人物、プロジェクト、関係を抽出して、企業の知識グラフを構築します。

学術研究

論文の要約を入力し、研究テーマ、方法、関連文献を抽出します。

ニュース分析

ニュース記事を入力し、関係する人物、場所、イベントを抽出します。

よくある質問

このツールはインターネットに接続する必要がありますか？

どのくらいのサイズのファイルを処理できますか？

異なるAIモデルをどのように選択しますか？

生成されたグラフをエクスポートできますか？

エラーや異常な状況はどのように処理しますか？

🚀 知識グラフビルダーMCPサーバー

この知識グラフビルダーは、MCP（Model Context Protocol）を統合したローカルAIモデルを使用して、テキストやウェブコンテンツを構造化された知識グラフに変換し、Neo4jとQdrantに永続的に保存します。

🚀 クイックスタート

知識グラフビルダーMCPサーバーを使用することで、テキストやウェブコンテンツから構造化された知識グラフを生成できます。以下のセクションでは、このアプリケーションの機能、セットアップ、実行方法、使用例などについて説明します。

✨ 主な機能

ローカルAI処理：OllamaまたはLM Studioを介してローカルモデルを使用してエンティティを抽出します。
大規模コンテンツ対応：インテリジェントなチャンク分割により、任意の大きさのコンテンツ（300MB以上）を処理できます。
ウェブコンテンツ抽出：サイズ制限なしで、ウェブページ全体をスクレイピングして分析します。
知識グラフ生成：エンティティと関係を持つ構造化されたグラフを作成します。
スマートチャンク分割：文境界検出により、大規模コンテンツを自動的にチャンク分割します。
エンティティマージ：チャンク間で重複するエンティティをインテリジェントにマージします。
リアルタイム可視化：チャンクが処理されるたびに、SVGグラフがリアルタイムに更新されます。
インタラクティブなSVG出力：エンティティタイプが色分けされ、進捗状況が追跡されます。
MCP統合：データをNeo4j（グラフデータベース）とQdrant（ベクトルデータベース）に保存します。
UUID追跡：システム全体で統一的なエンティティ追跡のために、UUIDv8を生成します。
Gradioインターフェイス：JSONとSVGのデュアル出力を持つユーザーフレンドリーなウェブインターフェイスが提供されます。

📊 抽出されるエンティティタイプ

👥 PERSON：名前、個人、主要人物
🏢 ORGANIZATION：会社、機関、グループ
📍 LOCATION：場所、国、地域、住所
💡 CONCEPT：アイデア、技術、抽象的な概念
📅 EVENT：特定のイベント、出来事、事故
🔧 OTHER：他のカテゴリに適合しないその他のエンティティ

📦 インストール

必要条件

pip install -r requirements.txt

# 完全な可視化機能を使用する場合:
pip install networkx matplotlib

環境変数

詳細な設定手順と完全な環境変数のリファレンスについては、以下の設定セクションを参照してください。

クイックスタート設定:

# 基本設定 (デフォルト値を使用)
export MODEL_PROVIDER=ollama
export LOCAL_MODEL=llama3.2:latest

# オプション: カスタムエンドポイントと処理制限
export OLLAMA_BASE_URL=http://localhost:11434
export CHUNK_SIZE=2000
export MAX_CHUNKS=0

注意: すべての環境変数はオプションであり、適切なデフォルト値が設定されています。設定なしでもアプリケーションは実行できます。

ローカルモデルのセットアップ

Ollamaの場合:

# Ollamaのインストールと起動
curl -fsSL https://ollama.ai/install.sh | sh
ollama serve

# モデルのダウンロード
ollama pull llama3.2:latest

LM Studioの場合:

LM Studioをダウンロードしてインストールします。
ローカルサーバーでモデルをロードします。
ポート1234でローカルサーバーを起動します。

💻 使用例

基本的な使用法

テキスト入力

分析するテキストコンテンツを貼り付けます。

Apple Inc. was founded by Steve Jobs, Steve Wozniak, and Ronald Wayne in 1976. The company is headquartered in Cupertino, California.

URL入力

ウェブURLを指定して、コンテンツを抽出し分析します。

https://en.wikipedia.org/wiki/Artificial_intelligence

大規模コンテンツの処理 (300MB以上のファイル)

非常に大きなコンテンツ（例えばLLMの会話抽出物）を処理する場合:

# 例: 300MBの会話ログの処理
# システムは自動的に以下の処理を行います:
# 1. 大規模コンテンツを検出 (デフォルトで2000文字以上)
# 2. 文境界でインテリジェントにチャンク分割
# 3. 各チャンクをローカルAIモデルで処理
# 4. エンティティと関係をマージして重複を削除
# 5. 完全な履歴追跡付きでhKGに保存

# 処理の進捗状況が表示されます:
# "Processing large content (314,572,800 chars) in chunks..."
# "Processing 157,286 chunks..."
# "Processing chunk 1/157,286 (2000 chars)..."
# "Merged results: 45,231 entities, 128,904 relationships"

出力形式

システムは構造化されたJSON形式の知識グラフを返します。

{
  "source": {
    "type": "text|url",
    "value": "input_value",
    "content_preview": "first 200 characters..."
  },
  "knowledge_graph": {
    "entities": [
      {
        "name": "Apple Inc.",
        "type": "ORGANIZATION",
        "description": "Technology company founded in 1976"
      }
    ],
    "relationships": [
      {
        "source": "Steve Jobs",
        "target": "Apple Inc.",
        "relationship": "FOUNDED",
        "description": "Steve Jobs founded Apple Inc."
      }
    ],
    "entity_count": 5,
    "relationship_count": 4
  },
  "visualization": {
    "svg_content": "<svg>...</svg>",
    "svg_file_path": "/path/to/knowledge_graph_12345678.svg",
    "visualization_available": true,
    "real_time_updates": false,
    "incremental_files_saved": 0,
    "entity_color_mapping": {
      "ORGANIZATION": "#4ECDC4",
      "PERSON": "#FF6B6B"
    },
    "svg_generation_timestamp": "2024-01-15T10:30:05Z",
    "visualization_engine": "networkx+matplotlib"
  },
  "metadata": {
    "model": "ollama:llama3.2:latest",
    "content_length": 150,
    "uuid": "xxxxxxxx-xxxx-8xxx-xxxx-xxxxxxxxxxxx",
    "neo4j_stored": true,
    "qdrant_stored": true,
    "timestamp": "2024-01-15T10:30:00Z",
    "hkg_metadata": {
      "processing_method": "single",
      "chunk_count": 1,
      "chunk_size": 2000,
      "chunk_overlap": 200,
      "source_type": "text",
      "supports_large_content": true,
      "max_content_size": "unlimited",
      "visualization_integration": {
        "real_time_visualization": false,
        "svg_files_generated": 1,
        "entity_color_tracking": true,
        "visualization_lineage": true,
        "incremental_updates": false,
        "neo4j_viz_metadata": true,
        "qdrant_viz_metadata": true
      }
    }
  }
}

📚 ドキュメント

リアルタイムグラフ可視化

SVG生成の機能

色分けされたエンティティタイプ：各エンティティタイプには固有の色が割り当てられています（Person=赤色、Organization=水色、Location=青色、Concept=緑色、Event=黄色、Other=紫色）
インタラクティブなレイアウト：NetworkXのspringレイアウトアルゴリズムを使用して自動的にグラフのレイアウトが設定されます。
関係ラベル：エンティティ間の関係タイプを示すエッジラベルが表示されます。
エンティティ情報：ノードラベルにはエンティティの名前とタイプが表示されます。
凡例：存在するエンティティタイプに基づいて自動的に凡例が生成されます。
統計情報：リアルタイムのエンティティと関係の数が表示されます。

大規模コンテンツのリアルタイム処理

進捗追跡：チャンクの処理完了状況を示すビジュアルな進捗バーが表示されます。
増分更新：各チャンクが処理された後にグラフが更新されます。
ライブ統計：発見されたエンティティと関係の合計数が表示されます。
増分ファイル保存：各チャンクでタイムスタンプ付きのSVGファイルが作成されます。
最終可視化：完全なグラフが最終的なSVGファイルとして保存されます。

ファイル出力

単一コンテンツ：knowledge_graph_<uuid8>.svg
大規模コンテンツ (チャンク分割)：
- 増分: knowledge_graph_<uuid8>_chunk_0001.svg, chunk_0002.svg, など
- 最終: knowledge_graph_<uuid8>.svg

大規模コンテンツ処理の例

# 300MBの会話ログの処理:
# "Processing large content (314,572,800 chars) in chunks..."
# "Processing 157,286 chunks..."
# 
# リアルタイム更新:
# "Processing chunk 1/157,286 (2000 chars)..."
# "Real-time graph updated: Updated graph: 5 entities, 3 relationships (Chunk 1/157,286)"
# "Saved incremental graph: knowledge_graph_12345678_chunk_0001.svg"
# 
# "Processing chunk 2/157,286 (2000 chars)..."
# "Real-time graph updated: Updated graph: 12 entities, 8 relationships (Chunk 2/157,286)"
# "Saved incremental graph: knowledge_graph_12345678_chunk_0002.svg"
# 
# ... すべてのチャンクに対して続けます ...
# 
# "Final results: 45,231 entities, 128,904 relationships"
# "Final SVG visualization saved: knowledge_graph_12345678.svg"

hKG (Hybrid Knowledge Graph) の可視化統合ストレージ

Neo4j統合 (グラフデータベース)

エンティティをプロパティと拡張メタデータを持つノードとして保存します。
エンティティ間の関係を履歴追跡付きで作成します。
すべてのデータベースでエンティティ追跡のためにUUIDv8を維持します。
大規模コンテンツ処理のためのチャンク分割メタデータを追跡します。
処理方法（単一またはチャンク分割）を記録します。
新機能: エンティティの観測データに可視化メタデータが含まれるようになりました。
- SVGファイルのパスと可用性の状態
- グラフ可視化のためのエンティティの色マッピング
- チャンク分割処理のためのリアルタイム更新の追跡
- 大規模コンテンツ処理のための増分ファイルのカウント
MCPサーバーツールを通じてアクセス可能です。

Qdrant統合 (ベクトルデータベース)

知識グラフを拡張メタデータ付きのベクトル埋め込みとして保存します。
任意のサイズのグラフに対する意味検索を可能にします。
各知識グラフのメタデータ（チャンク情報を含む）を維持します。
コンテンツの長さ、処理方法、チャンク数を追跡します。
大規模なドキュメントコレクションに対する類似性検索をサポートします。
新機能: 可視化の履歴追跡が含まれるようになりました。
- エンティティタイプと色マッピングの情報
- SVG生成のタイムスタンプとファイルパス
- リアルタイム可視化の更新履歴
- 大規模コンテンツのための増分SVGファイルの追跡
MCPサーバーツールを通じてアクセス可能です。

可視化履歴付きのhKG統一追跡

すべてのシステムでUUIDv8：共通の祖先エンコードされた識別子
コンテンツの履歴：大規模コンテンツがどのように処理され、チャンク分割されたかを追跡
処理メタデータ：チャンクサイズ、オーバーラップ、処理方法を記録
エンティティの出所：各エンティティに寄与したチャンクを追跡
関係マッピング：チャンク境界を越えて関係を維持
意味的な一貫性：データベース間で知識グラフの一貫性を確保
新機能 - 可視化履歴：ビジュアル表現の完全な追跡
- SVGファイルの出所：生成されたすべての可視化ファイルをタイムスタンプ付きで追跡
- エンティティの色の一貫性：すべてのチャンクとストレージシステムで色マッピングを維持
- リアルタイム可視化の履歴：処理時のすべての増分グラフ更新を記録
- クロスデータベースのビジュアル同期：Neo4jとQdrantで可視化メタデータを同期
- 増分可視化の監査：リアルタイム更新の完全なトレイルを記録

アーキテクチャ

コアコンポーネント

app.py：Gradioインターフェイスを持つメインアプリケーションファイル
extract_text_from_url()：ウェブスクレイピング機能 (app.py:41)
chunk_text()：文境界検出によるスマートなコンテンツチャンク分割 (app.py:214)
merge_extraction_results()：チャンク結果のインテリジェントなマージ (app.py:250)
get_entity_color()：エンティティタイプの色マッピング (app.py:299)
create_knowledge_graph_svg()：SVGグラフの生成 (app.py:311)
RealTimeGraphVisualizer：リアルタイムの増分可視化 (app.py:453)
extract_entities_and_relationships()：AIによるエンティティ抽出とリアルタイム更新 (app.py:645)
extract_entities_and_relationships_single()：単一チャンクの処理 (app.py:722)
build_knowledge_graph()：可視化付きのメインオーケストレーション関数 (app.py:795)
generate_uuidv8()：エンティティ追跡のためのUUID生成 (app.py:68)

hKG統合とリアルタイム可視化を伴うデータフロー

入力処理：テキストまたはURL入力の検証
コンテンツ抽出：URLの場合はウェブスクレイピング、テキスト入力の場合は直接テキストを使用
リアルタイム可視化システムのセットアップ：増分グラフ可視化システムを初期化
コンテンツのチャンク分割：大規模コンテンツ（2000文字以上）を文境界検出でスマートにチャンク分割
AI分析とライブ更新：ローカルモデルで各チャンクをエンティティ/関係の分析
増分可視化：各チャンクが完了した後にリアルタイムでSVGグラフを更新
結果のマージ：チャンク間でエンティティ/関係をインテリジェントに重複排除してマージ
hKGメタデータの作成：履歴追跡のための処理メタデータを生成
グラフの生成：拡張メタデータ付きの構造化された知識グラフを作成
最終可視化：すべてのエンティティと関係を含む完全なSVGグラフを生成
hKGストレージ：統一されたUUIDv8追跡付きでNeo4j（グラフ）とQdrant（ベクトル）に永続化
出力：完全な知識グラフ、hKGメタデータ、SVG可視化を含むJSONレスポンス

設定

環境変数のリファレンス

すべての設定は環境変数を通じて行われます。アプリケーションはすべての設定に適切なデフォルト値を提供しており、設定なしでも実行できますが、完全なカスタマイズも可能です。

変数	タイプ	デフォルト	必須	説明	例の値
`MODEL_PROVIDER`	文字列	`"ollama"`	いいえ	使用するAIモデルプロバイダー	`"ollama"`, `"lmstudio"`
`LOCAL_MODEL`	文字列	`"llama3.2:latest"`	いいえ	ローカルモデルの識別子	`"llama3.2:latest"`, `"mistral:7b"`, `"codellama:13b"`
`OLLAMA_BASE_URL`	文字列	`"http://localhost:11434"`	いいえ	OllamaのAPIエンドポイント	`"http://localhost:11434"`, `"http://192.168.1.100:11434"`
`LMSTUDIO_BASE_URL`	文字列	`"http://localhost:1234"`	いいえ	LM StudioのAPIエンドポイント	`"http://localhost:1234"`, `"http://127.0.0.1:1234"`
`CHUNK_SIZE`	整数	`2000`	いいえ	AI処理のためのチャンクあたりの文字数	`1000`, `2000`, `4000`, `8000`
`CHUNK_OVERLAP`	整数	`200`	いいえ	コンテキストのためのチャンク間のオーバーラップ	`100`, `200`, `400`, `500`
`MAX_CHUNKS`	整数	`0`	いいえ	処理する最大チャンク数 (0=無制限)	`0`, `100`, `1000`, `5000`
`HF_TOKEN`	文字列	`None`	いいえ	HuggingFaceのAPIトークン (レガシー、未使用)	`"hf_xxxxxxxxxxxx"`

設定方法

1. 環境変数 (推奨)

# コアモデルの設定
export MODEL_PROVIDER=ollama
export LOCAL_MODEL=llama3.2:latest
export OLLAMA_BASE_URL=http://localhost:11434

# 大規模コンテンツの処理
export CHUNK_SIZE=2000
export CHUNK_OVERLAP=200
export MAX_CHUNKS=0

2. シェル設定 (.bashrc/.zshrc)

# ~/.bashrc または ~/.zshrc に追加
export MODEL_PROVIDER=ollama
export LOCAL_MODEL=llama3.2:latest
export OLLAMA_BASE_URL=http://localhost:11434
export CHUNK_SIZE=2000
export CHUNK_OVERLAP=200
export MAX_CHUNKS=0

3. Python環境ファイル (.env)

# プロジェクトルートに.envファイルを作成
MODEL_PROVIDER=ollama
LOCAL_MODEL=llama3.2:latest
OLLAMA_BASE_URL=http://localhost:11434
LMSTUDIO_BASE_URL=http://localhost:1234
CHUNK_SIZE=2000
CHUNK_OVERLAP=200
MAX_CHUNKS=0

モデルプロバイダーの設定

Ollamaの設定 (デフォルト)

# 基本的なOllamaの設定
export MODEL_PROVIDER=ollama
export LOCAL_MODEL=llama3.2:latest
export OLLAMA_BASE_URL=http://localhost:11434

# 代替モデル
export LOCAL_MODEL=mistral:7b          # Mistral 7B
export LOCAL_MODEL=codellama:13b       # Code Llama 13B
export LOCAL_MODEL=llama3.2:3b         # Llama 3.2 3B (高速)
export LOCAL_MODEL=phi3:mini           # Phi-3 Mini (軽量)

# リモートのOllamaインスタンス
export OLLAMA_BASE_URL=http://192.168.1.100:11434

LM Studioの設定

# 基本的なLM Studioの設定
export MODEL_PROVIDER=lmstudio
export LOCAL_MODEL=any-model-name      # LM Studioではモデル名は柔軟
export LMSTUDIO_BASE_URL=http://localhost:1234

# カスタムのLM Studioポート
export LMSTUDIO_BASE_URL=http://localhost:8080

# リモートのLM Studioインスタンス
export LMSTUDIO_BASE_URL=http://192.168.1.200:1234

大規模コンテンツ処理の設定

チャンクサイズの最適化

# 小さいチャンク (高速処理、チャンク数が多い)
export CHUNK_SIZE=1000
export CHUNK_OVERLAP=100

# 中程度のチャンク (バランスの良いパフォーマンス)
export CHUNK_SIZE=2000    # デフォルト
export CHUNK_OVERLAP=200  # デフォルト

# 大きいチャンク (チャンク数が少ない、コンテキストが多い)
export CHUNK_SIZE=4000
export CHUNK_OVERLAP=400

# 非常に大きいチャンク (最大のコンテキスト、低速)
export CHUNK_SIZE=8000
export CHUNK_OVERLAP=800

処理制限

# 無制限の処理 (デフォルト)
export MAX_CHUNKS=0

# 最初の100チャンクのみを処理 (テスト用)
export MAX_CHUNKS=100

# 最初の1000チャンクを処理 (適度なデータセット)
export MAX_CHUNKS=1000

# 最初の10000チャンクを処理 (大規模なデータセット)
export MAX_CHUNKS=10000

パフォーマンスチューニングガイドライン

速度最適化のため

# 小さいチャンク、少ないオーバーラップ、制限された処理
export CHUNK_SIZE=1000
export CHUNK_OVERLAP=50
export MAX_CHUNKS=500
export LOCAL_MODEL=llama3.2:3b  # 高速なモデル

品質最適化のため

# 大きいチャンク、多いオーバーラップ、無制限の処理
export CHUNK_SIZE=4000
export CHUNK_OVERLAP=400
export MAX_CHUNKS=0
export LOCAL_MODEL=llama3.2:latest  # 完全なモデル

メモリ制限のあるシステムのため

# 限られたリソースのためのバランスの良い設定
export CHUNK_SIZE=1500
export CHUNK_OVERLAP=150
export MAX_CHUNKS=1000
export LOCAL_MODEL=phi3:mini  # 軽量なモデル

設定の検証

アプリケーションは設定の自動検証を行います。

モデルプロバイダー：MODEL_PROVIDERが "ollama" または "lmstudio" であることを検証
URL：プロバイダーのURLがアクセス可能であることを検証
数値：CHUNK_SIZE, CHUNK_OVERLAP, MAX_CHUNKS が有効な整数であることを確認
モデルの可用性：指定されたモデルがプロバイダーで利用可能であることを確認

設定のトラブルシューティング

一般的な問題と解決策

1. モデルプロバイダーが応答しない場合

# Ollamaが実行中か確認
curl http://localhost:11434/api/version

# LM Studioが実行中か確認
curl http://localhost:1234/v1/models

# 解決策: 適切なサービスを起動
ollama serve  # Ollamaの場合
# またはLM StudioのGUIを起動し、ローカルサーバーを有効にする

2. モデルが見つからない場合

# 利用可能なOllamaモデルをリスト表示
ollama list

# 欠落しているモデルをダウンロード
ollama pull llama3.2:latest

# LM Studioの場合: GUIでモデルをロードする

3. 大規模コンテンツでメモリ問題が発生する場合

# チャンクサイズを減らし、制限を設定
export CHUNK_SIZE=1000
export MAX_CHUNKS=100

# 軽量なモデルを使用
export LOCAL_MODEL=llama3.2:3b

4. 処理が遅い場合

# 速度を最適化
export CHUNK_SIZE=1500
export CHUNK_OVERLAP=100
export MAX_CHUNKS=500
export LOCAL_MODEL=phi3:mini

設定シナリオの例

シナリオ1: 開発環境の設定

# 高速な反復、制限された処理
export MODEL_PROVIDER=ollama
export LOCAL_MODEL=llama3.2:3b
export CHUNK_SIZE=1000
export CHUNK_OVERLAP=100
export MAX_CHUNKS=50

シナリオ2: 本番環境の設定

# 高品質、無制限の処理
export MODEL_PROVIDER=ollama
export LOCAL_MODEL=llama3.2:latest
export CHUNK_SIZE=3000
export CHUNK_OVERLAP=300
export MAX_CHUNKS=0

シナリオ3: 大規模データセットの処理

# 300MB以上のファイルに最適化
export MODEL_PROVIDER=ollama
export LOCAL_MODEL=llama3.2:latest
export CHUNK_SIZE=2000
export CHUNK_OVERLAP=200
export MAX_CHUNKS=0

シナリオ4: リソース制限のある環境

# 最小限のリソース使用
export MODEL_PROVIDER=ollama
export LOCAL_MODEL=phi3:mini
export CHUNK_SIZE=800
export CHUNK_OVERLAP=50
export MAX_CHUNKS=200

高度な設定

カスタムモデルエンドポイント

# DockerベースのOllama
export OLLAMA_BASE_URL=http://ollama-container:11434

# Kubernetesサービス
export OLLAMA_BASE_URL=http://ollama-service.default.svc.cluster.local:11434

# ロードバランサー
export OLLAMA_BASE_URL=http://ollama-lb.example.com:11434

動的な設定

アプリケーションは起動時に環境変数を読み取ります。設定を変更するには:

新しい環境変数を設定
アプリケーションを再起動
設定の変更が即座に反映されます

エラーハンドリング

以下のエラーに対する包括的なエラーハンドリングが行われます。

無効なURLまたはネットワーク障害
欠落しているローカルモデルまたはAPIエンドポイント
LLMのレスポンスのJSONパースエラー
不正なまたは空の入力
データベース接続問題
無効な設定値
モデルプロバイダーの接続問題
大規模コンテンツ処理時のメモリ制約

hKG MCPの可視化履歴付き統合

アプリケーションはMCPサーバーと統合され、完全な可視化追跡付きのハイブリッド知識グラフストレージを提供します。

Neo4j：拡張メタデータと可視化履歴付きのグラフデータベースのストレージとクエリ
Qdrant：チャンク追跡とビジュアルメタデータ付きの意味検索用のベクトルデータベース
統一追跡：すべてのストレージシステムでUUIDv8を使用したエンティティの履歴と可視化の出所追跡
メタデータの永続化：処理方法、チャンク数、コンテンツの履歴、SVG生成の追跡
大規模コンテンツ対応：チャンク分割とリアルタイム可視化により、300MB以上のコンテンツをシームレスに処理
可視化統合：すべてのストレージシステムでの完全なビジュアル表現の追跡

MCPによるhKGの拡張機能

エンティティの出所：各エンティティに寄与したコンテンツチャンクとそのビジュアル表現を追跡
関係の履歴：チャンク境界を越えて関係を維持し、ビジュアルエッジを追跡
コンテンツの祖先：階層的なコンテンツ追跡と可視化ファイルの履歴のためのUUIDv8エンコーディング
処理の監査：大規模コンテンツがどのように処理され、可視化が生成されたかの完全な記録
意味検索：任意のサイズの知識グラフ間のベクトル類似性とビジュアルメタデータの検索
新機能 - 可視化履歴：以下を含む完全な可視化追跡
- SVGファイルの出所：タイムスタンプ付きで生成されたすべての可視化ファイルを追跡
- エンティティの色の一貫性：すべてのチャンクとストレージシステムで色マッピングを維持
- リアルタイム可視化の履歴：処理時のすべての増分グラフ更新を記録
- クロスデータベースのビジュアル同期：Neo4jとQdrantで可視化メタデータを同期
- 増分可視化の監査：大規模コンテンツのためのリアルタイム更新の完全なトレイル

可視化拡張ストレージ

Neo4jのエンティティ観測データには現在以下が含まれます。
- SVGファイルのパスと生成状態
- ビジュアルの一貫性のためのエンティティの色の割り当て
- チャンク分割処理のためのリアルタイム更新のカウント
- 可視化の可用性とエンジン情報
Qdrantのベクトルコンテンツには現在以下が含まれます。
- 類似性検索のためのエンティティの色マッピング情報
- SVG生成のタイムスタンプとファイルパス
- リアルタイム可視化の更新メタデータ
- 大規模コンテンツの可視化のための増分ファイルの追跡

MCPツールは、MCPサーバーが構成されたClaude Code環境で実行すると自動的に利用可能になります。

hKG可視化アーキテクチャ

統合された可視化履歴システム

hKGシステムは、従来の知識グラフストレージと並行して完全な可視化履歴を維持します。

┌─────────────────┐    ┌──────────────────────┐    ┌─────────────────────┐
│   Source Text   │───▶│  Chunking + AI       │───▶│  Entity/Relation    │
│   (300MB+)      │    │  Processing          │    │  Extraction         │
└─────────────────┘    └──────────────────────┘    └─────────────────────┘
                                 │                           │
                                 ▼                           ▼
┌─────────────────┐    ┌──────────────────────┐    ┌─────────────────────┐
│ Real-Time SVG   │◀───│  Incremental Graph   │◀───│  Merged Results     │
│ Generation      │    │  Visualization       │    │  + Deduplication    │
└─────────────────┘    └──────────────────────┘    └─────────────────────┘
         │                        │                           │
         ▼                        ▼                           ▼
┌─────────────────┐    ┌──────────────────────┐    ┌─────────────────────┐
│ SVG File        │    │  Visualization       │    │  hKG Storage        │
│ Storage         │    │  Metadata Creation   │    │  (Neo4j + Qdrant)  │
│ (Incremental)   │    │                      │    │  + Viz Metadata     │
└─────────────────┘    └──────────────────────┘    └─────────────────────┘

可視化メタデータのフロー

リアルタイム更新：各チャンクが進捗追跡付きで増分SVGを生成
色の一貫性：すべてのチャンクとストレージシステムでエンティティの色を維持
ファイルの履歴：生成されたすべてのSVGファイルの完全な監査トレイル
クロスデータベース同期：Neo4jとQdrantで可視化メタデータを同期
出所追跡：ソースチャンク、エンティティ、およびそのビジュアル表現の間のリンク

大規模コンテンツ (300MB以上) のためのhKGの利点

ビジュアルな進捗監視：処理時のリアルタイムのグラフの進化
チャンクレベルの可視化：各処理段階の個別のSVGファイル
完全な監査トレイル：ソーステキストから最終的な可視化までの完全な履歴
相互参照機能：エンティティをそのソースチャンクとビジュアル外観に戻すリンク
スケーラブルな可視化：一貫したパフォーマンスで任意の大きさのグラフを処理

🔧 技術詳細

開発

プロジェクト構造

KGB-mcp/
├── app.py                 # メインアプリケーション
├── requirements.txt       # 依存関係
├── CLAUDE.md             # Claude Codeの指示書
├── ARCHITECTURE.md       # システムアーキテクチャ
├── test_core.py          # コア機能のテスト
└── test_integration.py   # 統合テスト

テスト

# コアテストの実行
python test_core.py

# 統合テストの実行
python test_integration.py

ローカルAIとMCP統合の力を借りて、あらゆるコンテンツを構造化された知識グラフに変換しましょう！

Gmail MCP Server

Claude Desktop用に設計されたGmail自動認証MCPサーバーで、自然言語でのやり取りによるGmailの管理をサポートし、メール送信、ラベル管理、一括操作などの完全な機能を備えています。

TypeScript

12.4K

4.5ポイント

Edgeone Pages MCP Server

EdgeOne Pages MCPは、MCPプロトコルを通じてHTMLコンテンツをEdgeOne Pagesに迅速にデプロイし、公開URLを取得するサービスです。

Context7 MCPは、AIプログラミングアシスタントにリアルタイムのバージョン固有のドキュメントとコード例を提供するサービスで、Model Context Protocolを通じてプロンプトに直接統合され、LLMが古い情報を使用する問題を解決します。

百度マップMCPサーバーは国内初のMCPプロトコルに対応した地図サービスで、地理コーディング、ルート計画など10個の標準化されたAPIインターフェースを提供し、PythonとTypescriptでの迅速な接続をサポートし、エージェントに地図関連の機能を実現させます。

GitLab MCPサーバーは、Model Context Protocolに基づくプロジェクトで、GitLabアカウントとのやり取りに必要な包括的なツールセットを提供します。コードレビュー、マージリクエスト管理、CI/CD設定などの機能が含まれます。

UnityMCPはUnityエディターのプラグインで、モデルコンテキストプロトコル (MCP) を実装し、UnityとAIアシスタントのシームレスな統合を提供します。リアルタイムの状態監視、リモートコマンドの実行、ログ機能が含まれます。

16.0K

5ポイント

Magic MCP

Magic Component Platform (MCP) はAI駆動のUIコンポーネント生成ツールで、自然言語での記述を通じて、開発者が迅速に現代的なUIコンポーネントを作成するのを支援し、複数のIDEとの統合をサポートします。

JavaScript

14.6K

5ポイント

Sequential Thinking MCP Server

MCPプロトコルに基づく構造化思考サーバーで、思考段階を定義することで複雑な問題を分解し要約を生成するのに役立ちます。

Python

21.4K

4.5ポイント

智啓未来、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご

Hkg Ontologizer Kgb MCP

概要

コンテンツ詳細

代替品

知識グラフビルダーMCPサーバーとは？

知識グラフビルダーMCPサーバーをどのように使用するか？

適用シーン

主要機能

使い方

使用例

よくある質問

関連リソース

インストール

🚀 知識グラフビルダーMCPサーバー

🚀 クイックスタート

✨ 主な機能

📊 抽出されるエンティティタイプ

📦 インストール

必要条件

環境変数

ローカルモデルのセットアップ

💻 使用例

基本的な使用法

テキスト入力

URL入力

大規模コンテンツの処理 (300MB以上のファイル)

出力形式

📚 ドキュメント

リアルタイムグラフ可視化

SVG生成の機能

大規模コンテンツのリアルタイム処理

ファイル出力

大規模コンテンツ処理の例

hKG (Hybrid Knowledge Graph) の可視化統合ストレージ

Neo4j統合 (グラフデータベース)

Qdrant統合 (ベクトルデータベース)

可視化履歴付きのhKG統一追跡

アーキテクチャ

コアコンポーネント

hKG統合とリアルタイム可視化を伴うデータフロー

設定

環境変数のリファレンス

設定方法

1. 環境変数 (推奨)

2. シェル設定 (.bashrc/.zshrc)

3. Python環境ファイル (.env)

モデルプロバイダーの設定

Ollamaの設定 (デフォルト)

LM Studioの設定

大規模コンテンツ処理の設定

チャンクサイズの最適化

処理制限

パフォーマンスチューニングガイドライン

速度最適化のため

品質最適化のため

メモリ制限のあるシステムのため

設定の検証

設定のトラブルシューティング

一般的な問題と解決策

設定シナリオの例

シナリオ1: 開発環境の設定

シナリオ2: 本番環境の設定

シナリオ3: 大規模データセットの処理

シナリオ4: リソース制限のある環境

高度な設定

カスタムモデルエンドポイント

動的な設定

エラーハンドリング

hKG MCPの可視化履歴付き統合

MCPによるhKGの拡張機能

可視化拡張ストレージ

hKG可視化アーキテクチャ

統合された可視化履歴システム

可視化メタデータのフロー

大規模コンテンツ (300MB以上) のためのhKGの利点

🔧 技術詳細

開発

プロジェクト構造

テスト

代替品