Flexible Graphrag

Flexible GraphRAGは、複数のデータソースのドキュメント処理、知識グラフの自動構築、ハイブリッド検索（全文、ベクトル、グラフ）、AI質問応答をサポートする柔軟なプラットフォームで、FastAPIバックエンド、MCPサーバー、および複数のフロントエンドインターフェイスを含みます。

知識管理と記憶研究とデータ #知識グラフ #ハイブリッド検索 #ドキュメント処理 #AI質問応答 .TypeScript

スコア : 2.5ポイント

ダウンロード数 : 6.5K

更新時間 : 2025-12-12

サイトを開く

Flexible GraphRAG MCP Serverとは？

Flexible GraphRAG MCP ServerはModel Context Protocolサーバーで、AIアシスタント（Claude Desktopなど）が強力なドキュメントインテリジェンス機能にアクセスできるようにします。このサーバーを通じて、AIとのダイアログ中に直接ドキュメントを処理し、知識グラフを構築し、ハイブリッド検索とインテリジェントな質問応答を行うことができ、ダイアログ画面を離れる必要はありません。

MCP Serverをどのように使用するか？

MCP Serverを使用する方法は2つあります。1) Claude DesktopなどのMCPクライアントでサーバー接続を構成する；2) HTTPモードを使用してデバッグとテストを行う。サーバーが起動すると、AIアシスタントは自動的に9つの専用ツールを取得し、ドキュメント処理、検索、システム管理に使用できます。

適用シーン

AIアシスタントの助けを借りてドキュメントを処理する必要があるシーンに適しています。研究分析、ドキュメント要約、知識管理、コンテンツ検索、チーム協力など。AIのダイアログ能力とドキュメントインテリジェンスを組み合わせる必要があるワークフローに特に適しています。

主要機能

ドキュメント一括処理

ファイルシステム、CMIS、Alfrescoなどの複数のデータソースからのドキュメント一括処理をサポートし、自動的にテキストを抽出し、ベクトルインデックスと知識グラフを構築します。

カスタムテキスト分析

特定のテキストコンテンツを直接分析でき、ファイルに保存する必要がないため、迅速な分析と一時的なコンテンツ処理に適しています。

ハイブリッドドキュメント検索

ベクトル類似度検索、全文検索、グラフトラバーサルを組み合わせて、ドキュメントライブラリから最も関連する情報断片を見つけます。

インテリジェントな質問応答システム

ドキュメントコンテンツに基づいてAI駆動の回答を生成し、複数のドキュメントの情報を総合して推論と要約を行うことができます。

システム状態監視

システムの健全性、データベース接続状況、構成情報をリアルタイムで確認でき、障害診断に便利です。

非同期タスク追跡

長時間実行されるドキュメント処理タスクを監視し、リアルタイムの進捗状況と状態更新を取得します。

環境診断ツール

Python環境、依存パッケージのバージョン、システム構成をチェックし、環境関連の問題を解決するのに役立ちます。

迅速なシステムテスト

事前設定されたサンプルコンテンツを使用して、システム機能が正常に動作するかどうかを迅速に検証します。

バックエンド接続チェック

FastAPIバックエンドサーバーとの接続状態を検証し、APIサービスが利用可能であることを確認します。

利点

シームレスなAI統合：AIダイアログ内で直接ドキュメントインテリジェンス機能を使用でき、アプリを切り替える必要がありません。

豊富なツールセット：9つの専用ツールがドキュメント処理の全プロセスをカバーします。

柔軟なデプロイ：pipxシステムインストールとuvx免インストール実行の2つの方法をサポートします。

双方向伝送モード：stdioモードを本番環境で使用し、HTTPモードをデバッグに使用できます。

非同期処理：長時間のタスク処理をサポートし、AIダイアログをブロックしません。

簡単な構成：環境変数を通じてデータベースとLLMの接続を簡単に構成できます。

制限

バックエンドサービスに依存：独立したFastAPIバックエンドサーバーが必要です。

MCPクライアントが必要：MCPプロトコルをサポートするAIアシスタント（Claude Desktopなど）を使用する必要があります。

学習曲線：MCPの構成とツールの呼び出し方法を理解する必要があります。

リソース要件：Python環境と関連する依存関係が必要です。

ネットワーク依存：HTTPモードではネットワーク接続が必要で、stdioモードではローカルインストールが必要です。

使い方

MCP Serverをインストールする

インストール方法を選択します。pipxを使用してシステムにインストールするか、uvxを使用して免インストールで実行します。

Claude Desktopを構成する

Claude Desktopの構成ファイルにMCPサーバーの構成を追加し、伝送モードとツールを指定します。

バックエンドサービスを起動する

Flexible GraphRAG FastAPIバックエンドサービスが実行中であることを確認します。MCP ServerはバックエンドAPIに接続する必要があります。

Claude Desktopを再起動する

新しいMCPサーバー構成を読み込むためにClaude Desktopを再起動します。

ツールの使用を開始する

Claude Desktopのダイアログで、AIアシスタントは自動的に9つのツールを取得します。これらのツールを使用してドキュメントを処理するようAIに要求できます。

使用例

研究論文の一括処理

研究者は大量の学術論文を迅速に分析し、重要な概念と関係を抽出する必要があります。

企業ドキュメントのインテリジェントな検索

企業の従業員は大量の内部ドキュメントの中から迅速に関連情報を見つける必要があります。

会議記録の分析

プロジェクトマネージャーは複数の会議記録からアクションアイテムと決定事項を抽出する必要があります。

システム障害の診断

管理者はドキュメント処理システムが正常に動作しているかどうかを確認する必要があります。

よくある質問

MCP ServerとFastAPIバックエンドの違いは何ですか？

MCP ServerとFastAPIバックエンドを同時に実行する必要がありますか？

stdioモードとHTTPモードの違いは何ですか？

MCP Serverが提供するすべてのツールをどのように確認できますか？

ドキュメント処理タスクにはどれくらいの時間がかかりますか？

どのようなドキュメント形式がサポートされていますか？

データベース接続をどのように構成しますか？

Claude Desktopがなくても使用できますか？

関連リソース

Flexible GraphRAG GitHubリポジトリ

完全なプロジェクトソースコードとドキュメント

Model Context Protocol公式ドキュメント

MCPプロトコルの公式ドキュメントと仕様

Claude Desktopダウンロード

Claude Desktopアプリケーションのダウンロードページ

MCP Inspectorツール

MCPサーバーのデバッグとテストに使用するツール

LlamaIndexドキュメント

LlamaIndexフレームワークの公式ドキュメント

FastAPIドキュメント

FastAPIフレームワークの公式ドキュメント

## 🚀 Flexible GraphRAG

**Flexible GraphRAG** は、ドキュメント処理、知識グラフの自動構築、RAG と GraphRAG のセットアップ、ハイブリッド検索（全文、ベクトル、グラフ）、および AI Q&A クエリ機能をサポートするプラットフォームです。

<p align="center">
  <a href="./screen-shots/react/chat-webpage.png">
    
  </a>
</p>

<p align="center"><em>Flexible GraphRAG AI チャットタブ。ウェブページのデータソースから生成されたグラフが Neo4j に表示されます。</em></p>

## 🚀 クイックスタート
Flexible GraphRAG を始めるには、まず必要な前提条件をインストールし、セットアップを行います。詳細な手順は以下の通りです。

### 前提条件
#### 必須
- Python 3.10+ (3.10、3.11、3.12、3.13 をサポート)
- UV パッケージマネージャー
- Node.js 16+
- npm または yarn
- Neo4j グラフデータベース
- Ollama または API キー付きの OpenAI (LLM 処理用)

#### オプション (データソースによる)
- CMIS データソースを使用する場合のみ、CMIS (Content Management Interoperability Services) 準拠のリポジトリ (例: Alfresco)
- Alfresco データソースを使用する場合のみ、Alfresco リポジトリ
- ファイルシステムデータソースは追加のセットアップ不要

### セットアップ
#### 🐳 Docker デプロイメント
Docker デプロイメントには主に 2 つのアプローチがあります。

##### オプション A: データベースを Docker 内に、アプリをスタンドアロンで (ハイブリッド)
**最適なシナリオ**: 開発、外部コンテンツ管理システム、柔軟なデプロイメント

```bash
# 必要なデータベースのみをデプロイ
docker-compose -f docker/docker-compose.yaml -p flexible-graphrag up -d

# docker-compose.yaml で不要なサービスをコメントアウト:
# - includes/neo4j.yaml          # 独自の Neo4j を使用する場合はコメントアウト
# - includes/kuzu.yaml           # Kuzu を使用しない場合はコメントアウト
# - includes/qdrant.yaml         # ベクトル用に Neo4j、Elasticsearch、または OpenSearch を使用する場合はコメントアウト
# - includes/elasticsearch.yaml  # Elasticsearch を使用しない場合はコメントアウト
# - includes/elasticsearch-dev.yaml  # Elasticsearch を使用しない場合はコメントアウト
# - includes/kibana.yaml         # Elasticsearch を使用しない場合はコメントアウト
# - includes/opensearch.yaml     # 使用しない場合はコメントアウト
# - includes/alfresco.yaml       # 独自の Alfresco インストールを使用する場合はコメントアウト
# - includes/app-stack.yaml      # バックエンドと UI を Docker 内に配置する場合はコメントを外す
# - includes/proxy.yaml          # バックエンドと UI を Docker 内に配置する場合はコメントを外す
#   (注: app-stack.yaml には、ベクトル、グラフ、検索、LLM をカスタマイズするための環境設定が含まれています)

# バックエンドと UI クライアントを Docker 外で実行
cd flexible-graphrag
uv run start.py

ユースケース:

✅ ファイルアップロード: ウェブインターフェイスを通じた直接のファイルアップロード
✅ 外部 CMIS/Alfresco: 既存のコンテンツ管理システムに接続
✅ 開発: 簡単なデバッグとホットリロード
✅ 混合環境: コンテナ内のデータベース、ホスト上のアプリ

オプション B: 全スタックを Docker 内に (完全)

最適なシナリオ: 本番デプロイメント、分離された環境、コンテナ化されたコンテンツソース

# バックエンドと UI を含むすべてをデプロイ
docker-compose -f docker/docker-compose.yaml -p flexible-graphrag up -d

機能:

✅ すべてのデータベースが事前に構成されている (Neo4j、Kuzu、Qdrant、Elasticsearch、OpenSearch、Alfresco)
✅ コンテナ内のバックエンド + 3 つの UI クライアント (Angular、React、Vue)
✅ 統一された URL での NGINX リバースプロキシ
✅ 永続的なデータボリューム
✅ 内部コンテナネットワーキング

起動後のサービス URL:

Angular UI: http://localhost:8070/ui/angular/
React UI: http://localhost:8070/ui/react/
Vue UI: http://localhost:8070/ui/vue/
バックエンド API: http://localhost:8070/api/
Neo4j Browser: http://localhost:7474/
Kuzu Explorer: http://localhost:8002/

データソースワークフロー:

✅ ファイルアップロード: ウェブインターフェイスを通じた直接のファイルアップロード (ドラッグアンドドロップまたはクリックでファイル選択ダイアログを開く)
✅ Alfresco/CMIS: 既存の Alfresco システムまたは CMIS リポジトリに接続

サービスの停止

すべての Docker サービスを停止して削除するには:

# すべてのサービスを停止
docker-compose -f docker/docker-compose.yaml -p flexible-graphrag down

設定変更の一般的なワークフロー:

# サービスを停止し、変更を加えてから再起動
docker-compose -f docker/docker-compose.yaml -p flexible-graphrag down
# docker-compose.yaml または .env ファイルを必要に応じて編集
docker-compose -f docker/docker-compose.yaml -p flexible-graphrag up -d

設定

モジュール式デプロイメント: docker/docker-compose.yaml で不要なサービスをコメントアウトします。
環境設定 (アプリスタックデプロイメント用):
- 環境変数は docker/includes/app-stack.yaml で直接構成されます。
- データベース接続には、コンテナ間通信のために host.docker.internal を使用します。
- デフォルトの設定には、OpenAI/Ollama LLM 設定とデータベース接続が含まれています。

詳細な Docker 設定については、docker/README.md を参照してください。

🔧 ローカル開発セットアップ

環境設定

環境ファイルを作成 (クロスプラットフォーム):

# Linux/macOS
cp flexible-graphrag/env-sample.txt flexible-graphrag/.env

# Windows Command Prompt
copy flexible-graphrag\env-sample.txt flexible-graphrag\.env

.env をデータベースの資格情報と API キーで編集します。

Python バックエンドのセットアップ

バックエンドディレクトリに移動します:
```
cd project-directory/flexible-graphrag
```

UV を使用して仮想環境を作成し、アクティブ化します:

# プロジェクトのルートディレクトリから
uv venv
.\.venv\Scripts\Activate  # Windows (Command Prompt と PowerShell の両方で動作)
# または
source .venv/bin/activate  # macOS/Linux

Python 依存関係をインストールします:

# flexible-graphrag ディレクトリに移動し、要件をインストール
cd flexible-graphrag
uv pip install -r requirements.txt

サンプルをコピーして .env ファイルを作成し、カスタマイズします:
```
# サンプル環境ファイルをコピー (プラットフォームに適したコマンドを使用)
cp env-sample.txt .env  # Linux/macOS
copy env-sample.txt .env  # Windows
```
.env を特定の設定で編集します。詳細なセットアップガイドについては、docs/ENVIRONMENT-CONFIGURATION.md を参照してください。

フロントエンドのセットアップ

本番モード (バックエンドがフロントエンドを提供しない):

バックエンド API: http://localhost:8000 (FastAPI サーバーのみ)
フロントエンドのデプロイメント: 別々のデプロイメント (nginx、Apache、静的ホスティングなど)
スタンドアロンと Docker の両方のフロントエンドが、バックエンドを localhost:8000 として指します。

開発モード (フロントエンドとバックエンドが別々に実行される):

バックエンド API: http://localhost:8000 (FastAPI サーバーのみ)
Angular 開発: http://localhost:4200 (ng serve)
React 開発: http://localhost:5173 (npm run dev)
Vue 開発: http://localhost:5174 (npm run dev)

使用するフロントエンドオプションを選択します。

React フロントエンド

React フロントエンドディレクトリに移動します:
```
cd flexible-graphrag-ui/frontend-react
```
Node.js 依存関係をインストールします:
```
npm install
```
開発サーバーを起動します (Vite を使用):
```
npm run dev
```

React フロントエンドは http://localhost:5174 で利用可能になります。

Angular フロントエンド

Angular フロントエンドディレクトリに移動します:
```
cd flexible-graphrag-ui/frontend-angular
```
Node.js 依存関係をインストールします:
```
npm install
```
開発サーバーを起動します (Angular CLI を使用):
```
npm start
```

Angular フロントエンドは http://localhost:4200 で利用可能になります。

注意: ng build が予算エラーを表示する場合は、開発には npm start を使用してください。

Vue フロントエンド

Vue フロントエンドディレクトリに移動します:
```
cd flexible-graphrag-ui/frontend-vue
```
Node.js 依存関係をインストールします:
```
npm install
```
開発サーバーを起動します (Vite を使用):
```
npm run dev
```

Vue フロントエンドは http://localhost:3000 で利用可能になります。

アプリケーションの実行

Python バックエンドの起動

プロジェクトのルートディレクトリから:

cd flexible-graphrag
uv run start.py

バックエンドは http://localhost:8000 で利用可能になります。

好みのフロントエンドの起動

選択したフロントエンドフレームワークのフロントエンドセットアップセクションの指示に従ってください。

フロントエンドのデプロイメント

フロントエンドのビルド

# Angular (開発では予算警告を無視して安全)
cd flexible-graphrag-ui/frontend-angular
ng build

# React
cd flexible-graphrag-ui/frontend-react
npm run build

# Vue
cd flexible-graphrag-ui/frontend-vue
npm run build

Angular ビルドの注意事項:

Angular では予算警告が一般的で、開発では通常無視して安全です。
本番環境では、バンドルサイズを最適化するか、angular.json の予算制限を調整することを検討してください。
開発モード: ビルド問題を回避するために npm start を使用してください。

本番サーバーの起動

cd flexible-graphrag
uv run start.py

バックエンドは以下を提供します:

/api/* 以下の API エンドポイント
データ処理と検索に重点を置いた独立した動作
フロントエンド提供の懸念事項からの明確な分離

バックエンド API エンドポイント:

API ベース: http://localhost:8000/api/
API エンドポイント: /api/ingest、/api/search、/api/query、/api/status など
ヘルスチェック: http://localhost:8000/api/health

フロントエンドのデプロイメント:

手動デプロイメント: 好みの方法 (nginx、Apache、静的ホスティングなど) を使用してフロントエンドを個別にデプロイします。
フロントエンドの構成: スタンドアロンと Docker の両方のフロントエンドが、バックエンドを http://localhost:8000/api/ として指します。
各フロントエンドは、必要に応じて個別にビルドおよびデプロイできます。

✨ 主な機能

ハイブリッド検索

ベクトル埋め込み、BM25 全文検索、およびグラフトラバーサルを組み合わせて、包括的なドキュメント検索を行います。

知識グラフ GraphRAG

ドキュメントからエンティティと関係を抽出し、グラフデータベースにグラフを作成して、グラフベースの推論を行います。

構成可能なアーキテクチャ

LlamaIndex は、ベクトルデータベース、グラフデータベース、検索エンジン、および LLM プロバイダーの抽象化を提供します。

マルチソース取り込み

Docling または LlamaParse ドキュメント解析を使用して、13 のデータソース (ファイルアップロード、クラウドストレージ、エンタープライズリポジトリ、ウェブソース) からのドキュメントを処理します。

FastAPI サーバーと REST API

ドキュメントの取り込み、ハイブリッド検索、および AI Q&A クエリのための REST API を備えた FastAPI サーバーです。

MCP サーバー

Claude Desktop などの MCP クライアントに、ドキュメントとテキストの取り込み、ハイブリッド検索、および AI Q&A クエリのためのツールを提供する MCP サーバーです。

UI クライアント

Angular、React、および Vue UI クライアントは、データソース (ファイルシステム、Alfresco、CMIS など) の選択、ドキュメントの取り込み、ハイブリッド検索、および AI Q&A クエリをサポートします。

Docker デプロイメントの柔軟性

スタンドアロンと Docker の両方のデプロイメントモードをサポートします。Docker インフラストラクチャは、docker-compose を介したモジュール式データベース選択を提供し、ベクトル、グラフ、および検索データベースを単一のコメントで含めたり除外したりできます。ハイブリッドデプロイメント (Docker 内のデータベース、スタンドアロンのアプリ) と完全なコンテナ化のどちらかを選択できます。

📦 インストール

インストール手順は「セットアップ」セクションに記載されています。

💻 使用例

システムは、ドキュメント処理とクエリ用のタブ付きインターフェイスを提供します。以下の手順に従って操作します。

1. ソースタブ

データソースを構成し、処理するファイルを選択します。

ファイルアップロードデータソース

選択: データソースのドロップダウンから「ファイルアップロード」を選択します。
ファイルの追加:
- ドラッグアンドドロップ: ファイルをアップロードエリアに直接ドラッグします。
- クリックして選択: アップロードエリアをクリックしてファイル選択ダイアログを開きます (マルチ選択をサポート)。
- 注意: ダイアログで選択した後に新しいファイルをドラッグアンドドロップした場合、ドラッグしたファイルのみが使用されます。
サポートされる形式: PDF、DOCX、XLSX、PPTX、TXT、MD、HTML、CSV、PNG、JPG など
次の手順: 「処理を構成 →」をクリックして、処理タブに進みます。

Alfresco リポジトリ

選択: データソースのドロップダウンから「Alfresco リポジトリ」を選択します。
構成:
- Alfresco ベース URL (例: http://localhost:8080/alfresco)
- ユーザー名とパスワード
- パス (例: /Sites/example/documentLibrary)
次の手順: 「処理を構成 →」をクリックして、処理タブに進みます。

CMIS リポジトリ

選択: データソースのドロップダウンから「CMIS リポジトリ」を選択します。
構成:
- CMIS リポジトリ URL (例: http://localhost:8080/alfresco/api/-default-/public/cmis/versions/1.1/atom)
- ユーザー名とパスワード
- フォルダパス (例: /Sites/example/documentLibrary)
次の手順: 「処理を構成 →」をクリックして、処理タブに進みます。

2. 処理タブ

選択したドキュメントを処理し、進捗状況を監視します。

処理の開始: 「処理を開始」をクリックして、ドキュメントの取り込みを開始します。
進捗状況の監視: 各ファイルのリアルタイムの進捗バーを表示します。
ファイル管理:
- チェックボックスを使用してファイルを選択します。
- 「選択したファイルを削除 (N)」をクリックして、選択したファイルをリストから削除します。
- 注意: これにより、処理キューからファイルが削除されますが、システムからは削除されません。
処理パイプライン: ドキュメントは、Docling 変換、ベクトルインデックス作成、および知識グラフ作成を通じて処理されます。

3. 検索タブ

処理済みのドキュメントに対して検索を実行します。

ハイブリッド検索

目的: 最も関連性の高いドキュメントの抜粋を見つけてランク付けします。
使用方法: 検索用語またはフレーズを入力します (例: 「機械学習アルゴリズム」、「財務予測」)。
アクション: 「検索」ボタンをクリックします。
結果: 関連性スコアとソース情報付きのドキュメント抜粋のランク付きリストが表示されます。
最適なシナリオ: 研究、事実確認、ドキュメント全体で特定の情報を見つける場合

Q&A クエリ

目的: 自然言語の質問に対する AI 生成の回答を取得します。
使用方法: 自然言語の質問を入力します (例: 「研究論文の主な発見は何ですか？」)。
アクション: 「質問する」ボタンをクリックします。
結果: 複数のドキュメントからの情報を統合した AI 生成の叙述的な回答が表示されます。
最適なシナリオ: 要約、分析、複雑なトピックの概要を取得する場合

4. チャットタブ

ドキュメント Q&A 用の対話型会話インターフェイスです。

チャットインターフェイス:
- あなたの質問: 右側に垂直に表示されます。
- AI の回答: 左側に垂直に表示されます。
使用方法: 質問を入力し、Enter キーを押すか、送信ボタンをクリックします。
会話履歴: すべての質問と回答がチャット履歴に保存されます。
履歴のクリア: 「履歴をクリア」ボタンをクリックして、新しい会話を開始します。
最適なシナリオ: 反復的な質問、フォローアップクエリ、会話型のドキュメント探索

📚 ドキュメント

システムコンポーネント

FastAPI バックエンド (`/flexible-graphrag`)

REST API サーバー: ドキュメントの取り込み、検索、および Q&A のためのエンドポイントを提供します。
ハイブリッド検索エンジン: ベクトル類似度、BM25、およびグラフトラバーサルを組み合わせます。
ドキュメント処理: Docling 統合による高度なドキュメント変換。
構成可能なアーキテクチャ: すべてのコンポーネントの環境ベースの構成。
非同期処理: リアルタイムの進捗更新を伴うバックグラウンドタスク処理。

MCP サーバー (`/flexible-graphrag-mcp`)

Claude Desktop 統合: AI アシスタントワークフローのためのモデルコンテキストプロトコルサーバー。
二重トランスポート: デバッグ用の HTTP モード、Claude Desktop 用の stdio モード。
ツールセット: ドキュメント処理、検索、およびシステム管理のための 9 つの専用ツール。
複数のインストール方法: pipx システムインストールまたは uvx 無インストール実行。

UI クライアント (`/flexible-graphrag-ui`)

Angular フロントエンド: TypeScript を使用したマテリアルデザイン。
React フロントエンド: Vite と TypeScript を使用した最新の React。
Vue フロントエンド: Vuetify と TypeScript を使用した Vue 3 コンポジション API。
統一された機能: すべてのクライアントは、非同期処理、進捗追跡、およびキャンセルをサポートします。

Docker インフラストラクチャ (`/docker`)

モジュール式データベース選択: 単一行のコメントで、ベクトル、グラフ、および検索データベースを含めたり除外したりできます。
柔軟なデプロイメント: ハイブリッドモード (Docker 内のデータベース、アプリはスタンドアロン) または完全なコンテナ化。
NGINX リバースプロキシ: 適切なルーティングを伴うすべてのサービスへの統一アクセス。
データベースダッシュボード: Kibana (Elasticsearch)、OpenSearch Dashboards、Neo4j Browser、および Kuzu Explorer の統合ウェブインターフェイス。

データソース

Flexible GraphRAG は、ドキュメントを知識ベースに取り込むために、13 の異なるデータソースをサポートします。

ファイル & アップロードソース

ファイルアップロード - ドラッグアンドドロップをサポートするウェブインターフェイスを通じた直接のファイルアップロード

クラウドストレージソース

Amazon S3 - AWS S3 バケットの統合
Google Cloud Storage (GCS) - Google Cloud のストレージバケット
Azure Blob Storage - Microsoft Azure のブロブコンテナ
OneDrive - Microsoft OneDrive の個人/ビジネスストレージ
SharePoint - Microsoft SharePoint のドキュメントライブラリ
Box - Box.com のクラウドストレージ
Google Drive - Google Drive のファイルストレージ

エンタープライズリポジトリソース

CMIS (Content Management Interoperability Services) - 業界標準のコンテンツリポジトリインターフェイス
Alfresco - Alfresco ECM/コンテンツリポジトリ

ウェブソース

ウェブページ - ウェブ URL からコンテンツを抽出
Wikipedia - タイトルまたは URL で Wikipedia 記事を取り込む
YouTube - YouTube ビデオのトランスクリプトを処理

各データソースには以下が含まれます:

構成フォーム: 資格情報と設定のための使いやすいインターフェイス
進捗追跡: ファイルごとのリアルタイムの進捗インジケーター
柔軟な認証: さまざまな認証方法 (API キー、OAuth、サービスアカウント) をサポート

ドキュメント処理オプション

すべてのデータソースは、2 つのドキュメントパーサーオプションをサポートします。

Docling (デフォルト):

オープンソースのローカル処理
API コストがかからない無料
画像とスキャンドキュメントの組み込み OCR
設定方法: DOCUMENT_PARSER=docling

LlamaParse:

高度な AI を備えたクラウドベースの API サービス
Claude Sonnet 3.5 によるマルチモーダル解析
3 つのモードが利用可能:
- parse_page_without_llm - 1 クレジット/ページ
- parse_page_with_llm - 3 クレジット/ページ (デフォルト)
- parse_page_with_agent - 10 - 90 クレジット/ページ
設定方法: DOCUMENT_PARSER=llamaparse + LLAMAPARSE_API_KEY
API キーは LlamaCloud から取得します。

両方のパーサーは、PDF、オフィスドキュメント (DOCX、XLSX、PPTX)、画像、HTML などを、インテリジェントな形式検出でサポートします。

サポートされるファイル形式

システムは、Docling (高度な処理) と直接のテキスト処理の間のインテリジェントなルーティングにより、15 以上のドキュメント形式を処理します。

ドキュメント形式 (Docling 処理)

PDF: .pdf - 高度なレイアウト分析、テーブル抽出、数式認識
Microsoft Office: .docx, .xlsx, .pptx - 完全な構造の保存とコンテンツの抽出
ウェブ形式: .html, .htm, .xhtml - マークアップ構造の分析
データ形式: .csv, .xml, .json - 構造化データの処理
ドキュメント: .asciidoc, .adoc - マークアップを保存した技術ドキュメント

画像形式 (Docling OCR)

標準画像: .png, .jpg, .jpeg - OCR テキスト抽出
専門画像: .tiff, .tif, .bmp, .webp - レイアウトを考慮した OCR 処理

テキスト形式 (直接処理)

平文: .txt - 最適なチャンク化のための直接の取り込み
Markdown: .md, .markdown - 技術ドキュメントのための形式を保存

処理の知能

適応的な出力: テーブルは Markdown に変換され、テキストコンテンツは平文に変換されて、最適なエンティティ抽出が行われます。
形式検出: ファイル拡張子とコンテンツ分析に基づく自動ルーティング
フォールバック処理: サポートされていない形式に対する適切な対応

データベース構成

Flexible GraphRAG は、ハイブリッド検索機能のために 3 種類のデータベースを使用します。それぞれは、環境変数を介して独立して構成できます。

検索データベース (全文検索)

構成: SEARCH_DB と SEARCH_DB_CONFIG 環境変数で設定します。

BM25 (組み込み): TF-IDF ランキングを備えたローカルファイルベースの BM25 全文検索
- ダッシュボード: なし (ファイルベース)
- 構成:
```
SEARCH_DB=bm25
SEARCH_DB_CONFIG={"persist_dir": "./bm25_index"}
```
- 最適なシナリオ: 開発、小規模データセット、単純なデプロイメント
Elasticsearch: 高度なアナライザー、ファセット検索、およびリアルタイム分析を備えたエンタープライズ検索エンジン
- ダッシュボード: Kibana (http://localhost:5601) で検索分析、インデックス管理、およびクエリデバッグ
- 構成:
```
SEARCH_DB=elasticsearch
SEARCH_DB_CONFIG={"hosts": ["http://localhost:9200"], "index_name": "hybrid_search"}
```
- 最適なシナリオ: 高度なテキスト処理を必要とする本番ワークロード
OpenSearch: AWS 主導のオープンソースフォークで、ネイティブのハイブリッドスコアリング (ベクトル + BM25) と k-NN アルゴリズムを備えています。
- ダッシュボード: OpenSearch Dashboards (http://localhost:5601) でクラスター監視と検索パイプライン管理
- 構成:
```
SEARCH_DB=opensearch
SEARCH_DB_CONFIG={"hosts": ["http://localhost:9201"], "index_name": "hybrid_search"}
```
- 最適なシナリオ: 強力なコミュニティサポートを持つコスト効果の高い代替案
None: 全文検索を無効にする (ベクトル検索のみ)
- 構成:
```
SEARCH_DB=none
```

ベクトルデータベース (意味検索)

構成: VECTOR_DB と VECTOR_DB_CONFIG 環境変数で設定します。

⚠️ ベクトル次元の互換性

重要: 異なる埋め込みモデル (例: OpenAI ↔ Ollama) を切り替える場合、次元の互換性の問題から、既存のベクトルインデックスを削除する必要があります。

OpenAI: 1536 次元 (text-embedding-3-small) または 3072 次元 (text-embedding-3-large)
Ollama: 384 次元 (all-minilm、デフォルト)、768 次元 (nomic-embed-text)、または 1024 次元 (mxbai-embed-large)
Azure OpenAI: OpenAI と同じ (1536 または 3072 次元)

各データベースの詳細なクリーンアップ手順については、VECTOR-DIMENSIONS.md を参照してください。

サポートされるベクトルデータベース

Neo4j: 別のベクトル構成でベクトルデータベースとして使用できます。
- ダッシュボード: Neo4j Browser (http://localhost:7474) で Cypher クエリとグラフ可視化
- 構成:
```
VECTOR_DB=neo4j
VECTOR_DB_CONFIG={"uri": "bolt://localhost:7687", "username": "neo4j", "password": "your_password", "index_name": "hybrid_search_vector"}
```
Qdrant: 高度なフィルタリングを備えた専用のベクトルデータベース
- ダッシュボード: Qdrant Web UI (http://localhost:6333/dashboard) でコレクション管理
- 構成:
```
VECTOR_DB=qdrant
VECTOR_DB_CONFIG={"host": "localhost", "port": 6333, "collection_name": "hybrid_search"}
```
Elasticsearch: 別のベクトル構成でベクトルデータベースとして使用できます。
- ダッシュボード: Kibana (http://localhost:5601) でインデックス管理とデータ可視化
- 構成:
```
VECTOR_DB=elasticsearch
VECTOR_DB_CONFIG={"hosts": ["http://localhost:9200"], "index_name": "hybrid_search_vectors"}
```
OpenSearch: 別のベクトル構成でベクトルデータベースとして使用できます。
- ダッシュボード: OpenSearch Dashboards (http://localhost:5601) でクラスターとインデックス管理
- 構成:
```
VECTOR_DB=opensearch
VECTOR_DB_CONFIG={"hosts": ["http://localhost:9201"], "index_name": "hybrid_search_vectors"}
```
Chroma: 二重デプロイメントモードを備えたオープンソースのベクトルデータベース
- ダッシュボード: Swagger UI (http://localhost:8001/docs/) で API テストと管理 (HTTP モード)
- 構成 (ローカルモード):
```
VECTOR_DB=chroma
VECTOR_DB_CONFIG={"persist_directory": "./chroma_db", "collection_name": "hybrid_search"}
```
- 構成 (HTTP モード):
```
VECTOR_DB=chroma
VECTOR_DB_CONFIG={"host": "localhost", "port": 8001, "collection_name": "hybrid_search"}
```
Milvus: クラウドネイティブでスケーラブルなベクトルデータベース、類似性検索に最適
- ダッシュボード: Attu (http://localhost:3003) でクラスターとコレクション管理
- 構成:
```
VECTOR_DB=milvus
VECTOR_DB_CONFIG={"uri": "http://localhost:19530", "collection_name": "hybrid_search"}
```
Weaviate: 意味機能とデータエンリッチメントを備えたベクトル検索エンジン
- ダッシュボード: Weaviate Console (http://localhost:8081/console) でスキーマとデータ管理
- 構成:
```
VECTOR_DB=weaviate
VECTOR_DB_CONFIG={"url": "http://localhost:8081", "index_name": "HybridSearch"}
```
Pinecone: リアルタイムアプリケーションに最適化された管理型ベクトルデータベースサービス
- ダッシュボード: Pinecone Console (ウェブベース) でインデックスとネームスペース管理
- ローカル情報ダッシュボード: http://localhost:3004 (Docker 使用時)
- 構成:
```
VECTOR_DB=pinecone
VECTOR_DB_CONFIG={"api_key": "your_api_key", "region": "us-east-1", "cloud": "aws", "index_name": "hybrid-search"}
```
PostgreSQL: pgvector 拡張機能を備えた従来のデータベース、ベクトル類似性検索に対応
- ダッシュボード: pgAdmin (http://localhost:5050) でデータベース管理、ベクトルクエリ、および類似性検索
- 構成:
```
VECTOR_DB=postgres
VECTOR_DB_CONFIG={"host": "localhost", "port": 5433, "database": "postgres", "username": "postgres", "password": "your_password"}
```
LanceDB: 高性能 ML アプリケーション向けに設計された最新の軽量ベクトルデータベース
- ダッシュボード: LanceDB Viewer (http://localhost:3005) で CRUD 操作とデータ管理
- 構成:
```
VECTOR_DB=lancedb
VECTOR_DB_CONFIG={"uri": "./lancedb", "table_name": "hybrid_search"}
```

GraphRAG なしの RAG

知識グラフ抽出なしのより単純なデプロイメントの場合は、以下のように構成します:

VECTOR_DB=qdrant  # 任意のベクトルストア
SEARCH_DB=elasticsearch  # 任意の検索エンジン
GRAPH_DB=none
ENABLE_KNOWLEDGE_GRAPH=false

結果:

ベクトル類似性検索 (意味検索)
全文検索 (キーワードベース)
グラフトラバーサルなし
高速な処理 (グラフ抽出なし)

グラフデータベース (知識グラフ / GraphRAG)

構成: GRAPH_DB と GRAPH_DB_CONFIG 環境変数で設定します。

Neo4j Property Graph: Cypher クエリを備えた主要な知識グラフストレージ
- ダッシュボード: Neo4j Browser (http://localhost:7474) でグラフ探索とクエリ実行
- 構成:
```
GRAPH_DB=neo4j
GRAPH_DB_CONFIG={"uri": "bolt://localhost:7687", "username": "neo4j", "password": "your_password"}
```
Kuzu: クエリ速度とスケーラビリティを重視して構築された組み込み型グラフデータベース。非常に大規模なグラフデータベース上の複雑な分析ワークロードを処理するように最適化されています。プロパティグラフデータモデルと Cypher クエリ言語をサポートします。
- ダッシュボード: Kuzu Explorer (http://localhost:8002) でグラフ可視化と Cypher クエリ
- 構成:
```
GRAPH_DB=kuzu
GRAPH_DB_CONFIG={"db_path": "./kuzu_db", "use_structured_schema": true, "use_vector_index": true}
```
FalkorDB: "GraphBLAS を使用した超高速グラフデータベース。疎な隣接行列グラフ表現を用いています。私たちの目標は、LLM (GraphRAG) 用の最高の知識グラフを提供することです。"
- ダッシュボード: FalkorDB Browser (http://localhost:3001) (flexible-graphrag Vue フロントエンドが使用する 3000 から移動)
- 構成:
```
GRAPH_DB=falkordb
GRAPH_DB_CONFIG={"url": "falkor://localhost:6379", "database": "falkor"}
```
ArcadeDB: グラフ、ドキュメント、キーバリュー、および検索機能をサポートするマルチモデルデータベース。SQL と Cypher クエリをサポートします。
- ダッシュボード: ArcadeDB Studio (http://localhost:2480) でグラフ可視化、SQL/Cypher クエリ、およびデータベース管理
- 構成:
```
GRAPH_DB=arcadedb
GRAPH_DB_CONFIG={"host": "localhost", "port": 2480, "username": "root", "password": "password", "database": "flexible_graphrag", "query_language": "sql"}
```
MemGraph: ストリーミングデータと高度なグラフアルゴリズムをネイティブにサポートするリアルタイムグラフデータベース
- ダッシュボード: MemGraph Lab (http://localhost:3002) でグラフ可視化と Cypher クエリ
- 構成:
```
GRAPH_DB=memgraph
GRAPH_DB_CONFIG={"url": "bolt://localhost:7687", "username": "", "password": ""}
```
NebulaGraph: 大規模データ用に設計された分散型グラフデータベース。水平スケーラビリティを備えています。
- ダッシュボード: NebulaGraph Studio (http://localhost:7001) でグラフ探索と nGQL クエリ
- 構成:
```
GRAPH_DB=nebula
GRAPH_DB_CONFIG={"space": "flexible_graphrag", "host": "localhost", "port": 9669, "username": "root", "password": "nebula"}
```
Amazon Neptune: プロパティグラフと RDF モデルの両方をサポートする完全管理型グラフデータベースサービス
- ダッシュボード: Graph-Explorer (http://localhost:3007) でグラフの可視化探索、または Neptune Workbench (AWS コンソール) で Jupyter ベースのクエリ
- 構成:
```
GRAPH_DB=neptune
GRAPH_DB_CONFIG={"host": "your-cluster.region.neptune.amazonaws.com", "port": 8182}
```
Amazon Neptune Analytics: 大規模グラフ分析用のサーバーレスグラフ分析エンジン。openCypher をサポートします。
- ダッシュボード: Graph-Explorer (http://localhost:3007) または Neptune Workbench (AWS コンソール)
- 構成:
```
GRAPH_DB=neptune_analytics
GRAPH_DB_CONFIG={"graph_identifier": "g-xxxxx", "region": "us-east-1"}
```
None: 知識グラフ抽出を無効にして、RAG のみのモードにする
- 構成:
```
GRAPH_DB=none
ENABLE_KNOWLEDGE_GRAPH=false
```
- グラフトラバーサルなしでベクトル + 全文検索を行いたい場合に使用します。

LLM 構成

構成: LLM_PROVIDER とプロバイダー固有の環境変数で設定します。

LLM プロバイダー

OpenAI: 構成可能なエンドポイントを備えた GPT モデル
- 構成:
```
USE_OPENAI=true
LLM_PROVIDER=openai
OPENAI_API_KEY=your_api_key_here
OPENAI_MODEL=gpt-4o-mini
OPENAI_EMBEDDING_MODEL=text-embedding-3-small
```
- モデル: gpt-4o-mini (デフォルト)、gpt-4o、gpt-4-turbo、gpt-3.5-turbo
- 埋め込みモデル: text-embedding-3-small (1536 次元、デフォルト)、text-embedding-3-large (3072 次元)
Ollama: プライバシーとコントロールのためのローカル LLM デプロイメント
- 構成:
```
USE_OPENAI=false
LLM_PROVIDER=ollama
OLLAMA_BASE_URL=http://localhost:11434
OLLAMA_MODEL=llama3.2:latest
OLLAMA_EMBEDDING_MODEL=all-minilm
```
- モデル: llama3.2:latest (デフォルト)、llama3.1:8b、gpt-oss:20b、qwen2.5:latest
- 埋め込みモデル: all-minilm (384 次元、デフォルト)、nomic-embed-text (768 次元)、mxbai-embed-large (1024 次元)

Azure OpenAI: エンタープライズ向けの OpenAI 統合

構成: (未テスト - 構成コードの変更が必要になる可能性があります)

LLM_PROVIDER=azure
AZURE_OPENAI_ENDPOINT=https://your-resource.openai.azure.com
AZURE_OPENAI_API_KEY=your_api_key_here
AZURE_OPENAI_DEPLOYMENT=your_deployment_name
AZURE_OPENAI_EMBEDDING_DEPLOYMENT=your_embedding_deployment
AZURE_OPENAI_API_VERSION=2024-02-15-preview

Anthropic Claude: 複雑な推論用の Claude モデル
- 構成: (未テスト - 構成コードの変更が必要になる可能性があります)
```
LLM_PROVIDER=anthropic
ANTHROPIC_API_KEY=your_api_key_here
ANTHROPIC_MODEL=claude-3-sonnet-20240229
```
Google Gemini: Google の最新の言語モデル
- 構成: (未テスト - 構成コードの変更が必要になる可能性があります)
```
LLM_PROVIDER=gemini
GOOGLE_API_KEY=your_api_key_here
GEMINI_MODEL=gemini-pro
```

LLM パフォーマンスの推奨事項

LlamaIndex での一般的なパフォーマンス: OpenAI vs Ollama OpenAI GPT-4o-mini と Ollama モデル (llama3.1:8b、llama3.2:latest、gpt-oss:20b) を使用したテストに基づくと、LlamaIndex の操作では、OpenAI が Ollama モデルを一貫して上回ります。