Repo Graphrag MCP

Repo GraphRAG MCP Server 是一个基于 MCP 协议的服务，利用 LightRAG 和 Tree-sitter 从代码和文本文档中构建知识图谱，并提供问答、实现规划等功能。

开发者工具知识管理与记忆 #知识图谱 #代码分析 #智能问答 #实现规划 .Python

评分 : 2.5分

下载量 : 6.4K

更新时间 : 2025-12-12

打开站点

什么是Repo GraphRAG MCP Server?

Repo GraphRAG是一个基于知识图谱的代码分析工具。它能够自动扫描您的代码库，理解代码结构、函数关系和技术文档，然后构建一个智能的知识图谱。基于这个图谱，您可以： • 询问项目相关问题，获得准确的技术答案 • 规划新功能的实现步骤 • 理解复杂的代码架构它支持13种编程语言，包括Python、JavaScript、Java、Go等主流语言。

如何使用Repo GraphRAG?

使用Repo GraphRAG非常简单，只需三个步骤： 1. **安装配置**：安装必要的依赖并配置API密钥 2. **构建图谱**：让工具扫描您的代码库并构建知识图谱 3. **开始使用**：通过自然语言提问或请求功能规划工具会自动处理代码解析、关系提取和知识组织，您只需要关注业务需求。

适用场景

Repo GraphRAG特别适合以下场景： • **新成员入职**：快速了解大型代码库的结构和设计 • **功能开发**：规划新功能的实现步骤和影响范围 • **代码审查**：理解代码依赖关系和潜在风险 • **技术文档**：基于代码生成准确的技术说明 • **重构规划**：评估代码修改的影响和实施方案

主要功能

智能知识图谱构建

自动分析代码库，提取实体（类、函数、变量等）和它们之间的关系，构建结构化的知识图谱。支持增量更新，只重新分析有变动的文件。

智能问答系统

基于构建的知识图谱，回答关于代码库的技术问题。可以询问项目结构、设计模式、API接口等任何技术细节。

实现规划助手

当您需要添加新功能或修改现有代码时，提供详细的实现步骤和注意事项。帮助您理解需要修改哪些文件，以及如何组织代码。

多语言支持

支持13种编程语言，包括Python、JavaScript/TypeScript、Java/Kotlin、C/C++、Go、Rust、C#、Ruby、HTML/CSS等主流语言。

智能实体合并

自动识别代码和文档中提到的相同实体，将它们合并为统一的表示。确保知识图谱的一致性和准确性。

灵活的LLM集成

支持多种AI模型提供商，包括Anthropic Claude、OpenAI GPT、Google Gemini和Azure OpenAI。可以根据需求选择最适合的模型。

优势

智能理解代码上下文，提供准确的答案和建议

支持增量更新，后续分析速度更快

无需手动编写文档，自动从代码中提取知识

支持多种AI模型，灵活适应不同需求

开源免费，可以自定义和扩展功能

局限性

首次构建知识图谱需要较长时间（特别是大型项目）

不支持二进制文件（如PDF、Word、Excel）的解析

需要配置API密钥才能使用AI功能

对非常规代码结构的识别可能有限

需要一定的学习成本来掌握最佳使用方式

如何使用

安装准备

确保您的系统已安装Python 3.10+和uv包管理器。然后克隆项目仓库并安装依赖。

环境配置

复制环境配置文件，并根据您选择的AI服务商设置API密钥。

配置MCP客户端

根据您使用的客户端（如Claude Desktop、VS Code Copilot等）配置MCP服务器连接。

构建知识图谱

首次使用时，需要让工具扫描您的代码库并构建知识图谱。

开始使用

现在您可以开始提问或请求功能规划了。所有命令都以'graph:'开头。

使用案例

新成员了解项目

刚加入项目团队，需要快速了解代码库的整体结构和主要组件。

规划新功能实现

需要在现有项目中添加用户认证功能，但不确定从哪里开始和需要修改哪些文件。

代码审查辅助

需要理解一个复杂函数的调用链和依赖关系，以便进行代码审查。

技术债务评估

想要了解项目中哪些部分需要重构或存在技术债务。

常见问题

Repo GraphRAG支持哪些编程语言？

构建知识图谱需要多长时间？

是否需要互联网连接？

可以处理多大的代码库？

如何更新已构建的知识图谱？

支持哪些AI模型提供商？

数据安全如何保障？

出现错误如何调试？

🚀 Repo GraphRAG MCP 服务器

Repo GraphRAG MCP 服务器是一个 MCP（模型上下文协议）服务器，它使用 LightRAG 和 Tree-sitter 从仓库或目录中的代码和基于文本的文档（仅文本，不解析 PDF/Word/Excel 文件）构建知识图谱，并利用该图谱进行问答和实现规划。它提供了用于图谱构建（graph_create）、实现规划（graph_plan）和问答（graph_query）的工具。

📊 知识图谱创建（graph_create）：分析代码/文档以构建知识图谱和嵌入索引（支持增量更新）
🔧 实现规划（graph_plan）：根据知识图谱（可选地结合向量搜索）为修改/添加请求输出实现计划和具体的更改步骤
🔍 问答（graph_query）：根据知识图谱（可选地结合向量搜索）回答问题

🚀 快速开始

前提条件

Python 3.10 及以上版本
uv 包管理器
所选大语言模型（LLM）提供商的凭证（设置所需的环境变量；请参阅下面的 LLM 提供商部分）

1. 安装

# 从 GitHub 克隆仓库
git clone https://github.com/yumeiriowl/repo-graphrag-mcp.git
cd repo-graphrag-mcp

# 安装依赖项
uv sync

2. 环境设置

# 复制设置文件
cp .env.example .env

# 编辑设置文件
nano .env  # 或使用其他编辑器

3. 环境变量（LLM 设置）

在 .env 文件中配置设置：

示例：使用 Anthropic 模型

# 用于图谱创建的 LLM 提供商
GRAPH_CREATE_PROVIDER=anthropic  # 也可以是 openai、gemini、azure_openai

# 用于规划和问答的提供商
GRAPH_ANALYSIS_PROVIDER=anthropic # 也可以是 openai、gemini、azure_openai

# API 密钥（设置与所选提供商对应的变量）
ANTHROPIC_API_KEY=your_anthropic_api_key # 或 openai、gemini、azure_openai

# AZURE_OPENAI_API_KEY=your_azure_openai_api_key
# AZURE_OPENAI_ENDPOINT=https://your-resource.openai.azure.com/
# AZURE_API_VERSION=azure_openai_api_version

# OPENAI_API_KEY=your_openai_api_key
# OPENAI_BASE_URL=http://localhost:1234/v1  # 适用于 LM Studio 或其他兼容 OpenAI 的本地服务器

# GEMINI_API_KEY=your_gemini_api_key

# 用于图谱创建的 LLM 模型
GRAPH_CREATE_MODEL_NAME=claude-3-5-haiku-20241022

# 用于规划和问答的 LLM 模型
GRAPH_ANALYSIS_MODEL_NAME=claude-sonnet-4-20250514

4. MCP 客户端设置

Claude Code

claude mcp add repo-graphrag \
-- uv --directory /absolute/path/to/repo-graphrag-mcp run server.py

VS Code GitHub Copilot 扩展

mcp.json：

{
  "servers": {
    "repo-graphrag-server": {
      "type": "stdio",
      "command": "uv",
      "args": [
        "--directory",
        "/absolute/path/to/repo-graphrag-mcp",
        "run",
        "server.py"
      ]
    }
  }
}

其他 MCP 客户端

任何支持 MCP 协议的客户端都可以使用。

5. 使用方法

以下工具可在 MCP 客户端中使用。所有命令必须以 graph: 开头。

`graph_create` - 构建/更新知识图谱

分析目标仓库/目录并构建知识图谱和向量嵌入索引（支持增量更新）。使用 GRAPH_CREATE_PROVIDER 和 GRAPH_CREATE_MODEL_NAME。

要素：

graph:（必需）
要分析的目录路径（建议使用绝对路径）
要创建的存储名称（默认："storage"）

示例：

graph: /absolute/path/to/your/repository my_project
graph: /absolute/path/to/your/repository my_project graphify
graph: C:\\projects\\myapp webapp_storage please create storage

关于增量更新：当您使用现有的存储名称再次运行 graph_create 时，仅重新分析更改/添加/删除的文件；其他文件将被跳过。如果您想在更改嵌入模型或提取设置（DOC_DEFINITION_LIST、NO_PROCESS_LIST、目标扩展名等）后重建，请删除现有的存储或指定新的存储名称，并使用 graph_create 或 standalone_graph_creator.py 重新创建。

注意（性能）：首次创建图谱时，随着文件数量的增加，所需时间会更长。作为参考，如果文件数量超过 1000 个，建议缩小目标目录范围（处理时间取决于环境和文件大小）。增量更新仅重新分析差异部分，因此上述参考不一定适用于更新操作。

注意（首次下载）：如果指定的嵌入模型在首次创建图谱时未缓存，将自动下载（后续运行将使用缓存）。

`graph_plan` - 实现支持

根据知识图谱（可选地结合向量搜索），提供详细的实现计划和说明，以便 MCP 客户端（代理）可以执行实际工作。使用 GRAPH_ANALYSIS_PROVIDER 和 GRAPH_ANALYSIS_MODEL_NAME。

要素：

graph:（必需）
实现/修改请求
存储名称（默认："storage"）

示例：

graph: I want to add user authentication my_project
graph: my_project Add GraphQL support to the REST API
graph: Improve API performance under high load webapp_storage

`graph_query` - 问答

根据知识图谱（可选地结合向量搜索），回答有关目标仓库/目录的问题。使用 GRAPH_ANALYSIS_PROVIDER 和 GRAPH_ANALYSIS_MODEL_NAME。

要素：

graph:（必需）
问题内容
存储名称（默认："storage"）

示例：

graph: Tell me about this project's API endpoints my_project
graph: my_project Explain the main classes and their roles
graph: About the database design webapp_storage

⚙️ 配置选项

LLM 提供商

支持的提供商和所需的环境变量

属性	详情
提供商	Anthropic Claude、OpenAI GPT、Google Gemini、Azure OpenAI
标识符	`anthropic`、`openai`、`gemini`、`azure_openai`
所需环境变量	`ANTHROPIC_API_KEY`、`OPENAI_API_KEY`、`GEMINI_API_KEY`、`AZURE_OPENAI_API_KEY`、`AZURE_OPENAI_ENDPOINT`、`AZURE_API_VERSION`

在 .env 文件中，将标识符指定为 GRAPH_CREATE_PROVIDER / GRAPH_ANALYSIS_PROVIDER。

嵌入模型

默认值：BAAI/bge-m3
兼容性：支持与 Hugging Face sentence-transformers 兼容的模型
首次运行：如果指定的嵌入模型未缓存，将自动下载。缓存位置取决于环境/设置。下载时间和磁盘空间取决于模型大小。
需认证的模型：对于需要认证的 Hugging Face 模型，请在 .env 文件中设置 HUGGINGFACE_HUB_TOKEN。

HUGGINGFACE_HUB_TOKEN=your_hf_token

`graph_plan` 和 `graph_query` 的规划/查询设置

实现说明：本节中的设置将直接传递给 LightRAG 的内置 QueryParam。此 MCP 不实现自定义检索或令牌预算逻辑，而是直接复用 LightRAG 的行为。

检索/搜索模式

搜索模式遵循 LightRAG。在 .env 文件的 SEARCH_MODE 中设置以下选项之一。

mix：向量搜索和知识图谱搜索的组合（推荐）
hybrid：本地搜索和全局搜索的组合
naive：简单向量搜索
local：基于社区的搜索
global：全局社区搜索

令牌预算（输入侧）

输入侧令牌预算控制为规划和问答组装的上下文量（LightRAG QueryParam）。这些与模型输出令牌限制无关。

MAX_TOTAL_TOKENS：每个查询的总体输入上下文预算（实体 + 关系 + 检索到的块 + 系统提示）。默认值：30000。
MAX_ENTITY_TOKENS：实体上下文的预算（输入侧）。默认值：6000。
MAX_RELATION_TOKENS：关系上下文的预算（输入侧）。默认值：8000。

注意：输出令牌限制通过 GRAPH_ANALYSIS_MAX_TOKEN_SIZE（用于规划/问答）和 GRAPH_CREATE_MAX_TOKEN_SIZE（用于图谱创建任务）分别控制。如果显著增加输入预算，请确保您的模型的总上下文窗口能够容纳输入和输出。

实体合并

此 MCP 可以根据语义相似度将从文档中提取的实体与从代码中提取的实体进行合并。目标是将引用（例如，代码中定义并在文档中提及的类或函数）统一为一个合并后的实体。

工作原理：名称通过排除规则进行规范化和过滤；文档实体和当前遍代码实体进行嵌入，并使用余弦相似度（FAISS）进行比较。超过阈值的实体对将被合并，合并描述和文件路径。
控制选项：
- MERGE_ENABLED（默认：true）：启用/禁用实体合并。
- MERGE_SCORE_THRESHOLD（默认：0.95）：合并的余弦相似度阈值。
- 排除设置：MERGE_EXCLUDE_* 列表、私有名称排除、名称长度限制和自定义模式。
执行方式：
- 启用后，合并操作在图谱创建/更新流程中（实体提取后）运行。
- 您也可以运行独立工具：uv run standalone_entity_merger.py <storage_dir_path>

详细环境变量

所有环境变量和默认值可以通过将 .env.example 复制到 .env 进行配置。

属性	详情
`GRAPH_CREATE_PROVIDER`	用于图谱创建的 LLM 提供商
`GRAPH_ANALYSIS_PROVIDER`	用于规划/问答的 LLM 提供商
`ANTHROPIC_API_KEY`	Anthropic API 密钥
`AZURE_OPENAI_API_KEY`	Azure OpenAI API 密钥
`AZURE_OPENAI_ENDPOINT`	Azure OpenAI 端点 URL
`AZURE_API_VERSION`	Azure OpenAI API 版本
`OPENAI_API_KEY`	OpenAI API 密钥
`OPENAI_BASE_URL`	兼容 OpenAI 的端点基础 URL（例如 LM Studio http://localhost:1234/v1）
`GEMINI_API_KEY`	Google Gemini API 密钥
`GRAPH_CREATE_MODEL_NAME`	用于图谱创建的 LLM 模型名称
`GRAPH_ANALYSIS_MODEL_NAME`	用于规划/问答的 LLM 模型名称
`GRAPH_CREATE_MAX_TOKEN_SIZE`	图谱创建期间 LLM 的最大输出令牌数
`GRAPH_ANALYSIS_MAX_TOKEN_SIZE`	规划/问答期间 LLM 的最大输出令牌数
`MAX_TOTAL_TOKENS`	每个规划/查询的总体输入侧令牌预算（实体 + 关系 + 块 + 系统）
`MAX_ENTITY_TOKENS`	实体上下文的输入侧令牌预算
`MAX_RELATION_TOKENS`	关系上下文的输入侧令牌预算
`EMBEDDING_MODEL_NAME`	嵌入模型名称（Hugging Face）
`EMBEDDING_DIM`	嵌入向量维度
`EMBEDDING_MAX_TOKEN_SIZE`	嵌入的最大令牌长度
`HUGGINGFACE_HUB_TOKEN`	HF 认证令牌（可选）
`PARALLEL_NUM`	并行度（并发 LLM/嵌入任务）
`CHUNK_MAX_TOKENS`	每个块的最大令牌数
`MAX_DEPTH`	Tree-sitter 遍历的最大深度
`RATE_LIMIT_MIN_INTERVAL`	API 调用之间的最小间隔（秒）
`RATE_LIMIT_ERROR_WAIT_TIME`	速率限制错误时的等待时间（秒）
`SEARCH_TOP_K`	搜索中要检索的结果数量
`SEARCH_MODE`	搜索模式（`naive`/`local`/`global`/`hybrid`/`mix`）
`DOC_EXT_TEXT_FILES`	视为文档（文本）文件的扩展名（逗号分隔）
`DOC_EXT_SPECIAL_FILES`	无扩展名的特殊文件名（文本）（逗号分隔）
`DOC_DEFINITION_LIST`	从文档中提取的实体类型
`NO_PROCESS_LIST`	要排除的文件/目录（逗号分隔）
`MERGE_ENABLED`	启用实体合并（true/false）
`MERGE_SCORE_THRESHOLD`	合并的余弦相似度阈值
`MERGE_EXCLUDE_MAGIC_METHODS`	魔术方法的排除列表
`MERGE_EXCLUDE_GENERIC_TERMS`	通用术语的排除列表
`MERGE_EXCLUDE_TEST_RELATED`	与测试相关的术语的排除列表
`MERGE_EXCLUDE_PRIVATE_ENTITIES_ENABLED`	排除私有实体（前导下划线）（true/false）
`MERGE_EXCLUDE_CUSTOM_PATTERNS`	额外的排除模式（允许通配符）
`MERGE_MIN_NAME_LENGTH`	合并时实体名称的最小长度
`MERGE_MAX_NAME_LENGTH`	合并时实体名称的最大长度

🧬 支持的语言 (v0.2.2)

支持以下 13 种语言：

Python
C
C++
Rust
C#
Go
Ruby
Java
Kotlin
JavaScript
TypeScript
HTML
CSS

🏗️ MCP 结构

repo-graphrag-mcp/
├── README.md
├── CHANGELOG.md              # 变更日志
├── LICENSE                   # 许可证 (MIT)
├── pyproject.toml            # 包设置
├── server.py                 # MCP 服务器入口点
├── .env.example              # 环境变量模板
├── standalone_graph_creator.py   # 独立图谱构建器
├── standalone_entity_merger.py   # 独立实体合并器
├── repo_graphrag/            # 包
│   ├── config/               # 配置
│   ├── initialization/       # 初始化
│   ├── llm/                  # LLM 客户端
│   ├── processors/           # 分析/图谱构建
│   ├── utils/                # 实用工具
│   ├── graph_storage_creator.py  # 存储创建
│   └── prompts.py            # 提示信息
└── logs/                     # 日志输出

🛠️ 独立执行

您也可以在不使用 MCP 客户端的情况下运行：

standalone_graph_creator.py - 构建知识图谱

分析仓库并创建知识图谱：

uv run standalone_graph_creator.py <read_dir_path> <storage_name>

示例：

uv run standalone_graph_creator.py /home/user/myproject my_storage
uv run standalone_graph_creator.py C:\\projects\\webapp webapp_storage

standalone_entity_merger.py - 实体合并

合并现有存储中的实体：

uv run standalone_entity_merger.py <storage_dir_path>

示例：

uv run standalone_entity_merger.py /home/user/myproject/my_storage
uv run standalone_entity_merger.py C:\\projects\\webapp/webapp_storage

注意：

存储目录必须事先通过 graph_create 或 standalone_graph_creator.py 创建。

🙏 致谢

此 MCP 基于以下库构建：

LightRAG - GraphRAG 实现
Tree-sitter - 代码解析

📄 许可证

此 MCP 根据 MIT 许可证发布。有关详细信息，请参阅 LICENSE 文件。

Duckduckgo MCP Server

已认证

DuckDuckGo搜索MCP服务器，为Claude等LLM提供网页搜索和内容抓取服务

Firecrawl MCP Server是一个集成Firecrawl网页抓取能力的模型上下文协议服务器，提供丰富的网页抓取、搜索和内容提取功能。

Framelink Figma MCP Server是一个为AI编程工具（如Cursor）提供Figma设计数据访问的服务器，通过简化Figma API响应，帮助AI更准确地实现设计到代码的一键转换。

TypeScript

70.6K

4.5分

Edgeone Pages MCP Server

EdgeOne Pages MCP是一个通过MCP协议快速部署HTML内容到EdgeOne Pages并获取公开URL的服务

百度地图MCP Server是国内首个兼容MCP协议的地图服务，提供地理编码、路线规划等10个标准化API接口，支持Python和Typescript快速接入，赋能智能体实现地图相关功能。

Context7 MCP是一个为AI编程助手提供实时、版本特定文档和代码示例的服务，通过Model Context Protocol直接集成到提示中，解决LLM使用过时信息的问题。

MiniMax Model Context Protocol (MCP) 是一个官方服务器，支持与强大的文本转语音、视频/图像生成API交互，适用于多种客户端工具如Claude Desktop、Cursor等。

Exa MCP Server是一个为AI助手（如Claude）提供网络搜索功能的服务器，通过Exa AI搜索API实现实时、安全的网络信息获取。

智启未来，您的人工智能解决方案智库

Repo Graphrag MCP

概述

工具列表

内容详情

替代品

什么是Repo GraphRAG MCP Server?

如何使用Repo GraphRAG?

适用场景

主要功能

如何使用

使用案例

常见问题

相关资源

安装

🚀 Repo GraphRAG MCP 服务器

🚀 快速开始

前提条件

1. 安装

2. 环境设置

3. 环境变量（LLM 设置）

示例：使用 Anthropic 模型

4. MCP 客户端设置

Claude Code

VS Code GitHub Copilot 扩展

其他 MCP 客户端

5. 使用方法

graph_create - 构建/更新知识图谱

graph_plan - 实现支持

graph_query - 问答

⚙️ 配置选项

LLM 提供商

嵌入模型

graph_plan 和 graph_query 的规划/查询设置

检索/搜索模式

令牌预算（输入侧）

实体合并

详细环境变量

🧬 支持的语言 (v0.2.2)

🏗️ MCP 结构

🛠️ 独立执行

standalone_graph_creator.py - 构建知识图谱

standalone_entity_merger.py - 实体合并

🙏 致谢

📄 许可证

替代品

`graph_create` - 构建/更新知识图谱

`graph_plan` - 实现支持

`graph_query` - 问答

`graph_plan` 和 `graph_query` 的规划/查询设置