MCP Local Rag

一个完全在本地运行的隐私优先文档搜索服务器，通过MCP协议为AI编程工具提供语义搜索功能，无需API密钥或云端服务，所有数据处理均在用户计算机上完成。

搜索工具知识管理与记忆 #本地搜索 #隐私保护 #文档检索 #语义搜索 .TypeScript

评分 : 2.5分

下载量 : 7.9K

更新时间 : 2025-12-12

打开站点

什么是MCP Local RAG?

MCP Local RAG是一个本地文档智能搜索系统，它使用AI技术理解您文档的内容含义，而不仅仅是关键词匹配。您可以将PDF、Word文档、文本文件等上传到系统中，然后使用自然语言提问，系统会找到最相关的文档片段并返回给您。所有处理都在您的计算机上完成，确保数据隐私和安全。

如何使用MCP Local RAG?

使用过程分为三个简单步骤：1) 配置MCP服务器到您的AI工具（Cursor/Codex/Claude Code）；2) 上传您的文档到系统中；3) 使用自然语言搜索文档内容。系统会自动处理文档分割、语义理解和智能检索。

适用场景

特别适合需要处理敏感或机密文档的场景，如：企业内部技术文档、客户合同、研究论文、个人笔记、法律文件等。当您需要快速查找文档中的特定信息，但又不能将文档上传到云端服务时，这是理想的选择。

主要功能

文档上传与处理

支持PDF、DOCX、TXT和Markdown格式。自动提取文本内容，智能分割成可搜索的片段，并生成语义向量。重新上传同一文件时会自动替换旧版本，避免数据重复。

语义搜索

使用自然语言进行语义搜索，理解查询的深层含义而非简单关键词匹配。例如搜索'身份验证流程'也能找到包含'登录方法'或'凭证验证'的相关内容。

文件管理

查看所有已上传的文件列表，包括文件路径、处理时间和生成的片段数量。帮助您了解系统中已索引的内容。

文件删除

从系统中永久删除文档及其所有相关数据。当文档过时或包含敏感信息需要移除时使用此功能。

系统状态监控

查看系统运行状态，包括文档总数、片段总数、内存使用情况和运行时间。帮助监控性能和排查问题。

完全离线运行

首次使用时下载模型文件（约90MB）后，所有操作都在本地完成，无需网络连接。确保数据隐私和随时可用性。

优势

🔒 完全隐私保护：所有数据处理都在本地进行，文档永远不会离开您的计算机

💰 零使用成本：没有API调用费用，无限次搜索不产生额外成本

🌐 离线可用：下载模型后无需网络连接即可使用

⚡ 快速响应：查询通常在3秒内返回结果，即使有数千个文档片段

🔄 自动更新：重新上传文档时自动替换旧版本，保持数据最新

局限性

📁 文件格式有限：目前仅支持PDF、DOCX、TXT、MD格式，不支持Excel、PPT或图像OCR

💾 本地存储需求：需要足够的磁盘空间存储模型文件（~120MB）和向量数据库

⚙️ 配置步骤：需要在AI工具中配置MCP服务器，对非技术用户可能有一定学习成本

🔍 搜索精度：本地模型精度可能略低于大型云服务，但对大多数文档搜索足够

🌍 语言支持：默认模型针对英语优化，其他语言可能需要更换模型

如何使用

配置MCP服务器

根据您使用的AI工具，将MCP Local RAG添加到配置文件中。需要指定文档存储的基本目录(BASE_DIR)。

重启AI工具

保存配置文件后，完全退出并重新启动您的AI工具（Cursor/Codex/Claude Code），使配置生效。

上传文档

使用自然语言命令上传您的第一个文档。系统会自动下载所需模型（首次使用时约1-2分钟）。

开始搜索

文档处理完成后，使用自然语言提问来搜索文档内容。系统会返回最相关的片段。

使用案例

技术文档搜索

作为开发人员，您有大量的API文档和技术规范需要经常查阅。使用MCP Local RAG可以快速找到特定功能或错误的解决方法。

研究论文整理

研究人员需要查阅多篇PDF格式的研究论文。使用语义搜索可以找到涉及特定理论或方法的所有论文，即使它们使用不同的术语。

企业内部文档管理

公司有大量的内部文档（政策、流程、会议记录），员工需要快速查找相关信息。由于文档敏感，不能使用云服务。

个人知识库

个人用户收集了大量的笔记、书签和参考资料。使用MCP Local RAG可以建立一个私人的智能搜索系统。

常见问题

我的文档真的不会离开我的计算机吗？

支持哪些文件格式？

第一次使用时为什么需要等待？

可以搜索中文文档吗？

如何备份我的数据？

搜索没有返回结果怎么办？

可以多人共享同一个数据库吗？

文档太大无法上传怎么办？

🚀 MCP本地检索增强生成（RAG）

这是一个注重隐私的文档搜索服务器，可完全在本地机器上运行。无需API密钥，不依赖云服务，数据不会离开你的计算机。

该项目基于模型上下文协议（MCP）构建，允许你使用Cursor、Codex、Claude Code或任何MCP客户端，通过语义搜索在本地文档中进行搜索，而无需将任何内容发送到外部服务。

🚀 快速开始

将MCP服务器添加到你的AI编码工具中。请选择以下工具对应的操作：

Cursor

将以下内容添加到 ~/.cursor/mcp.json 文件中：

{
  "mcpServers": {
    "local-rag": {
      "command": "npx",
      "args": ["-y", "mcp-local-rag"],
      "env": {
        "BASE_DIR": "/path/to/your/documents"
      }
    }
  }
}

Codex

将以下内容添加到 ~/.codex/config.toml 文件中：

[mcp_servers.local-rag]
command = "npx"
args = ["-y", "mcp-local-rag"]

[mcp_servers.local-rag.env]
BASE_DIR = "/path/to/your/documents"

Claude Code

运行以下命令：

claude mcp add local-rag --scope user --env BASE_DIR=/path/to/your/documents -- npx -y mcp-local-rag

重启你的工具，然后就可以开始使用了：

"Ingest api-spec.pdf"
"What does this document say about authentication?"

就是这么简单，无需安装，无需使用Docker，也无需复杂的设置。

✨ 主要特性

解决痛点

你可能希望使用AI来搜索文档，这些文档可能是技术规范、研究论文、内部文档或会议记录。然而，大多数解决方案都需要将文件发送到外部API，这会带来三个问题：

隐私问题：文档可能包含敏感信息，如客户数据、专有研究或个人笔记。将其发送给第三方服务意味着要将这些数据托付给他们。
大规模使用成本高：外部嵌入API按使用次数收费。对于大量文档或频繁搜索，成本会迅速增加。
网络依赖性：如果离线或网络连接受限，就无法搜索自己的文档。

本项目通过在本地运行所有操作来解决这些问题，文档不会离开你的机器。嵌入模型只需下载一次，之后即可离线使用，并且可以免费无限次使用。

提供的工具

服务器通过MCP提供了五个工具：

文档摄入：支持处理PDF、DOCX、TXT和Markdown文件。指定一个文件后，它会提取文本，将其拆分为可搜索的块，使用本地模型生成嵌入向量，并将所有内容存储在本地向量数据库中。如果再次摄入相同的文件，它会替换旧版本，不会产生重复数据。
语义搜索：允许使用自然语言进行查询。它理解语义，而不是简单的关键词匹配。例如，询问 “how does authentication work” 时，即使相关部分使用了 “login flow” 或 “credential validation” 等不同的表述，也能找到相关内容。
文件管理：显示已摄入的文件及其摄入时间。你可以查看每个文件生成的块数，并验证所有内容是否已正确索引。
文件删除：从向量数据库中删除已摄入的文档。删除文件时，其所有块和嵌入向量将被永久删除。这对于删除过时的文档或不再希望索引的敏感数据非常有用。
系统状态：报告数据库的相关信息，如文档数量、总块数和内存使用情况。有助于监控性能或调试问题。

技术选型

所有功能都基于以下技术：

LanceDB：用于向量存储（基于文件，无需服务器）
Transformers.js：用于生成嵌入向量（在Node.js中运行，无需Python）
all-MiniLM-L6-v2 模型：384维，在速度和准确性之间取得了良好的平衡
RecursiveCharacterTextSplitter：用于智能文本分块

性能表现

在标准笔记本电脑上，即使索引了数千个文档块，查询响应通常也能在3秒内完成。

📦 安装指南

本项目无需复杂的安装过程，按照快速开始部分的步骤将MCP服务器添加到你的AI编码工具中即可。

首次运行

服务器会立即启动，但嵌入模型会在首次使用时（即首次摄入或搜索时）下载：

下载大小：约90MB（模型文件）
缓存后的磁盘使用量：约120MB（包括ONNX运行时缓存）
下载时间：在良好的网络连接下需要1 - 2分钟
首次操作延迟：首次摄入或搜索请求将等待模型下载完成

控制台会显示类似 “Initializing model (downloading ~90MB, may take 1 - 2 minutes)…” 的消息。模型会缓存在 CACHE_DIR（默认：./models/）中，以便离线使用。

延迟初始化的原因：这种方式允许服务器立即启动，无需预先加载模型。只有在实际需要时才进行下载，使服务器在快速状态检查或文件管理操作时更具响应性。

离线模式：首次下载后，完全支持离线使用，无需网络连接。

💻 使用示例

配置

服务器默认配置即可使用，但你可以通过环境变量进行自定义。

Codex

将以下内容添加到 ~/.codex/config.toml 文件中：

[mcp_servers.local-rag]
command = "npx"
args = ["-y", "mcp-local-rag"]

[mcp_servers.local-rag.env]
BASE_DIR = "/path/to/your/documents"
DB_PATH = "./lancedb"
CACHE_DIR = "./models"

注意：节名称必须为 mcp_servers（使用下划线）。使用 mcp-servers 或 mcpservers 会导致Codex忽略该配置。

Cursor

在Cursor设置中添加以下内容：

全局设置（所有项目）：~/.cursor/mcp.json
项目特定设置：项目根目录下的 .cursor/mcp.json

{
  "mcpServers": {
    "local-rag": {
      "command": "npx",
      "args": ["-y", "mcp-local-rag"],
      "env": {
        "BASE_DIR": "/path/to/your/documents",
        "DB_PATH": "./lancedb",
        "CACHE_DIR": "./models"
      }
    }
  }
}

Claude Code

在项目目录中运行以下命令以启用该项目：

cd /path/to/your/project
claude mcp add local-rag --env BASE_DIR=/path/to/your/documents -- npx -y mcp-local-rag

或者为所有项目全局添加：

claude mcp add local-rag --scope user --env BASE_DIR=/path/to/your/documents -- npx -y mcp-local-rag

使用其他环境变量：

claude mcp add local-rag --scope user \
  --env BASE_DIR=/path/to/your/documents \
  --env DB_PATH=./lancedb \
  --env CACHE_DIR=./models \
  -- npx -y mcp-local-rag

环境变量说明

变量	默认值	描述	有效范围
`BASE_DIR`	当前目录	文档根目录。服务器仅访问此路径内的文件（防止意外访问系统文件）	任何有效路径
`DB_PATH`	`./lancedb/`	向量数据库存储位置。随着文档数量的增加，该目录可能会变得很大	任何有效路径
`CACHE_DIR`	`./models/`	模型缓存目录。首次下载后，模型将保留在此处以便离线使用	任何有效路径
`MODEL_NAME`	`Xenova/all-MiniLM-L6-v2`	HuggingFace模型标识符。必须与Transformers.js兼容。请参阅可用模型。注意：更改模型需要重新摄入所有文档，因为不同模型的嵌入向量不兼容	HF模型ID
`MAX_FILE_SIZE`	`104857600`（100MB）	文件最大字节数。为防止内存问题，较大的文件将被拒绝	1MB - 500MB
`CHUNK_SIZE`	`512`	每个块的字符数。值越大，上下文信息越多，但处理速度越慢	128 - 2048
`CHUNK_OVERLAP`	`100`	块之间的重叠字符数。用于保留跨边界的上下文信息	0 - (CHUNK_SIZE/2)

操作使用

配置后重启客户端

Cursor：完全退出并重新启动（在Mac上使用Cmd + Q，而不仅仅是关闭窗口）
Codex：重启IDE/扩展
Claude Code：无需重启，更改将立即生效

服务器将作为可用工具显示，供你的AI助手使用。

摄入文档

Cursor：Composer Agent会在需要时自动使用MCP工具：

"Ingest the document at /Users/me/docs/api-spec.pdf"

Codex CLI：助手会在需要时自动使用配置好的MCP工具：

codex "Ingest the document at /Users/me/docs/api-spec.pdf into the RAG system"

Claude Code：直接自然提问即可：

"Ingest the document at /Users/me/docs/api-spec.pdf"

路径要求：服务器要求使用文件的绝对路径。你的AI助手通常会自动将自然语言请求转换为绝对路径。BASE_DIR 设置出于安全考虑，限制了对该目录树内文件的访问，但你仍需提供完整路径。

服务器会执行以下操作：

验证文件是否存在且大小不超过100MB
提取文本（支持PDF/DOCX/TXT/MD格式）
将文本拆分为块（每个块512个字符，重叠100个字符）
为每个块生成嵌入向量
将其存储在向量数据库中

在标准笔记本电脑上，每MB文件大约需要5 - 10秒。完成后会显示确认信息，包括生成的块数。

搜索文档

使用自然语言提问：

"What does the API documentation say about authentication?"
"Find information about rate limiting"
"Search for error handling best practices"

服务器会执行以下操作：

将查询转换为嵌入向量
在向量数据库中搜索相似的块
返回前5个匹配结果，并显示相似度得分

结果包括文本内容、文件来源和相关性得分。你的AI助手将使用这些结果回答你的问题。

你可以请求更多结果：

"Search for database optimization tips, return 10 results"

限制参数接受1 - 20个结果。

管理文件

查看已索引的文件：

"List all ingested files"

这将显示每个文件的路径、生成的块数以及摄入时间。

从数据库中删除文件：

"Delete /Users/me/docs/old-spec.pdf from the RAG system"

这将从向量数据库中永久删除该文件及其所有块。该操作是幂等的，即删除不存在的文件不会报错。

检查系统状态：

"Show the RAG server status"

这将报告总文档数、总块数、当前内存使用情况和运行时间。

重新摄入文件

如果你更新了文档，请再次摄入：

"Re-ingest api-spec.pdf with the latest changes"

服务器会在添加新块之前自动删除该文件的旧块，不会产生重复或过时的数据。

📚 详细文档

开发相关

从源代码构建

git clone https://github.com/shinpr/mcp-local-rag.git
cd mcp-local-rag
npm install

运行测试

# 运行所有测试
npm test

# 运行测试并生成覆盖率报告
npm run test:coverage

# 开发时的监视模式
npm run test:watch

测试套件包括：

每个组件的单元测试
完整摄入和搜索流程的集成测试
路径遍历保护的安全测试
验证查询速度目标的性能测试

代码质量检查

# 类型检查
npm run type-check

# 代码检查和格式化
npm run check:fix

# 检查循环依赖
npm run check:deps

# 全面质量检查（运行所有检查）
npm run check:all

项目结构

src/
  index.ts          # 入口点，启动MCP服务器
  server/           # RAGServer类，MCP工具处理程序
  parser/           # 文档解析（PDF、DOCX、TXT、MD）
  chunker/          # 文本拆分逻辑
  embedder/         # 使用Transformers.js生成嵌入向量
  vectordb/         # LanceDB操作
  __tests__/        # 测试套件

每个模块都有明确的边界：