local_faiss_mcp - 支持多格式与自定义模型，提供嵌入搜索功能的MCP服务器

探索

Local Faiss MCP

一个基于FAISS的本地向量数据库MCP服务器，提供文档嵌入、语义搜索和RAG功能，支持多种文档格式和自定义嵌入模型。

知识管理与记忆搜索工具 #向量数据库 #语义搜索 #文档检索 #本地存储 .Python

评分 : 2.5分

下载量 : 5.6K

更新时间 : 2025-12-29

打开站点

什么是Local FAISS MCP Server?

这是一个本地化的向量数据库服务器，使用FAISS技术将文档转换为数学向量并进行智能检索。它允许AI助手（如Claude）访问您的本地文档库，根据语义相似性找到相关信息，从而提供更准确、基于上下文的回答。

如何使用Local FAISS MCP Server?

使用分为三个简单步骤：1) 安装服务器软件；2) 配置到您的AI助手（如Claude Code）；3) 上传文档并开始提问。服务器会自动处理文档分块、向量化和存储，您只需通过自然语言查询即可获取相关信息。

适用场景

适合个人知识管理、研究文档整理、代码库文档查询、企业内部知识库建设等场景。特别适合需要保护隐私、处理敏感文档或希望完全本地化运行的场景。

主要功能

本地向量存储

使用FAISS技术实现高效的相似性搜索，所有数据存储在本地，无需连接外部服务器，保护隐私和安全。

智能文档处理

自动将文档分割成有意义的段落（约500词），提取文本内容并转换为数学向量，支持PDF、TXT、MD等格式。

语义搜索

基于文档内容的含义而非关键词进行搜索，能够理解查询的上下文和意图，返回最相关的文档片段。

持久化存储

索引和元数据自动保存到磁盘，重启后无需重新处理文档，支持增量添加新文档。

命令行工具

提供独立的local-faiss命令，可直接从终端索引文档和搜索，无需通过AI助手界面。

多格式支持

原生支持PDF、TXT、MD格式，安装pandoc后可支持DOCX、HTML、EPUB等40+种文档格式。

智能重排序

两阶段检索系统：先快速找到候选结果，再用更精确的模型重新排序，显著提升结果相关性。

自定义嵌入模型

可选择不同的文本理解模型，平衡速度与精度，支持多语言和特定领域优化。

内置提示模板

提供标准化的答案提取和文档总结提示，帮助AI助手更好地利用检索到的信息。

优势

完全本地运行，数据不出本地环境，隐私安全性高

无需网络连接，响应速度快，不受网络延迟影响

支持增量添加文档，无需重新处理已有内容

配置灵活，可根据需求选择不同的文本理解模型

与主流AI助手（Claude等）无缝集成，使用方便

开源免费，可自定义修改以满足特定需求

局限性

需要本地计算资源，处理大量文档时可能占用较多内存

首次索引大型文档库需要一定时间处理

高级格式支持（如DOCX）需要额外安装pandoc

向量搜索精度受选择的文本理解模型影响

需要基本的命令行操作知识进行配置

如何使用

安装服务器

通过Python包管理器安装Local FAISS MCP Server软件包。

配置AI助手

在Claude Code等支持MCP的AI助手中添加服务器配置，指定索引存储位置。

上传文档

通过AI助手界面或命令行工具将文档添加到向量数据库中。

开始查询

在AI助手中使用自然语言提问，系统会自动检索相关文档片段并提供答案。

使用案例

学术研究助手

研究人员将多篇PDF论文添加到向量数据库，通过自然语言查询快速找到相关研究方法和结论。

技术文档查询

开发团队将项目文档、API参考和代码注释索引后，快速查找特定功能的使用方法。

个人知识管理

个人用户将阅读笔记、会议记录和个人文档整理后，通过语义搜索快速回忆和连接相关信息。

常见问题

我需要编程知识才能使用这个服务器吗？

支持哪些文档格式？

数据存储在哪里？安全吗？

能处理多少文档？有大小限制吗？

如何更新已索引的文档？

搜索不准确怎么办？

🚀 本地FAISS MCP服务器

本地FAISS MCP服务器是一个基于Model Context Protocol（MCP）的服务器，它使用FAISS提供本地向量数据库功能，适用于检索增强生成（RAG）应用程序。该服务器可以独立运行，也可以与任何MCP兼容的AI代理或客户端集成，为用户提供高效的文档索引和搜索服务。

🚀 快速开始

# 安装
pip install local-faiss-mcp

# 索引文档
local-faiss index document.pdf

# 搜索
local-faiss search "What is this document about?"

或者与Claude Code一起使用 - 配置MCP客户端（请参阅与MCP客户端的配置）并尝试：

使用ingest_document工具处理：./path/to/document.pdf
然后使用query_rag_store搜索："How does FAISS perform similarity search?"

Claude将从你的向量存储中检索相关的文档块，并使用它们来回答你的问题。

✨ 主要特性

核心功能

本地向量存储：使用FAISS进行高效的相似性搜索，无需外部依赖。
文档摄取：自动对文档进行分块和嵌入，以便存储。
语义搜索：使用自然语言和句子嵌入进行文档查询。
持久存储：将索引和元数据保存到磁盘。
MCP兼容性：可与任何MCP兼容的AI代理或客户端配合使用。

v0.2.0亮点

CLI工具：提供local-faiss命令，用于独立的索引和搜索。
文档格式：原生支持PDF/TXT/MD格式，通过pandoc支持DOCX/HTML/EPUB等格式。
重新排序：采用两阶段的检索和重新排序，以获得更好的结果。
自定义嵌入：可选择任何Hugging Face嵌入模型。
MCP提示：内置用于答案提取和摘要的提示。

📦 安装指南

⚡️ 升级？ 运行 pip install --upgrade local-faiss-mcp

从PyPI安装（推荐）

pip install local-faiss-mcp

可选：扩展格式支持

对于DOCX、HTML、EPUB等40多种格式，需要安装pandoc：

# macOS
brew install pandoc

# Linux
sudo apt install pandoc

# 或者从以下网址下载：https://pandoc.org/installing.html

注意：PDF、TXT和MD格式无需pandoc即可使用。

从源代码安装

git clone https://github.com/nonatofabio/local_faiss_mcp.git
cd local_faiss_mcp
pip install -e .

💻 使用示例

运行服务器

安装完成后，你可以通过以下三种方式运行服务器：

1. 使用已安装的命令（最简单）：

local-faiss-mcp --index-dir /path/to/index/directory

2. 作为Python模块运行：

python -m local_faiss_mcp --index-dir /path/to/index/directory

3. 用于开发/测试：

python local_faiss_mcp/server.py --index-dir /path/to/index/directory

命令行参数：

--index-dir：存储FAISS索引和元数据文件的目录（默认：当前目录）
--embed：Hugging Face嵌入模型名称（默认：all-MiniLM-L6-v2）
--rerank：启用使用指定交叉编码器模型的重新排序（默认：BAAI/bge-reranker-base）

使用自定义嵌入模型：

# 使用更大、更准确的模型
local-faiss-mcp --index-dir ./.vector_store --embed all-mpnet-base-v2

# 使用多语言模型
local-faiss-mcp --index-dir ./.vector_store --embed paraphrase-multilingual-MiniLM-L12-v2

# 使用任何Hugging Face句子转换器模型
local-faiss-mcp --index-dir ./.vector_store --embed sentence-transformers/model-name

使用重新排序以获得更好的结果：

重新排序使用交叉编码器模型对FAISS结果进行重新排序，以提高相关性。这种两阶段的“检索和重新排序”方法在生产搜索系统中很常见。

# 使用默认模型（BAAI/bge-reranker-base）启用重新排序
local-faiss-mcp --index-dir ./.vector_store --rerank

# 使用特定的重新排序模型
local-faiss-mcp --index-dir ./.vector_store --rerank cross-encoder/ms-marco-MiniLM-L-6-v2

# 结合自定义嵌入和重新排序
local-faiss-mcp --index-dir ./.vector_store --embed all-mpnet-base-v2 --rerank BAAI/bge-reranker-base

重新排序的工作原理：

FAISS检索出比请求数量多10倍的顶级候选者。
交叉编码器对每个候选者与查询进行评分。
根据相关性得分对结果进行重新排序。
返回前k个最相关的结果。

流行的重新排序模型：

BAAI/bge-reranker-base - 平衡性能（默认）
cross-encoder/ms-marco-MiniLM-L-6-v2 - 快速高效
cross-encoder/ms-marco-TinyBERT-L-2-v2 - 非常快，模型较小

服务器将：

如果索引目录不存在，则创建该目录。
从{index-dir}/faiss.index加载现有的FAISS索引（或创建一个新的）。
从{index-dir}/metadata.json加载文档元数据（或创建新的）。
通过stdin/stdout监听MCP工具调用。

可用工具

服务器提供两个用于文档管理的工具：

1. ingest_document

将文档摄取到向量存储中。

参数：

document（必需）：要摄取的文本内容或文件路径。
source（可选）：文档来源的标识符（默认："unknown"）。

自动检测：如果document看起来像文件路径，将自动解析。

支持的格式：

原生：TXT、MD、PDF
使用pandoc：DOCX、ODT、HTML、RTF、EPUB等40多种格式

示例：

{
  "document": "FAISS is a library for efficient similarity search...",
  "source": "faiss_docs.txt"
}

{
  "document": "./documents/research_paper.pdf"
}

2. query_rag_store

查询向量存储以获取相关的文档块。

参数：

query（必需）：搜索查询文本。
top_k（可选）：返回的结果数量（默认：3）。

示例：

{
  "query": "How does FAISS perform similarity search?",
  "top_k": 5
}

可用提示

服务器提供MCP提示，帮助从检索到的文档中提取答案和总结信息：

1. extract-answer

从检索到的文档块中提取最相关的答案，并提供适当的引用。

参数：

query（必需）：原始用户查询或问题。
chunks（必需）：检索到的文档块，作为JSON数组，包含字段：text、source、distance。

用例：查询RAG存储后，使用此提示获取格式良好的答案，引用来源并解释相关性。

在Claude中的示例工作流程：

使用query_rag_store工具检索相关块。
使用extract-answer提示处理查询和结果。
获取带有引用和解释的全面答案。

2. summarize-documents

从多个文档块中创建聚焦的摘要。

参数：

topic（必需）：要总结的主题或主题。
chunks（必需）：要总结的文档块，作为JSON数组。
max_length（可选）：摘要的最大长度（默认：200）。

用例：将从多个检索到的文档中合成信息，形成简洁的摘要。

示例用法：

在Claude Code中，使用query_rag_store检索文档后，可以使用以下提示：

使用extract-answer提示处理：
- query: "What is FAISS?"
- chunks: [query_rag_store的JSON结果]

这些提示将引导大语言模型根据你的向量存储数据提供结构化、有引用支持的答案。

命令行界面

local-faiss CLI提供独立的文档索引和搜索功能。

索引命令

从命令行索引文档：

# 索引单个文件
local-faiss index document.pdf

# 索引多个文件
local-faiss index doc1.pdf doc2.txt doc3.md

# 索引文件夹中的所有文件
local-faiss index documents/

# 递归索引
local-faiss index -r documents/

# 使用通配符模式索引
local-faiss index "docs/**/*.pdf"

配置：CLI自动使用以下位置的MCP配置：

./.mcp.json（本地/项目特定）
~/.claude/.mcp.json（Claude Code配置）
~/.mcp.json（备用）

如果没有配置文件，将创建./.mcp.json，使用默认设置（./.vector_store）。

支持的格式：

原生：TXT、MD、PDF（始终可用）
使用pandoc：DOCX、ODT、HTML、RTF、EPUB等。
- 安装：brew install pandoc（macOS）或apt install pandoc（Linux）

搜索命令

搜索已索引的文档：

# 基本搜索
local-faiss search "What is FAISS?"

# 获取更多结果
local-faiss search -k 5 "similarity search algorithms"

结果显示：

源文件路径
FAISS距离得分
重新排序得分（如果在MCP配置中启用）
文本预览（前300个字符）

CLI特性

✅ 增量索引：添加到现有索引，不覆盖。
✅ 进度输出：显示每个文件的索引进度。
✅ 共享配置：使用与MCP服务器相同的设置。
✅ 自动检测：支持通配符模式和递归文件夹。
✅ 格式支持：原生处理PDF、TXT、MD；使用pandoc支持DOCX等。

📚 详细文档

与MCP客户端的配置

Claude Code

将此服务器添加到你的Claude Code MCP配置（.mcp.json）中：

用户范围配置 (~/.claude/.mcp.json)：

{
  "mcpServers": {
    "local-faiss-mcp": {
      "command": "local-faiss-mcp"
    }
  }
}

使用自定义索引目录：

{
  "mcpServers": {
    "local-faiss-mcp": {
      "command": "local-faiss-mcp",
      "args": [
        "--index-dir",
        "/home/user/vector_indexes/my_project"
      ]
    }
  }
}

使用自定义嵌入模型：

{
  "mcpServers": {
    "local-faiss-mcp": {
      "command": "local-faiss-mcp",
      "args": [
        "--index-dir",
        "./.vector_store",
        "--embed",
        "all-mpnet-base-v2"
      ]
    }
  }
}

启用重新排序：

{
  "mcpServers": {
    "local-faiss-mcp": {
      "command": "local-faiss-mcp",
      "args": [
        "--index-dir",
        "./.vector_store",
        "--rerank"
      ]
    }
  }
}

完整配置，包含嵌入和重新排序：

{
  "mcpServers": {
    "local-faiss-mcp": {
      "command": "local-faiss-mcp",
      "args": [
        "--index-dir",
        "./.vector_store",
        "--embed",
        "all-mpnet-base-v2",
        "--rerank",
        "BAAI/bge-reranker-base"
      ]
    }
  }
}

项目特定配置 (./.mcp.json 在你的项目中)：

{
  "mcpServers": {
    "local-faiss-mcp": {
      "command": "local-faiss-mcp",
      "args": [
        "--index-dir",
        "./.vector_store"
      ]
    }
  }
}

替代方法：使用Python模块（如果命令不在PATH中）：

{
  "mcpServers": {
    "local-faiss-mcp": {
      "command": "python",
      "args": ["-m", "local_faiss_mcp", "--index-dir", "./.vector_store"]
    }
  }
}

Claude Desktop

将此服务器添加到你的Claude Desktop配置中：

{
  "mcpServers": {
    "local-faiss-mcp": {
      "command": "local-faiss-mcp",
      "args": ["--index-dir", "/path/to/index/directory"]
    }
  }
}

🔧 技术细节

架构

嵌入模型：可通过--embed标志配置（默认：all-MiniLM-L6-v2，384维）。
- 支持任何Hugging Face句子转换器模型。
- 自动检测嵌入维度。
- 模型选择与索引一起持久化。
索引类型：FAISS IndexFlatL2，用于精确的L2距离搜索。
分块：将文档分割成约500个单词的块，重叠50个单词。
存储：索引保存为faiss.index，元数据保存为metadata.json。

选择嵌入模型

不同的模型有不同的权衡：

模型	维度	速度	质量	使用场景
`all-MiniLM-L6-v2`	384	快	好	默认，平衡性能
`all-mpnet-base-v2`	768	中等	更好	更高质量的嵌入
`paraphrase-multilingual-MiniLM-L12-v2`	384	快	好	多语言支持
`all-MiniLM-L12-v2`	384	中等	更好	相同大小下更好的质量

重要提示：一旦使用特定模型创建了索引，后续运行必须使用相同的模型。服务器将检测维度不匹配并发出警告。

开发

独立测试

在不使用MCP基础设施的情况下测试FAISS向量存储功能：

source venv/bin/activate
python test_standalone.py

此测试：

初始化向量存储。
摄取示例文档。
执行语义搜索查询。
测试持久性和重新加载。
清理测试文件。

单元测试

运行完整的测试套件：

pytest tests/ -v

运行特定的测试文件：

# 测试嵌入模型功能
pytest tests/test_embedding_models.py -v

# 运行独立集成测试
python tests/test_standalone.py

测试套件包括：

test_embedding_models.py：对自定义嵌入模型、维度检测和兼容性进行全面测试。
test_standalone.py：不使用MCP基础设施的端到端集成测试。

📄 许可证

本项目采用MIT许可证。

Figma Context MCP

Framelink Figma MCP Server是一个为AI编程工具（如Cursor）提供Figma设计数据访问的服务器，通过简化Figma API响应，帮助AI更准确地实现设计到代码的一键转换。

TypeScript

72.7K

4.5分

Duckduckgo MCP Server

已认证

DuckDuckGo搜索MCP服务器，为Claude等LLM提供网页搜索和内容抓取服务

Firecrawl MCP Server是一个集成Firecrawl网页抓取能力的模型上下文协议服务器，提供丰富的网页抓取、搜索和内容提取功能。

百度地图MCP Server是国内首个兼容MCP协议的地图服务，提供地理编码、路线规划等10个标准化API接口，支持Python和Typescript快速接入，赋能智能体实现地图相关功能。

Python

49.2K

4.5分

Edgeone Pages MCP Server

EdgeOne Pages MCP是一个通过MCP协议快速部署HTML内容到EdgeOne Pages并获取公开URL的服务

MiniMax Model Context Protocol (MCP) 是一个官方服务器，支持与强大的文本转语音、视频/图像生成API交互，适用于多种客户端工具如Claude Desktop、Cursor等。

Exa MCP Server是一个为AI助手（如Claude）提供网络搜索功能的服务器，通过Exa AI搜索API实现实时、安全的网络信息获取。

Context7 MCP是一个为AI编程助手提供实时、版本特定文档和代码示例的服务，通过Model Context Protocol直接集成到提示中，解决LLM使用过时信息的问题。

智启未来，您的人工智能解决方案智库

Local Faiss MCP

概述

安装

内容详情

替代品

什么是Local FAISS MCP Server?

如何使用Local FAISS MCP Server?

适用场景

主要功能

如何使用

使用案例

常见问题

相关资源

安装

🚀 本地FAISS MCP服务器

🚀 快速开始

✨ 主要特性

核心功能

v0.2.0亮点

📦 安装指南

从PyPI安装（推荐）

可选：扩展格式支持

从源代码安装

💻 使用示例

运行服务器

可用工具

1. ingest_document

2. query_rag_store

可用提示

1. extract-answer

2. summarize-documents

命令行界面

索引命令

搜索命令

CLI特性

📚 详细文档

与MCP客户端的配置

Claude Code

Claude Desktop

🔧 技术细节

架构

选择嵌入模型

开发

独立测试

单元测试

📄 许可证

替代品