Search MCP Server

一個強大的MCP服務器，提供網頁搜索和相似內容查找功能，支持Claude Desktop集成

搜索工具研究與數據 #網頁搜索 #內容匹配 #AI工具 #數據提取 .Python

評分 : 2.5分

下載量 : 10.4K

更新時間 : 2025-04-28

打開站點

什麼是Parquet MCP 服務器？

Parquet MCP 服務器是一款增強工具，旨在提升Claude 桌面的功能，通過提供高級網絡搜索和內容相似性分析功能，幫助用戶更高效地查找和分析信息。

如何使用Parquet MCP 服務器？

該服務器可通過Smithery安裝或手動配置。安裝完成後，即可通過Claude 桌面的簡單命令訪問其功能。

應用場景

適用於研究項目、內容分析、競爭情報收集等領域，任何需要全面網絡搜索和相似性匹配的場景均可使用。

功能特性

安裝步驟

1. 安裝Smithery；2. 使用命令`smithery install @DeepSpringAI/parquet-mcp-server`安裝服務器。

配置指南

參考官方文檔進行詳細配置，包括所需API密鑰的獲取與設置。

常見問題

需要哪些API密鑰？

如何驗證服務器是否正常運行？

能否不使用Claude 桌面？

資源鏈接

官方文檔

詳細使用指南與技術說明。

GitHub倉庫

源代碼與問題跟蹤。

Claude 桌面指南

官方Claude 桌面文檔。

🚀 parquet_mcp_server

一個功能強大的MCP（模型控制協議）服務器，提供用於執行網絡搜索和查找相似內容的工具。此服務器專為Claude Desktop設計，能為需要網絡搜索功能的應用程序，以及需要根據搜索查詢查找類似內容的項目提供有力支持。

🚀 快速開始

parquet_mcp_server是一個強大的MCP服務器，可用於執行網絡搜索和查找相似內容。下面將詳細介紹其安裝、使用、測試等步驟。

✨ 主要特性

網絡搜索：執行網絡搜索並抓取結果。
相似性搜索：從之前的結果中提取相關信息。

📦 安裝指南

通過Smithery安裝

自動使用Smithery安裝Parquet MCP Server for Claude Desktop：

npx -y @smithery/cli install @DeepSpringAI/parquet_mcp_server --client claude

克隆此倉庫

git clone ...
cd parquet_mcp_server

創建並激活虛擬環境

uv venv
.venv\Scripts\activate  # 在Windows上
source .venv/bin/activate  # 在macOS/Linux上

安裝包

uv pip install -e .

環境變量配置

創建一個.env文件，並添加以下變量：

EMBEDDING_URL=http://sample-url.com/api/embed  # 向量嵌入服務地址
VECTOR_DB_HOST=host.docker.internal  # PostgreSQL向量數據庫的主機名或IP地址
VECTOR_DB_PORT=5432  # PostgreSQL端口，默認為5432
VECTOR_DB_NAME=vector_db  # 數據庫名稱
VECTOR_DB_USER=postgres  # 數據庫用戶名
VECTOR_DB_PASSWORD=postgres  # 數據庫密碼

💻 使用示例

安裝PostgreSQL和pgVector擴展

在PostgreSQL中創建一個新數據庫並啟用pgVector擴展：

CREATE EXTENSION vector;

創建用於存儲搜索結果的表：

CREATE TABLE web_search (
    id SERIAL PRIMARY KEY,
    text TEXT,  # 存儲完整的網頁內容或文本片段
    metadata JSONB,  # 包含URL、標題等元數據
    embedding VECTOR(1024),  # 文本對應的向量嵌入，維度為1024
    created_at TIMESTAMP DEFAULT NOW()  # 記錄創建時間
);

📚 詳細文檔

測試指南

初始化數據庫

使用以下命令初始化PostgreSQL數據庫並插入示例數據：

psql -h host.docker.internal -U postgres -d vector_db -f init.sql

搜索測試

向服務器發送一個包含嵌入向量的搜索請求，例如：

POST /api/search HTTP/1.1
Content-Type: application/json

{
    "embedding": [0.1, 0.2, ..., 0.3],  # 長度為1024的向量
    "match_threshold": 0.7,  # 相似性閾值，默認0.7
    "match_count": 5  # 最大返回結果數，默認5
}

PostgreSQL相似性搜索函數

為了在PostgreSQL中執行基於向量的相似性搜索，請使用以下SQL函數：

-- 創建用於相似性搜索的函數
CREATE OR REPLACE FUNCTION match_web_search(
  query_embedding vector(1024),  # 查詢向量，長度必須為1024
  match_threshold float,  # 相似性閾值
  match_count int  # 最大返回結果數，默認5
)
RETURNS TABLE (
  id bigint,
  metadata jsonb,
  text TEXT,  # 返回完整的文本內容
  created_at TIMESTAMP,  # 返回創建時間戳
  similarity float
)
LANGUAGE plpgsql
AS $$
BEGIN
  RETURN QUERY
  SELECT
    web_search.id,
    web_search.metadata,
    web_search.text,
    web_search.created_at,
    1 - (web_search.embedding <=> query_embedding) as similarity
  FROM web_search
  WHERE 1 - (web_search.embedding <=> query_embedding) > match_threshold
  ORDER BY web_search.created_at DESC,  # 按時間排序，最新結果優先
           web_search.embedding <=> query_embedding  # 按相似性排序
  LIMIT match_count;  # 限制返回結果數量
END;
$$;

這個函數允許在PostgreSQL中執行基於向量的相似性搜索，根據指定的閾值和結果數限制返回符合條件的結果。結果按時間戳降序排列，再按相似性排序。

後端代碼示例

以下是後端服務的一個簡單實現示例：

from fastapi import FastAPI, HTTPException
import requests
import json
from typing import List, Optional

app = FastAPI()

class SearchResults(BaseModel):
    id: int
    metadata: dict
    text: str
    created_at: datetime
    similarity: float

@app.post("/api/search", response_model=List[SearchResults])
async def search(web_search: WebSearch) -> List[SearchResults]:
    try:
        # 執行相似性搜索查詢
        response = requests.post(
            "http://localhost:8000/api/vector/search",
            json={
                "vector": web_search.embedding,
                "threshold": 0.7,
                "count": 5
            }
        )
        
        if response.status_code != 200:
            raise HTTPException(status_code=500, detail="搜索失敗")
            
        return response.json()
    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))

🔧 技術細節

其他注意事項

⚠️ 重要提示

確保PostgreSQL版本為13或更高，以支持向量數據類型。

pgVector擴展必須正確安裝，並且數據庫已啟用該擴展。

網絡搜索功能依賴於第三方爬蟲工具（如requests和beautifulsoup4），請確保這些庫已安裝並配置正確。

在生產環境中使用時，請根據實際需求調整相似性閾值和結果返回數量。