Ebook MCP

Ebook-MCP是一個基於模型上下文協議(MCP)的電子書處理服務器，支持EPUB和PDF格式，提供智能圖書管理、交互式閱讀體驗和學習輔助功能，實現與電子書的自然語言交互。

教育與學習工具知識管理與記憶 #電子書處理 #智能閱讀 #自然語言交互 #學習輔助 .Python

評分 : 2.5分

下載量 : 12.6K

更新時間 : 2025-04-29

打開站點

🚀 電子書內容處理平臺（ebook - MCP）

這是一個專門用於處理和分析電子書文件的工具平臺，支持EPUB和PDF兩種常見格式。它能提取元數據、獲取目錄結構、讀取章節內容，還可將內容轉換為Markdown格式。此外，該平臺提供了一個可通過命令運行的服務端框架，為用戶帶來便利。

🚀 快速開始

本平臺可幫助你輕鬆處理和分析EPUB與PDF格式的電子書文件，提供豐富功能，如提取元數據、獲取目錄結構等。

✨ 主要特性

EPUB處理功能

能夠獲取指定目錄下的所有EPUB文件。
可提取EPUB文件的元數據信息，像標題、作者、出版日期等。
可以讀取EPUB文件的目錄結構。
能獲取特定章節的內容並將其轉換為Markdown格式。

PDF處理功能

可以獲取指定目錄下的所有PDF文件。
能提取PDF文件的元數據信息。
可讀取PDF文件的目錄結構。
能獲取特定頁碼的內容，支持純文本和Markdown格式。
可根據章節標題獲取對應內容及其所在的頁碼範圍。

📦 安裝指南

關鍵依賴

ebooklib：用於處理EPUB文件的庫
PyPDF2：基本的PDF處理庫
PyMuPDF：高級的PDF處理庫
beautifulsoup4：HTML解析工具
html2text：將HTML轉換為Markdown格式的工具
pydantic：數據驗證框架
fastmcp：MCP服務器端框架

💻 使用示例

基礎用法

EPUB處理示例

# 獲取指定目錄下的所有EPUB文件
epub_files = get_all_epub_files("/path/to/books")

# 提取單個EPUB文件的元數據
metadata = get_metadata("/path/to/book.epub")

# 讀取EPUB文件的目錄結構
toc = get_toc("/path/to/book.epub")

# 獲取特定章節的內容（Markdown格式）
chapter_content = get_chapter_markdown("/path/to/book.epub", "chapter_id")

PDF處理示例

# 獲取指定目錄下的所有PDF文件
pdf_files = get_all_pdf_files("/path/to/books")

# 提取單個PDF文件的元數據
metadata = get_pdf_metadata("/path/to/book.pdf")

# 讀取PDF文件的目錄結構
toc = get_pdf_toc("/path/to/book.pdf")

# 獲取特定頁碼的內容（純文本格式）
page_text = get_pdf_page_text("/path/to/book.pdf", 1)

# 獲取特定頁碼的內容（Markdown格式）
page_markdown = get_pdf_page_markdown("/path/to/book.pdf", 1)

# 根據章節標題獲取對應內容及其所在的頁碼範圍
chapter_content, page_numbers = get_pdf_chapter_content("/path/to/book.pdf", "Chapter 1")

📚 詳細文檔

API參考

EPUB APIs

API名稱	功能描述
`get_all_epub_files(path: str) -> List[str]`	獲取指定目錄下的所有EPUB文件路徑。
`get_metadata(epub_path: str) -> Dict[str, Union[str, List[str]]]`	提取指定EPUB文件的元數據信息。
`get_toc(epub_path: str) -> List[Tuple[str, str]]`	獲取指定EPUB文件的目錄結構，返回章節標題及其對應的ID。
`get_chapter_markdown(epub_path: str, chapter_id: str) -> str`	根據章節ID獲取對應章節的內容，並將其轉換為Markdown格式。

PDF APIs

API名稱	功能描述
`get_all_pdf_files(path: str) -> List[str]`	獲取指定目錄下的所有PDF文件路徑。
`get_pdf_metadata(pdf_path: str) -> Dict[str, Union[str, List[str]]]`	提取指定PDF文件的元數據信息。
`get_pdf_toc(pdf_path: str) -> List[Tuple[str, int]]`	獲取指定PDF文件的目錄結構，返回章節標題及其對應的頁碼位置。
`get_pdf_page_text(pdf_path: str, page_number: int) -> str`	根據指定的頁碼獲取對應的內容（純文本格式）。
`get_pdf_page_markdown(pdf_path: str, page_number: int) -> str`	根據指定的頁碼獲取對應的內容（Markdown格式）。
`get_pdf_chapter_content(pdf_path: str, chapter_title: str) -> Tuple[str, List[int]]`	根據章節標題獲取對應內容及其所在的頁碼範圍。