Paperbanana

PaperBanana是一个自动化生成学术图表和统计图的智能框架，支持从文本描述生成高质量的论文插图，采用多智能体管道和迭代优化，提供CLI、Python API和MCP服务器等多种使用方式。

开发者工具研究与数据 #学术图表 #AI绘图 #多智能体 #自动化 .Python

评分 : 5分

下载量 : 12.4K

更新时间 : 2026-03-13

打开站点

什么是PaperBanana MCP服务器？

PaperBanana MCP服务器是一个Model Context Protocol服务，它将PaperBanana的学术图表生成功能直接集成到您的代码编辑器中。通过MCP协议，您可以在Claude Code、Cursor等支持MCP的IDE中直接调用图表生成工具，无需切换到命令行或浏览器。

如何使用PaperBanana MCP服务器？

您可以通过配置MCP客户端（如Claude Code或Cursor）来连接PaperBanana MCP服务器。配置完成后，您可以在编辑器中直接使用三个主要工具：生成方法图、生成统计图和评估图表质量。

适用场景

适合正在撰写学术论文、技术报告或需要创建高质量图表的研究人员和开发者。特别适用于： 1. 论文写作时快速生成方法示意图 2. 实验报告中的统计图表制作 3. 图表质量评估和优化 4. 批量生成多个图表

主要功能

编辑器内图表生成

无需离开代码编辑器，直接在IDE中生成高质量的学术图表。支持方法示意图和统计图表两种类型。

三合一工具集

提供三个核心工具：generate_diagram（生成方法图）、generate_plot（生成统计图）、evaluate_diagram（评估图表质量）。

Claude Code技能集成

预置Claude Code技能，支持自然语言命令如/generate-diagram <file> [caption]，让图表生成更加直观。

多提供商支持

支持OpenAI、Google Gemini等多种AI提供商，可根据需要灵活选择。

自动优化和迭代

支持输入优化和自动迭代改进，确保生成的图表质量达到出版标准。

优势

无缝集成：直接在编辑器中工作，无需切换工具

高效工作流：减少上下文切换，提高写作效率

高质量输出：基于PaperBanana的多代理管道，生成出版级图表

灵活配置：支持多种AI提供商和模型

易于使用：提供自然语言命令和图形界面两种方式

局限性

需要API密钥：依赖OpenAI或Google Gemini等外部服务

学习曲线：需要配置MCP客户端

网络依赖：需要稳定的网络连接调用AI服务

特定用途：主要针对学术和技术图表，不适用于通用图形设计

如何使用

安装PaperBanana

确保已安装PaperBanana包，包含MCP服务器组件。

配置API密钥

在环境变量中设置您的AI提供商API密钥。

配置MCP客户端

在Claude Code或Cursor中添加PaperBanana MCP服务器配置。

重启编辑器

重启您的代码编辑器以加载MCP服务器。

开始使用

在编辑器中调用PaperBanana工具或使用Claude Code技能。

使用案例

论文方法图生成

在撰写学术论文时，需要为提出的新方法创建清晰的架构图。

实验统计图表

需要将实验结果数据可视化，创建比较多个模型性能的柱状图。

图表质量评估

需要评估AI生成的图表是否达到人工绘制的质量水平。

常见问题

MCP服务器需要付费吗？

支持哪些代码编辑器？

生成图表需要多长时间？

可以自定义图表样式吗？

如何解决连接问题？

🚀 PaperBanana

PaperBanana 是一个为人工智能科学家打造的自动化学术插图生成框架，能根据文本描述生成高质量的学术图表和统计绘图。它支持多种图像生成模型，如 OpenAI（GPT - 5.2 + GPT - Image - 1.5）、Azure OpenAI / Foundry 以及 Google Gemini 等。

🚀 快速开始

前提条件

Python 3.10 及以上版本
拥有 OpenAI API 密钥（[platform.openai.com](https://platform.openai.com/api - keys)）或 Azure OpenAI / Foundry 端点
或者拥有 Google Gemini API 密钥（免费，Google AI Studio）

步骤 1：安装

pip install paperbanana

若要进行开发，可从源码安装：

git clone https://github.com/llmsresearch/paperbanana.git
cd paperbanana
pip install -e ".[dev,openai,google]"

步骤 2：获取 API 密钥

cp .env.example .env
# 编辑 .env 文件并添加你的 API 密钥：
#   OPENAI_API_KEY=your - key - here
#   GOOGLE_API_KEY=your - key - here
#
# 对于 Azure OpenAI / Foundry：
#   OPENAI_BASE_URL=https://<resource>.openai.azure.com/openai/v1
#
# 可选的 Gemini 覆盖设置：
#   GOOGLE_BASE_URL=https://your - gemini - proxy.example.com
#   GOOGLE_VLM_MODEL=gemini - 2.0 - flash
#   GOOGLE_IMAGE_MODEL=gemini - 3 - pro - image - preview

或者使用 Gemini 的设置向导：

paperbanana setup

步骤 3：生成图表

paperbanana generate \
  --input examples/sample_inputs/transformer_method.txt \
  --caption "Overview of our encoder - decoder architecture with sparse routing"

使用输入优化和自动优化功能：

paperbanana generate \
  --input my_method.txt \
  --caption "Overview of our encoder - decoder framework" \
  --optimize --auto

输出结果将保存到 outputs/run_<timestamp>/final_output.png，同时保存所有中间迭代和元数据。

✨ 主要特性

采用两阶段多智能体管道，支持迭代优化
支持多种视觉语言模型（VLM）和图像生成提供商，如 OpenAI、Azure、Gemini
具备输入优化层，可提升生成质量
支持自动优化模式，并可根据用户反馈继续运行
提供命令行界面（CLI）、Python API 以及 MCP 服务器，方便与 IDE 集成
支持从清单文件（YAML/JSON）进行批量生成，一次运行可生成多个图表
具备 Claude Code 技能，可用于 /generate - diagram、/generate - plot 和 /evaluate - diagram

📦 安装指南

从 PyPI 安装

pip install paperbanana

从源码安装（用于开发）

git clone https://github.com/llmsresearch/paperbanana.git
cd paperbanana
pip install -e ".[dev,openai,google]"

💻 使用示例

基础用法

# 基本生成
paperbanana generate \
  --input method.txt \
  --caption "Overview of our framework"

高级用法

# 使用输入优化和自动优化
paperbanana generate \
  --input method.txt \
  --caption "Overview of our framework" \
  --optimize --auto

# 根据用户反馈继续上一次运行
paperbanana generate --continue \
  --feedback "Make arrows thicker and colors more distinct"

# 继续特定运行
paperbanana generate --continue - run run_20260218_125448_e7b876 \
  --iterations 3

📚 详细文档

CLI 参考

`paperbanana generate` -- 方法图表生成

# 基本生成
paperbanana generate \
  --input method.txt \
  --caption "Overview of our framework"

# 带输入优化和自动优化
paperbanana generate \
  --input method.txt \
  --caption "Overview of our framework" \
  --optimize --auto

# 继续最新运行并提供用户反馈
paperbanana generate --continue \
  --feedback "Make arrows thicker and colors more distinct"

# 继续特定运行
paperbanana generate --continue - run run_20260218_125448_e7b876 \
  --iterations 3

标志	简写	描述
`--input`	`-i`	方法文本文件路径（新运行时必需）
`--caption`	`-c`	图表标题 / 交流意图（新运行时必需）
`--output`	`-o`	输出图像路径（默认：在 `outputs/` 中自动生成）
`--iterations`	`-n`	可视化器 - 评估器优化轮数（默认：3）
`--auto`		循环直到评估器满意（有 `--max - iterations` 安全上限）
`--max - iterations`		`--auto` 模式的安全上限（默认：30）
`--optimize`		使用并行上下文丰富和标题锐化预处理输入
`--continue`		从 `outputs/` 中的最新运行继续
`--continue - run`		从特定运行 ID 继续
`--feedback`		继续运行时提供给评估器的用户反馈
`--vlm - provider`		VLM 提供商名称（默认：`openai`）
`--vlm - model`		VLM 模型名称（默认：`gpt - 5.2`）
`--image - provider`		图像生成提供商（默认：`openai_imagen`）
`--image - model`		图像生成模型（默认：`gpt - image - 1.5`）
`--format`	`-f`	输出格式：`png`、`jpeg` 或 `webp`（默认：`png`）
`--config`		YAML 配置文件路径（见 `configs/config.yaml`）
`--verbose`	`-v`	显示详细的智能体进度和时间

`paperbanana plot` -- 统计绘图

paperbanana plot \
  --data results.csv \
  --intent "Bar chart comparing model accuracy across benchmarks"

标志	简写	描述
`--data`	`-d`	数据文件路径，CSV 或 JSON（必需）
`--intent`		绘图的交流意图（必需）
`--output`	`-o`	输出图像路径
`--iterations`	`-n`	优化迭代次数（默认：3）

`paperbanana batch` -- 批量生成

paperbanana batch --manifest examples/batch_manifest.yaml --optimize

清单文件格式（YAML 或 JSON，包含 items 列表）：

items:
  - input: path/to/method1.txt
    caption: "Overview of our encoder - decoder"
    id: fig1
  - input: method2.txt
    caption: "Training pipeline"
    id: fig2

清单中的路径相对于清单文件所在目录解析。

# 从现有批量运行生成人类可读报告（Markdown 或 HTML）
paperbanana batch - report --batch - dir outputs/batch_20250109_123456_abc --format markdown
# 或按批量 ID（在默认输出目录下）
paperbanana batch - report --batch - id batch_20250109_123456_abc --format html --output report.html

标志	简写	描述
`--manifest`	`-m`	清单文件路径（必需）
`--output - dir`	`-o`	批量运行的父目录（默认：outputs）
`--config`		配置 YAML 文件路径
`--iterations`	`-n`	每个项目的优化迭代次数
`--optimize`		对每个项目的输入进行预处理
`--auto`		每个项目循环直到评估器满意
`--format`	`-f`	输出图像格式（png、jpeg、webp）
`--auto - download - data`		需要时下载扩展参考集

`paperbanana evaluate` -- 质量评估

paperbanana evaluate \
  --generated diagram.png \
  --reference human_diagram.png \
  --context method.txt \
  --caption "Overview of our framework"

标志	简写	描述
`--generated`	`-g`	生成图像的路径（必需）
`--reference`	`-r`	人类参考图像的路径（必需）
`--context`		源上下文文本文件的路径（必需）
`--caption`	`-c`	图表标题（必需）
评估将在 4 个维度上打分（按论文进行分层聚合）：

主要维度：忠实度、可读性
次要维度：简洁性、美观性

`paperbanana setup` -- 首次配置

paperbanana setup

交互式向导，首先询问是否使用官方 Gemini API。如果选择官方 API，将遵循默认的 AI Studio 密钥流程；否则，将要求输入自定义的 Gemini 兼容 URL 和 API 密钥。

Python API

import asyncio
from paperbanana import PaperBananaPipeline, GenerationInput, DiagramType
from paperbanana.core.config import Settings

settings = Settings(
    vlm_provider="openai",
    vlm_model="gpt-5.2",
    image_provider="openai_imagen",
    image_model="gpt-image-1.5",
    optimize_inputs=True,   # 启用输入优化
    auto_refine=True,       # 循环直到评估器满意
)

pipeline = PaperBananaPipeline(settings=settings)

result = asyncio.run(pipeline.generate(
    GenerationInput(
        source_context="Our framework consists of...",
        communicative_intent="Overview of the proposed method.",
        diagram_type=DiagramType.METHODOLOGY,
    )
))

print(f"Output: {result.image_path}")

继续之前的运行：

from paperbanana.core.resume import load_resume_state

state = load_resume_state("outputs", "run_20260218_125448_e7b876")
result = asyncio.run(pipeline.continue_run(
    resume_state=state,
    additional_iterations=3,
    user_feedback="Make the encoder block more prominent",
))

完整的工作示例请参考 examples/generate_diagram.py 和 examples/generate_plot.py。

MCP 服务器

PaperBanana 包含一个 MCP 服务器，可与 Claude Code、Cursor 或任何 MCP 兼容的客户端一起使用。通过 uvx 使用时，添加以下配置，无需本地克隆：

{
  "mcpServers": {
    "paperbanana": {
      "command": "uvx",
      "args": ["--from", "paperbanana[mcp]", "paperbanana-mcp"],
      "env": { "GOOGLE_API_KEY": "your-google-api-key" }
    }
  }
}

暴露了三个 MCP 工具：generate_diagram、generate_plot 和 evaluate_diagram。仓库还附带了 3 个 Claude Code 技能：

/generate - diagram <file> [caption] - 从文本文件生成方法图表
/generate - plot <data - file> [intent] - 从 CSV/JSON 数据生成统计绘图
/evaluate - diagram <generated> <reference> - 将生成的图表与人类参考图表进行评估

完整的设置细节请参考。

配置

默认设置位于 configs/config.yaml，可通过 CLI 标志或自定义 YAML 文件进行覆盖：

paperbanana generate \
  --input method.txt \
  --caption "Overview" \
  --config my_config.yaml

关键设置：

vlm:
  provider: openai           # openai, gemini, or openrouter
  model: gpt-5.2

image:
  provider: openai_imagen    # openai_imagen, google_imagen, or openrouter_imagen
  model: gpt-image-1.5

pipeline:
  num_retrieval_examples: 10
  refinement_iterations: 3
  # auto_refine: true        # 循环直到评估器满意
  # max_iterations: 30       # auto_refine 模式的安全上限
  # optimize_inputs: true    # 预处理输入以提高生成质量
  output_resolution: "2k"

reference:
  path: data/reference_sets

output:
  dir: outputs
  save_iterations: true
  save_metadata: true

环境变量（.env）：

# OpenAI（默认）
OPENAI_API_KEY=your-key
OPENAI_BASE_URL=https://api.openai.com/v1    # 或 Azure 端点
OPENAI_VLM_MODEL=gpt-5.2                      # 覆盖模型
OPENAI_IMAGE_MODEL=gpt-image-1.5              # 覆盖模型

# Google Gemini（替代方案，免费）
GOOGLE_API_KEY=your-key
GOOGLE_BASE_URL=                            # 可选的自定义 Gemini 兼容端点
GOOGLE_VLM_MODEL=gemini-2.0-flash          # 覆盖 Gemini VLM 模型
GOOGLE_IMAGE_MODEL=gemini-3-pro-image-preview  # 覆盖 Gemini 图像模型

🔧 技术细节

工作原理

PaperBanana 实现了一个多智能体管道，最多包含 7 个专门的智能体：

阶段 0 -- 输入优化（可选，`--optimize`）

输入优化器 并行运行两个 VLM 调用：
- 上下文丰富器 将原始方法文本转换为适合图表生成的格式（组件、流程、分组、输入输出）
- 标题锐化器 将模糊的标题转换为精确的视觉规格

阶段 1 -- 线性规划

检索器 从精心挑选的 13 个方法图表参考集中选择最相关的示例，这些图表涵盖了智能体/推理、视觉/感知、生成/学习以及科学/应用等领域
规划器 通过从检索到的示例中进行上下文学习，生成目标图表的详细文本描述
风格器 使用 NeurIPS 风格指南（调色板、布局、排版）优化描述以提升视觉美感

阶段 2 -- 迭代优化

可视化器 将描述渲染为图像
评估器 根据源上下文评估生成的图像，并提供修订后的描述以解决任何问题
步骤 4 - 5 重复固定次数的迭代（默认 3 次），或直到评估器满意（--auto）

支持的提供商

PaperBanana 支持多种 VLM 和图像生成提供商：

组件	提供商	模型	说明
VLM（规划、评估）	OpenAI	`gpt - 5.2`	默认
图像生成	OpenAI	`gpt - image - 1.5`	默认
VLM	Google Gemini	`gemini - 2.0 - flash`	免费层
图像生成	Google Gemini	`gemini - 3 - pro - image - preview`	免费层
VLM / 图像	OpenRouter	任何支持的模型	灵活路由
Azure OpenAI / Foundry 端点会自动检测，设置 `OPENAI_BASE_URL` 为你的端点。也支持 Gemini 兼容的网关，必要时设置 `GOOGLE_BASE_URL`。

📄 许可证

本项目采用 MIT 许可证。

免责声明

本项目是基于公开可用论文的独立开源重新实现，与原作者、Google Research 或北京大学没有任何关联、认可或联系。实现可能与论文中描述的原始系统有所不同，请自行决定是否使用。

引用

这是一个 非官方 实现。如果使用此项目，请引用 原始论文：

@article{zhu2026paperbanana,
  title={PaperBanana: Automating Academic Illustration for AI Scientists},
  author={Zhu, Dawei and Meng, Rui and Song, Yale and Wei, Xiyu
          and Li, Sujian and Pfister, Tomas and Yoon, Jinsung},
  journal={arXiv preprint arXiv:2601.23265},
  year={2026}
}

原始论文：https://arxiv.org/abs/2601.23265

generate_diagram

从文本生成出版物质量的方法论图表

参数

source_context : str*

描述

方法论部分文本或相关论文摘录

参数

caption : str*

描述

描述图表应传达内容的图注

参数