科研漫谈——SurveyX：通过LLM实现自动化学术调查（附邀请码）

原创已于 2025-07-02 17:55:32 修改 · 2.4k 阅读

38 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#自动化 #运维 #深度学习 #python #算法

于 2025-05-05 18:41:36 首次发布

科研漫谈专栏收录该内容

7 篇文章

订阅专栏

文章目录

1.1 技术背景

Epoch Ai 估计人类生成的公开文本数据总量约为300万亿（3×10^14）tokens，并将于2028年无数据可用。在数据驱动的人工智能发展背景下，Ai应用未来的重要发展方向，即是以benchmark (基准)为主的agent工作流构建。目前工作流构建的框架也很多：dify、扣子等等，其核心为以结果为导向的过程构建。这里我们从SurveyX工作出发，通过观察其对任务的解析和中间过程prompt结构，探讨对领域工作流构建的思路。

1.2 SureyX技术细节

1.2.1 工作流——文章综述自动生成

在这里插入图片描述

该流程首先在 Part 1 中通过多轮关键词检索、语义聚类与迭代扩展，快速构建一个高质量的候选论文池并搭建起按类型组织的“属性树”，随后生成一级大纲，为后续写作提供结构框架；在Part 2 中，进一步细化大纲、制定写作计划、调动 LLM 逐节产出与重写草稿，通过 RAG 补全引用并多轮精炼，最后生成多模态图表和LaTeX 文档，直至可直接编译成符合学术规范的完整综述论文。

阶段	步骤编号	步骤名称	目标导向	流程说明	主要工具/技术
Part 1: 论文检索与预处理	1-1	初始关键词提取	快速定位调研范围	从用户输入的调研主题中抽取初始关键词	自然语言处理 (prompt engineering)
	1-2	第一轮候选论文抓取	快速覆盖领域文献	基于关键词调用 Google Scholar/arXiv API 检索并缓存首轮候选论文	Google Scholar API、arXiv API
	1-3	抽象语义聚类	粗略分组子话题	对论文摘要做向量嵌入，并通过 UMAP + HDBSCAN 或 K-Means 聚类，形成初步子话题簇	SPECTER/SciBERT 嵌入；UMAP；HDBSCAN/K-Means
	1-4	多轮关键词扩展	增量扩展检索深度	从各子话题簇内自动抽取新关键词，反馈到检索模块	关键词提取算法、LLM
	1-5	多轮迭代检索	覆盖核心子领域	循环“检索 → 聚类 → 扩展关键词”直至覆盖核心子领域	API 调用 + 聚类算法
	1-6	候选论文汇总	构建全面候选池	合并多轮检索结果，去重，形成完整候选论文池	数据去重脚本
	1-7	候选重排序 & Top-K 选取	聚焦高价值文献	按关键词覆盖度、发表年份、新颖度等多指标打分排序，取前 K 篇	多指标打分策略、排序算法
	1-8	支持度分类	剔除无关或低质文献	二分类判定 Top-K 候选论文是否真正聚焦主题，剔除无关文献	分类模型 + Prompt
	1-9	属性树构建	搭建内容骨架	按论文类型（Survey/Method/Benchmark/Theory）构建 Paper Forest，将 Reference Papers 挂载其上	解析模板 + 树状数据结构
	1-10	森林检索 (RAG)	动态补全遗漏引用	写作中若发现引用缺失，通过属性树 + RAG 模块检索补充论文	Retrieval-Augmented Generation
	1-11	一级大纲生成	快速产出写作框架	基于属性树结构，用 LLM 一次性生成论文一级大纲	GPT-4 等 LLM + Prompt
Part 2: 撰写与精炼	2-1	一级大纲输出	明确章节结构	输出包含章节与小节标题的一级大纲	LLM
	2-2	二级大纲草稿	打磨小节要点	针对每个一级节点细化出二级小节概览	LLM
	2-3	二级大纲优化	消除冗余、优化结构	去重、合并、重排二级草稿，确保层次清晰无冗余	文本处理脚本 + LLM
	2-4	撰写计划生成	制定写作指南	为每节生成详细写作 Plan（要点、引用、图表占位）	LLM
	2-5	正式草稿生成	高效产出内容	逐节调用 LLM 产出论文正文初稿	LLM
	2-6	草稿重写	完善引用与风格一致性	通过 RAG 补全引用，整体风格与一致性调整，再让 LLM 重写	RAG + LLM
	2-7	草稿精炼	提升可读性与学术规范	多轮让 LLM 从结构、逻辑和语言上打磨草稿	LLM
	2-8	表格生成	梳理对比与总结	自动生成实验对比、方法汇总等所需表格（Markdown/LaTeX）	Markdown/LaTeX 模板脚本 + LLM
	2-9	逻辑图 & 流程图	可视化方法与流程	绘制方法框架示意、体系结构图等	图像生成模块 / LLM
	2-10	多模态建模	丰富论文表现形式	生成结果曲线、示例图像等多模态内容	Matplotlib 绘图脚本 / 图像生成
	2-11	LaTeX 代码 & PDF 导出	产出可投稿的最终成果	将所有内容组装为 LaTeX 源码，编译输出最终学术综述论文 PDF	LaTeX 模板 + 编译工具

1.2.2 prompt模板——关键结点

1）内容覆盖范围 - 5）内容批判性分析显示了用于内容评估的prompt；6）引用、参考文献相关性显示用于引用、参考文献质量的promp；7） Naive RAG 提示词用于整理相关文献的信息和抽取摘要；最后8）概括所有文献撰写的类别。

这些prompt用于约束整个工作流的中间生存，注意这里的流程：首先通过外部应用收集相关引文文献；其次用rag构建topic的知识库；然后由简到繁地构建整篇文章（包括一级标题、二级标题、草稿生存、全局优化、插入对应表格和输出样本格式等）

1）内容覆盖范围

以下是关于主题“{topic}”的学术调查：
---
{content}
---
<instruction>
请根据以下标准评估关于主题“{topic}”的这项调查，并根据分数给出1到5的评分。
描述：
---
标准描述：覆盖率：覆盖率评估调查涵盖主题所有相关方面的程度，确保对核心和边缘主题进行全面的讨论。
---
分数1 描述：调查覆盖范围非常有限，仅涉及主题的一小部分，缺乏对关键领域的讨论。
分数2 描述：调查涵盖了主题的某些部分，但存在明显的遗漏，重要领域要么代表性不足，要么缺失。
分数3 描述：调查覆盖范围总体全面，但仍缺少一些未充分讨论的关键点。
分数 4 描述：调查全面涵盖了主题的大部分关键领域，仅遗漏了一些非常小的主题。
分数 5 描述：调查全面涵盖了所有关键和次要主题，并提供了详细的讨论和广泛的信息。
---
返回分数，无需任何其他信息：

2）内容结构

以下是关于主题“{topic}”的学术调查：
---
{content}
---
<instruction>
请根据以下标准评估关于主题“{topic}”的这项调查，并根据分数给出1到5的评分。
描述：
---
标准描述：结构：结构评估章节和小节的逻辑组织和连贯性，确保它们之间逻辑连接。
---
分数1 描述：调查缺乏逻辑性，章节之间联系不清晰，难以理解整体框架。
分数2 描述：调查逻辑性较差，部分内容排列混乱或不合理。
分数3 描述：调查的逻辑结构总体合理，大部分内容排列有序，但部分链接和过渡有待改进，例如小节重复。
分数4 描述：调查的逻辑一致性良好，内容排列合理，过渡自然，仅在个别部分略显僵硬。
评分 5 描述：调查结构严谨，逻辑清晰，各部分内容安排合理，相邻部分之间衔接流畅，无冗余。
---
返回分数，无需任何其他信息：

3）内容相关性

以下是关于主题“{topic}”的学术调查：
---
{content}
---
<instruction>
请根据以下标准评估关于主题“{topic}”的这项调查，并根据分数给出1到5的评分。
description:
---
标准 描述：相关性：相关性衡量调查内容与研究主题的契合程度以及是否保持清晰的重点。
---
分数 1 描述：内容过时或与其旨在探讨的领域无关，与主题缺乏一致性。
分数 2 描述：调查部分内容与主题相关，但存在一些跑题；核心主题清晰，但未始终如一地遵循。
分数 3 描述：调查内容总体上与主题相关，但存在一些无关细节。
分数 4 描述：调查内容基本与主题相关，重点突出；叙述与核心主题始终相关，很少跑题。
得分 5 描述：本次调查重点突出，完全围绕主题；文章紧紧围绕主题，每一条信息都有助于全面理解主题。
---
返回分数，无需任何其他信息：

4）内容综合

以下是关于主题“{topic}”的学术调查：
---
{content}
---
<instruction>
请根据以下标准评估关于主题“{topic}”的这项调查，并根据分数给出1到5的评分。
描述：
---
标准描述：综合：综合评估的是将不同研究相互关联、识别总体模式或矛盾，以及
构建超越单独总结的、具有凝聚力的知识框架的能力。
---
分数1 描述：该调查纯粹是孤立研究总结的集合，并未尝试将观点联系起来或识别更广泛的趋势。
分数2 描述：该调查偶尔会将研究联系起来，但未能将它们综合成有意义的模式；联系只是表面现象。
分数3 描述：该调查识别了研究之间的一些主题关系，但缺乏统一的框架来解释其重要性。
分数 4 描述：本调查将大多数研究整合成连贯的主题或辩论，尽管有些联系仍未得到充分阐述。
分数 5 描述：本调查巧妙地将研究整合到一个新颖的框架中，揭示了潜在的趋势，解决了矛盾，并提出了
范式转变的观点。
---
返回分数，无需任何其他信息：

5）内容批判性分析

以下是关于主题“{topic}”的学术调查：
---
{content}
---
<instruction>
请根据以下标准评估关于主题“{topic}”的这项调查，并根据分数给出1到5的评分。
描述：
---
标准描述：批判性分析：批判性分析考察对现有研究的批判深度，包括识别方法论局限性、理论矛盾之处以及研究差距。
---
分数1 描述：该调查仅列举现有研究，未提供任何分析性评论或批判。
分数2 描述：该调查偶尔提及研究的局限性，但缺乏系统分析或对差距的综合分析。
分数3 描述：该调查对一些研究进行了零星的批判性评估，但批判性浅薄或前后矛盾。
分数4 描述：该调查系统地批判了大多数关键研究，并识别了研究差距，但某些领域缺乏深度。
分数 5 描述：本调查展现了对方法论和理论的严谨批判性分析，清晰地描绘了研究前沿，并根据综合的差距提出了新的研究方向。
---
返回分数，无需任何其他信息：

6）引用、参考文献相关性

---
主张：
{claim}
---
来源：
{source}
---
主张：
{claim}
---
该主张是否忠实于来源？
如果主张的核心部分能够得到来源的支持，则该主张忠实于来源。\n
仅回答“是”或“否”：

7）Naive RAG 提示词

- 角色：学术评论论文作者及研究整合者
- 背景：用户已收集大量摘要，并已明确学术评论论文的主题和标题。目标是将这些材料整合成一篇结构清晰、Markdown 格式的学术评论论文。主题为 {topic}，标题为 {title}。
- 简介：作为学术评论论文作者，您深刻理解学术写作标准和研究整合技巧，并能够清晰简洁地表达复杂观点。您擅长逻辑性地组织信息，并以适合学术讨论的结构化方式呈现信息。
- 技能：精通学术写作、文献整合、批判性分析，并能够使用 Markdown 格式整理内容，使其清晰易读。
- 目标：创建一篇结构良好的学术评论论文，整合所提供摘要中的信息，遵循学术标准，并采用 Markdown 格式。
- 限制：论文必须保持学术诚信，确保所有来源均已正确引用。内容应为原创，并根据所提供摘要进行综合，而非仅仅是摘要。
- 输出格式：Markdown 格式的学术综述论文，包含引言、文献综述、讨论和结论等章节。
- 工作流程：
1. 分析提供的摘要，确定关键主题和发现。
2. 将信息组织成与综述论文主题和标题相符的逻辑结构。
3. 使用 Markdown 格式撰写论文，确保每个部分清晰划分，内容连贯。
摘要如下：
{abstracts}
现在撰写学术调查：

8）基准——论文分类***

方法论文

1. 背景：问题背景，包括已有方法、新的突破需求。
2. 问题
  a. 定义：问题的具体描述。
  b. 关键障碍：主要困难，主要挑战。
3. 想法
  a. 直觉：想法的灵感来源。
  b. 观点：这个想法是什么。
  c. 创新点：与已有方法相比，主要区别是什么，或者主要的改进点在哪里。
4. 方法
  a. 方法定义：给定问题，方法的定义是什么。
  b. 方法描述：用一句话描述该方法。
  c. 方法步骤：方法的步骤。
  d. 原理：为什么这种方法有效。
5. 实验
  a. 实验设置：包括数据集、基线等。
  b. 实验进展：具体的评估步骤。
6. 结论：实验/论文的结论是什么。
7. 讨论
  a. 优势：本文的优势是什么。
  b.局限性：本文的缺点是什么。
  c. 未来工作：基于本文的优点和缺点，未来有哪些地方可以改进。
8. 其他信息：还有其他上面未提及的信息吗？

基准论文

1. 背景：问题背景，包括先前的方法、新的突破需求。
2. 问题
  a. 定义：问题的具体描述。
  b. 关键障碍：主要困难，主要挑战。
3. 想法
  a. 直觉：想法的灵感来源。
  b. 观点：这个想法是什么。
  c. 创新点：与先前方法相比，主要区别是什么，或者主要的改进点在哪里。
4. 数据集
  a. 来源：该数据集的生成方式。
  b. 描述：数据集的描述，例如规模、可访问性、多样性、质量等。
  c. 内容：数据集的具体内容。
5. 指标
  a. 方面：正在衡量模型性能的哪些方面。
  b. 原则：所用指标的基本原理。
  c. 程序：如何评估模型的性能？
6. 实验
  a. 模型：实验中使用的模型。
  b. 程序：实验如何进行，以及实验设置。
  c.结果：实验结果如何？模型在此基准测试中的表现如何？是否具有统计学显著性？
  d. 变异性：结果的变异性是如何解释的？
7. 结论：实验/论文的结论是什么？
8. 讨论
  a. 优势：本文的优势是什么？
  b. 局限性：本文的劣势是什么？
  c. 未来工作：基于本文的优势和劣势，未来可以改进的地方和方向是什么？
9. 其他信息：还有其他上面未提及的信息吗？

理论论文

1. 背景：问题背景，包括已有方法、新的突破需求。
2. 问题
  a. 定义：问题的具体描述。
  b. 关键障碍：主要困难，主要挑战。
3. 想法
  a. 直觉：想法的灵感来源。
  b. 观点：这个想法是什么。
  c. 创新点：与已有方法相比，主要区别是什么，或者主要的改进点在哪里。
4. 理论
  a. 视角：理论的视角及其架构。
  b. 观点：对问题的看法或假设。
  c. 证明：理论的证明或推导。
5. 实验
  a. 实验设置：包括数据集、基线等。
  b. 实验进展：具体的评估步骤。
6. 结论：实验/论文的结论是什么。
7. 讨论
  a. 优势：本文的优势是什么。
  b. 局限性：本文的劣势是什么。
  c.未来工作：基于优点和缺点，未来有哪些地方可以改进。
8. 其他信息：还有其他上面未提及的信息吗？

调查论文

1. 背景：
  a. 目的：本次调查的目的。
  b. 范围：本次调查涵盖的主题和未涵盖的主题。
2. 问题
  a. 定义：问题的具体描述。
  b. 关键障碍：主要困难和挑战。
3. 架构：
  a. 视角：本次调查提出的新观点，可以将每种方法概括为不同的领域/阶段。
  b. 领域/阶段：本次调查将现有方法概括为哪些领域或阶段？
4. 结论：实验/论文的结论是什么。
  a. 比较：各项研究或方法之间的比较。
  b. 结果：主要结论或发现。
5. 讨论
  a. 优势：现有研究的优势是什么。
  b. 局限性：现有研究的不足是什么。
  c. 差距：当前研究中存在的差距。
  d. 未来工作/趋势：基于优缺点，未来可以改进的地方和方面。
6. 其他信息：还有其他上面未提及的信息吗？请以 json 格式列出。

1.3 启发与思考

SureyX将学术综述写作任务系统化为一个“结构驱动 + 检索增强 + 多轮迭代”的完整工作流。它以用户主题为起点，通过关键词扩展与语义聚类构建知识结构（属性树），结合 RAG 技术持续补全引用，最终实现从文献搜索到写作生成的闭环自动化。基于这种工作流范式，可以进行一些简单的展开思考：

《行业研究报告自动生成（AI 调研工具）》
用户输入电商主题（如“2024天猫美妆趋势”） → 利用LLM提取关键词与类目信息 → 调用电商榜单/销量爬虫/API抓取热度数据 → 语义聚类生成报告结构 → RAG增强填充每节内容并生成图表 → 输出为适配电商场景的图文行业分析报告（PDF/PPT/小红书图文格式）。

最后，给出SureyX的邀请码：4FE982C6 ，玩起来！