
Agentic科研服务平台 - Project Detail
经过系统性的工程实施,Research Agent 平台取得了以下可量化的成果: **功能完整性方面:** 平台成功实现了全部 6 种 AI 工作流的端到端运行。QA 工作流可在 30-90 秒内完成从问题输入到带引用答案输出的全流程,每项证据均附带来源论文、段落定位与置信度标注。Compare 工作流支持从 5+ 维度(方法论、实验结果、创新点、局限性、适用场景)进行多论文并行对比,并自动生成标准 BibTeX 导出。Related Work 工作流内建 LLM 自动评判→人类复审→定向修订的闭环,最大修订次数可配置。Compute 工作流完整支持 Python 代码沙箱执行、matplotlib/seaborn 图表生成、pandas 表格分析、Jupyter Notebook 模板执行 4 种计算模式。所有工作流均支持可选的 Judge 质量评判与完整的 Trace 执行追踪。 **架构灵活性与可扩展性方面:** Provider Mode 系统被证明是一个关键的架构决策。通过 `mock / real / hybrid` 三级抽象,开发人员可以在不配置任何外部 API 密钥的情况下完整运行和调试全部工作流;切换到 real 模式时可以无缝接入 OpenAI、Azure、火山引擎等任意 OpenAI 兼容 API;hybrid 模式提供了真实调用失败时的优雅降级。18 个第三方集成的标准化接口设计使得添加新的学术搜索引擎或 LLM 提供商仅需实现对应的 Provider 接口,无需修改任何核心工作流代码。 **协作与知识管理方面:** 平台实现了完整的研究团队协作功能——三级角色权限(OWNER/EDITOR/VIEWER)的项目成员管理、论文库的收藏与笔记标签系统、基于论文或主题自动生成结构化 Wiki 条目的知识沉淀机制、以及任务完成/失败/项目共享等事件驱动的通知系统。这使得一个实验室的集体知识不再分散在各成员的本地工具中,而是统一沉淀在平台的知识库内。 **可观测性与质量保障方面:** 三层 Trace 系统实现了对每次工作流执行的完整记录——包含每个图节点的输入输出摘要、每个工具调用的参数与返回值、LLM 调用的模型/Token/费用、Judge 评判的各维度评分等。Trace 查看器提供了从任务创建到最终答案的全链路时间线回放。Eval Runner 支持对不同模型变体和 Prompt 变体进行系统性的 A/B 对比评测,为 Prompt 优化和模型选型提供了数据驱动的决策依据。 **工程交付物方面:** 项目产出包括:约 220+ Python 源文件、80+ Java 源文件、60+ TypeScript/TSX 源文件、6 个 Flyway 数据库迁移脚本、5 份完整的技术文档(总计约 11 万字)、GitHub Actions CI/CD 流水线、以及 Docker Compose 一键部署配置。平台在 mock 模式下可实现"零外部依赖"的完整本地运行,在 real 模式下支持从开发环境到生产环境的平滑迁移。
阅读全文



