Skip to content

MAgenticUI Web 智能体


MAgenticUI

Magentic-UI 是一个以人为本的 AI 智能体研究原型,能够解决可能需要监控的复杂网页和编码任务。与其他黑盒智能体不同,该系统会在执行操作前显示其计划,允许用户引导其行动,并在浏览网站、执行代码和分析文件时请求对敏感操作的授权。

\


MAgenticUI 核心功能

  • 与用户进行协作规划(共同规划) 。Magentic-UI 允许用户通过规划编辑器直接修改其规划,或者在 Magentic-UI 执行任何操作之前提供文本反馈。
  • 与用户协作执行(共同任务) 。用户可以暂停系统,用自然语言提供反馈,或者直接控制浏览器进行演示。
  • Magentic-UI 采用人机交互安全机制(操作保护) 。在执行可能不可逆的操作之前,Magentic-UI 会征求用户批准,用户可以指定 Magentic-UI 需要批准的频率。此外,Magentic-UI 采用沙盒环境,确保浏览器和代码执行器等工具的安全运行。
  • 通过人机交互实现安全 。Magentic-UI 在执行可能不可逆的操作之前会征求用户批准,用户可以指定 Magentic-UI 需要批准的频率。此外,Magentic-UI 采用沙盒机制,以确保浏览器和代码执行器等工具的安全运行。
  • 从经验中学习(计划学习) 。Magentic-UI 可以学习并保存先前交互的计划,以改进未来任务的完成情况。

架构

  • 协调器是主导代理,由大型语言模型 (LLM) 提供支持,它与用户进行共同规划,决定何时向用户征求反馈,并将子任务委派给其余代理来完成。
  • WebSurfer 是一个 LLM 代理,它配备了一个可控制的 Web 浏览器。
  • Coder 是一个 LLM 代理,配备了 Docker 代码执行容器。它可以编写和执行 Python 和 shell 命令。
  • FileSurfer 是一个 LLM 代理,它配备了 Docker 代码执行容器和 MarkItDown 的文件转换工具。可以回答有关文件的问题。


能力评估 使用 o4-mini 进行基准测试

  • GAIA 测试集(42.52%),该测试集评估通用 AI 助手在推理、工具使用和网页交互任务方面的表现;
  • AssistantBench 测试集(27.60%),该测试集侧重于实际的、耗时的网页任务;
  • WebVoyager (82.2%),用于衡量真实场景下的端到端网页导航;
  • 以及 WebGames (45.5%),该测试集通过交互式挑战评估通用网页浏览代理。


快速开始


安装

  • python 安装
  • 大模型配置
# 1. Setup environment
python3 -m venv .venv
source .venv/bin/activate
pip install magentic-ui --upgrade

# 2. Set your API key
export OPENAI_API_KEY="your-api-key-here"

# 3. Launch Magentic-UI
magentic-ui --port 8081

启动

  • docker 模式,功能最完整
  • 本地非 docker 模式
  • 命令模式
# 使用docker 模式
magentic-ui --port 8081

# 使用本地模式 不使用docker 功能受限:无法执行代码
magentic-ui --port 8081 --run-without-docker

# 命令行界面
magentic-cli --work-dir PATH/TO/STORE/DATA

基本配置


大模型配置


百度搜索案例


测试人搜索案例