MAgenticUI Web 智能体

MAgenticUI

Magentic-UI 是一个以人为本的 AI 智能体研究原型，能够解决可能需要监控的复杂网页和编码任务。与其他黑盒智能体不同，该系统会在执行操作前显示其计划，允许用户引导其行动，并在浏览网站、执行代码和分析文件时请求对敏感操作的授权。

\

MAgenticUI 核心功能

与用户进行协作规划（共同规划）。Magentic-UI 允许用户通过规划编辑器直接修改其规划，或者在 Magentic-UI 执行任何操作之前提供文本反馈。
与用户协作执行（共同任务）。用户可以暂停系统，用自然语言提供反馈，或者直接控制浏览器进行演示。
Magentic-UI 采用人机交互安全机制（操作保护）。在执行可能不可逆的操作之前，Magentic-UI 会征求用户批准，用户可以指定 Magentic-UI 需要批准的频率。此外，Magentic-UI 采用沙盒环境，确保浏览器和代码执行器等工具的安全运行。
通过人机交互实现安全。Magentic-UI 在执行可能不可逆的操作之前会征求用户批准，用户可以指定 Magentic-UI 需要批准的频率。此外，Magentic-UI 采用沙盒机制，以确保浏览器和代码执行器等工具的安全运行。
从经验中学习（计划学习）。Magentic-UI 可以学习并保存先前交互的计划，以改进未来任务的完成情况。

架构

协调器是主导代理，由大型语言模型 (LLM) 提供支持，它与用户进行共同规划，决定何时向用户征求反馈，并将子任务委派给其余代理来完成。
WebSurfer 是一个 LLM 代理，它配备了一个可控制的 Web 浏览器。
Coder 是一个 LLM 代理，配备了 Docker 代码执行容器。它可以编写和执行 Python 和 shell 命令。
FileSurfer 是一个 LLM 代理，它配备了 Docker 代码执行容器和 MarkItDown 的文件转换工具。可以回答有关文件的问题。

能力评估使用 o4-mini 进行基准测试

GAIA 测试集（42.52%），该测试集评估通用 AI 助手在推理、工具使用和网页交互任务方面的表现；
AssistantBench 测试集（27.60%），该测试集侧重于实际的、耗时的网页任务；
WebVoyager （82.2%），用于衡量真实场景下的端到端网页导航；
以及 WebGames （45.5%），该测试集通过交互式挑战评估通用网页浏览代理。

快速开始

安装

python 安装
大模型配置

# 1. Setup environment
python3 -m venv .venv
source .venv/bin/activate
pip install magentic-ui --upgrade

# 2. Set your API key
export OPENAI_API_KEY="your-api-key-here"

# 3. Launch Magentic-UI
magentic-ui --port 8081

启动

docker 模式，功能最完整
本地非 docker 模式
命令模式

# 使用docker 模式
magentic-ui --port 8081

# 使用本地模式 不使用docker 功能受限：无法执行代码
magentic-ui --port 8081 --run-without-docker

# 命令行界面
magentic-cli --work-dir PATH/TO/STORE/DATA

MAgenticUI Web 智能体

MAgenticUI

MAgenticUI 核心功能

架构

能力评估使用 o4-mini 进行基准测试

快速开始

安装

启动

基本配置

大模型配置

百度搜索案例

测试人搜索案例

MAgenticUI Web 智能体

MAgenticUI

MAgenticUI 核心功能

架构

能力评估 使用 o4-mini 进行基准测试

快速开始

安装

启动

基本配置

大模型配置

百度搜索案例

测试人搜索案例

能力评估使用 o4-mini 进行基准测试