Browser Use 浏览器自动化 Agent
我们给大家推荐一款支持结构化识别的智能体。
Browser Use
Browser Use 是一个非常好用的 AI 自动化工具, 可以实现用人类语言自动化操作浏览器。
Browser Use 是一个非常好用的 AI 自动化工具, 可以实现用人类语言自动化操作浏览器。

快速开始
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
async def main():
agent = Agent(
task="打开https://ceshiren.com 进入搜索 进入高级搜索 搜索python 打开第一条搜索结果的链接,返回界面标题,断言标题中有python",
llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()
print(result)
asyncio.run(main())
这是一份 browser use 框架的使用示例。 它提供了 Agent 类,进行初始化。 第一个参数是你的任务 task, 第二个参数是你使用的大模型。 直接执行即可,用起来还是非常简单的。
使用案例
import asyncio
import os
import sys
from browser_use import Agent
from browser_use.controller.service import Controller
from langchain_openai import ChatOpenAI
async def main(task):
controller = Controller()
controller.registry.registry.actions.pop('search_google')
agent = Agent(
task=task, llm=ChatOpenAI(model="gpt-4o-mini"),
use_vision=False, controller=controller
)
result = await agent.run()
print(result.model_dump_json(indent=2))
def test_hogwarts():
asyncio.run(main("打开ceshiren.com 进入搜索 进入高级搜索 搜索python"))
if __name__ == '__main__':
os.environ["ANONYMIZED_TELEMETRY"] = "false"
asyncio.run(main(sys.argv[1]))
需要注意的是它默认使用了 google 去搜索网址。你需要修改它的 controller 内部的自定义动作。这是一个在国内可运行的代码示例,大家可以在本地练习下。 这段代码去掉了 google 的 action,就可以轻松的使用起来了。
Browser Use Web-UI


除了比较成熟的框架外,官方提供了一个比较简单的 UI 界面,可以辅助操作,适合新人入手。可以通过 UI 界面配置 Agent 与大模型。不过这个项目可用度和定制性并不高,仅供参考。
这是 browser use webui 的基本界面。 你可以通过这个界面配置浏览器的配置,配置大模型,并执行任务。 也可以查看执行结果与每次结果的录制数据。
源代码安装
# Clone the repository
git clone https://github.com/browser-use/web-ui.git
cd web-ui
# Copy and configure environment variables
cp .env.example .env
# Edit .env with your preferred text editor and add your API keys
python webui.py --ip 127.0.0.1 --port 7788
这是使用源代码启动的方式,git clone 项目,进入目录后 copy 对应的配置文件,然后直接启动。
docker compose 方式启动
# Clone the repository
git clone https://github.com/browser-use/web-ui.git
cd web-ui
# Copy and configure environment variables
cp .env.example .env
# Edit .env with your preferred text editor and add your API keys
## docker方式启动
# Build and start the container with default settings (browser closes after AI tasks)
docker compose up --build
# Or run with persistent browser (browser stays open between AI tasks)
CHROME_PERSISTENT_SESSION=true docker compose up --build
这是使用 docker 启动的方式,在项目的根目录下有对应的 docker compose 的配置文件。 使用 docker compose up 启动即可
Run Agent

在运行界面可以输入自己的任务并执行,执行后还可以在结果里查看运行记录。底层使用的是 gradio 框架实现的。感兴趣的同学可以自行探索。
hogwarts-browser-use
- 增加命令行启动支持
- 去掉 google 搜索
- 支持命令行参数配置大模型

因为 browser use 是一个代码框架,没有提供一些便捷的工具封装, 再加上 google 搜索的问题,导致用起来会比较麻烦。 为了让霍格沃兹测试开发学社的小伙伴们更方便的使用。 我们做了一个封装版,可以支持纯命令行调用,从而让大家可以轻松的使用。 它还支持通过命令行参数进行大模型的配置。 相关代码可以从学员论坛节点里找到。
命令行用法
# 依赖python 3.11以上版本
hogwarts-browser-use 打开ceshiren.com 进入搜索 点击高级搜索 搜索python
hogwarts-browser-use -m gpt-4o-mini 打开ceshiren.com 进入搜索 点击高级搜索 搜索python
hogwarts-browser-use -m mistral 打开ceshiren.com 进入搜索 点击高级搜索 搜索python
hogwarts-browser-use -m qwen2.5 打开ceshiren.com 进入搜索 点击高级搜索 搜索python
这是这个工具的基本用法,详情可参考官网文档。
这是 hogwarts browser use 的一个使用效果。 可以通过 pip install 直接安装。 然后通过命令行用法先后执行百度搜索与测试人搜索。
百度搜索演示
我们可以使用 hogwarts browser use 进行百度搜索,先基本了解下他的执行过程。
测试人论坛搜索演示
接下来我们构建一个更长的操作流程。我们可以使用 hogwarts browser use 执行测试人论坛的搜索。