【Browser Use】：让 AI 帮你“开浏览器”！效率狂飙的秘密武器

2025-03-20 | 0 评论 | 466 浏览

宝子们，今天给大家种草一款超厉害的软件——Browser Use！这可不是普通的浏览器，而是一个能让 AI 像人类一样操作浏览器的神奇工具！🎉 是的，你没听错，AI 可以帮你打开网页、填表单、抓取数据……简直是效率狂飙的神器！接下来就让我带你一探究竟！

软件亮点速览👀

核心价值：Browser Use 是一个开源的 Python 库，它让 AI 代理能够轻松地与浏览器交互，实现各种自动化任务，比如数据抓取、Web 应用程序测试、自动化工作流程等。
平台兼容性：基于 Python 的 Playwright 库构建，支持多种浏览器，包括 Chrome、Firefox 等。
授权模式：开源免费，大家可以自由使用和贡献。
版本信息：目前版本为 0.1.2。
开源地址：https://github.com/browser-use/browser-use🔗

功能详解🔍

核心功能模块

AI 驱动的自动化操作：Browser Use 提供高级接口，AI 可以通过自然语言描述命令来执行任务，比如“打开 5 个 Bing 网页”。
多模态数据采集：它能同时抓取网页的 DOM 结构和视觉截图，让 AI 更全面地理解网页内容。

具体使用场景

在线求职：自动在招聘网站上搜索机器学习职位，并将符合条件的职位保存到文件，然后自动开始申请。
数据收集：可以快速抓取网页上的数据，比如从新闻网站抓取新闻标题和内容。
自动化购物：自动将商品添加到购物车并完成结账。

创新特性

多模态数据采集技术：相比传统工具，Browser Use 能同时获取网页的结构和视觉信息，让 AI 的操作更精准。
简单易用的 API：即使是新手也能快速上手，按照文档中的快速开始指南，安装 Browser Use 并运行示例代码。

实践指南🛠️

安装步骤

安装 Python：确保你的设备上安装了 Python。
安装 Browser Use：在终端中运行以下命令：

pip install browser-use
运行示例代码：查看 examples 文件夹中的示例代码，了解如何使用 Browser Use 执行各种 Web 任务。
以下是实际运行的测试代码，模型建议使用google的api接口，我使用ds接口，感觉太慢了，其他的ollama接口也测试过都挺慢的， google的速度比较快。

from typing import List

from langchain_openai import ChatOpenAI

from langchaingooglegenai import ChatGoogleGenerativeAI
from browser_use import Agent, Controller
from browser_use import Agent, Browser, BrowserConfig
from pydantic import SecretStr
from dotenv import load_dotenv
load_dotenv()
import os

import asyncio

apikey = os.getenv(“DEEPSEEKAPI_KEY”)

apikey = os.getenv(“GEMINIAPI_KEY”)
print(api_key)

Initialize the model

llm=ChatOpenAI(baseurl=‘https://api.deepseek.com/v1’, model=‘deepseek-chat’, apikey=SecretStr(api_key))

llm = ChatGoogleGenerativeAI(model=‘gemini-2.0-flash-exp’, apikey=SecretStr(os.getenv(‘GEMINIAPI_KEY’)))
browser = Browser(
config=BrowserConfig(
# Specify the path to your Chrome executable
# headless=True,
# disable_security=True,
chromeinstancepath=‘C:\Program Files\Google\Chrome\Application\chrome.exe’, # macOS path
# For Windows, typically: ‘C:\Program Files\Google\Chrome\Application\chrome.exe’
# For Linux, typically: ‘/usr/bin/google-chrome’

)
)

task = """
1. 打开https://www.6vdy.cc/网站。
2. 列出当前页面所有的电影以及电影链接，要求电影的链接为完整的路径，不要相对路径,按照json格式输出。
"""
agent = Agent(
task=task,
llm=llm,
browser=browser,
use_vision=True
)
async def main():
result = await agent.run()
print(‘\n——————————–’)
print(result.final_result())
print(‘\n——————————–’)

asyncio.run(main())

效果如下：

环境要求

Python 版本：需要 Python 3.8 或更高版本。

浏览器：支持 Chrome、Firefox 等主流浏览器。

常见问题解决

安装失败：检查 Python 版本是否符合要求，或者尝试更新 pip。

浏览器兼容性问题：确保浏览器版本是最新的，或者尝试切换浏览器。

效率提升🚀

个人效率实践

快速获取信息：再也不用手动搜索和复制粘贴了，AI 可以直接帮你抓取网页上的数据10^。

自动化繁琐任务：比如自动填写表单、自动回复邮件等，节省了大量时间。

团队协作应用

数据共享更便捷：团队成员可以共享抓取的数据和自动化脚本，提高协作效率。

任务分配更高效：AI 可以承担一些重复性任务，让团队成员专注于更有价值的工作。

最佳使用建议

结合实际需求：根据自己的工作场景，选择合适的自动化任务。

定期更新脚本：随着网页结构的变化，及时更新自动化脚本。

竞品对比🔍

功能差异

Browser Use：专注于 AI 驱动的浏览器自动化，功能强大且灵活。

其他工具：比如 Selenium，虽然功能也很强大，但需要更多的代码编写。

性能评估

Browser Use：多模态数据采集技术让其在处理复杂网页时表现更出色。

其他工具：在处理简单任务时性能相当，但在复杂任务中可能会出现兼容性问题。

价格对比

Browser Use：开源免费。

其他工具：部分工具可能需要付费，尤其是商业版。

场景匹配

Browser Use：适合需要 AI 自动化操作的场景，如数据抓取、自动化测试等。

其他工具：更适合传统的自动化测试和 Web 开发。

进阶技巧📚

高级使用方法

自定义脚本：根据自己的需求编写自定义脚本，实现更复杂的自动化任务。

与其他工具集成：可以与其他 AI 工具和框架集成，比如与 ChatGPT 结合，实现更智能的自动化。

效率提示

定期优化脚本：随着网页结构的变化和需求的调整，定期优化脚本。

合理安排任务：根据任务的复杂程度和优先级，合理安排自动化任务。

宝子们，Browser Use 真的是一个超级实用的工具！它不仅能让 AI 帮你操作浏览器，还能大大提高你的工作效率。无论是个人使用还是团队协作，都能发挥巨大的作用。如果你还在手动完成繁琐的浏览器任务，那Browser Use能让您解放出来。

发表评论