【Browser Use】:让 AI 帮你“开浏览器”!效率狂飙的秘密武器

  |   0 评论   |   228 浏览

宝子们,今天给大家种草一款超厉害的软件——Browser Use!这可不是普通的浏览器,而是一个能让 AI 像人类一样操作浏览器的神奇工具!🎉 是的,你没听错,AI 可以帮你打开网页、填表单、抓取数据……简直是效率狂飙的神器!接下来就让我带你一探究竟!

软件亮点速览👀

  • 核心价值:Browser Use 是一个开源的 Python 库,它让 AI 代理能够轻松地与浏览器交互,实现各种自动化任务,比如数据抓取、Web 应用程序测试、自动化工作流程等。

  • 平台兼容性:基于 Python 的 Playwright 库构建,支持多种浏览器,包括 Chrome、Firefox 等。

  • 授权模式:开源免费,大家可以自由使用和贡献。

  • 版本信息:目前版本为 0.1.2。

  • 开源地址https://github.com/browser-use/browser-use🔗

功能详解🔍

核心功能模块

  • AI 驱动的自动化操作:Browser Use 提供高级接口,AI 可以通过自然语言描述命令来执行任务,比如“打开 5 个 Bing 网页”。

  • 多模态数据采集:它能同时抓取网页的 DOM 结构和视觉截图,让 AI 更全面地理解网页内容。

具体使用场景

  • 在线求职:自动在招聘网站上搜索机器学习职位,并将符合条件的职位保存到文件,然后自动开始申请。

  • 数据收集:可以快速抓取网页上的数据,比如从新闻网站抓取新闻标题和内容。

  • 自动化购物:自动将商品添加到购物车并完成结账。

创新特性

  • 多模态数据采集技术:相比传统工具,Browser Use 能同时获取网页的结构和视觉信息,让 AI 的操作更精准。

  • 简单易用的 API:即使是新手也能快速上手,按照文档中的快速开始指南,安装 Browser Use 并运行示例代码。

实践指南🛠️

安装步骤

  1. 安装 Python:确保你的设备上安装了 Python。

  2. 安装 Browser Use:在终端中运行以下命令:

    pip install browser-use

  3. 运行示例代码:查看 examples 文件夹中的示例代码,了解如何使用 Browser Use 执行各种 Web 任务。

  4. 以下是实际运行的测试代码, 模型建议使用google的api接口, 我使用ds接口,感觉太慢了, 其他的ollama接口也测试过都挺慢的, google的速度比较快。

from typing import List

from langchain_openai import ChatOpenAI

from langchaingooglegenai import ChatGoogleGenerativeAI
from browser_use import Agent, Controller
from browser_use import Agent, Browser, BrowserConfig
from pydantic import SecretStr
from dotenv import load_dotenv
load_dotenv()
import os

import asyncio

apikey = os.getenv(“DEEPSEEKAPI_KEY”)

apikey = os.getenv(“GEMINIAPI_KEY”)
print(api_key)

Initialize the model

llm=ChatOpenAI(baseurl=‘https://api.deepseek.com/v1’, model=‘deepseek-chat’, apikey=SecretStr(api_key))

llm = ChatGoogleGenerativeAI(model=‘gemini-2.0-flash-exp’, apikey=SecretStr(os.getenv(‘GEMINIAPI_KEY’)))
browser = Browser(
config=BrowserConfig(
# Specify the path to your Chrome executable
# headless=True,
# disable_security=True,
chromeinstancepath=‘C:\Program Files\Google\Chrome\Application\chrome.exe’, # macOS path
# For Windows, typically: ‘C:\Program Files\Google\Chrome\Application\chrome.exe’
# For Linux, typically: ‘/usr/bin/google-chrome’

)
)

task = """
1. 打开https://www.6vdy.cc/网站。
2. 列出当前页面所有的电影以及电影链接,要求电影的链接为完整的路径,不要相对路径,按照json格式输出。
"""
agent = Agent(
task=task,
llm=llm,
browser=browser,
use_vision=True
)
async def main():
result = await agent.run()
print(‘\n——————————–’)
print(result.final_result())
print(‘\n——————————–’)

asyncio.run(main())

效果如下:

环境要求

  • Python 版本:需要 Python 3.8 或更高版本。

  • 浏览器:支持 Chrome、Firefox 等主流浏览器。

常见问题解决

  • 安装失败:检查 Python 版本是否符合要求,或者尝试更新 pip。

  • 浏览器兼容性问题:确保浏览器版本是最新的,或者尝试切换浏览器。

效率提升🚀

个人效率实践

  • 快速获取信息:再也不用手动搜索和复制粘贴了,AI 可以直接帮你抓取网页上的数据10^。

  • 自动化繁琐任务:比如自动填写表单、自动回复邮件等,节省了大量时间。

团队协作应用

  • 数据共享更便捷:团队成员可以共享抓取的数据和自动化脚本,提高协作效率。

  • 任务分配更高效:AI 可以承担一些重复性任务,让团队成员专注于更有价值的工作。

最佳使用建议

  • 结合实际需求:根据自己的工作场景,选择合适的自动化任务。

  • 定期更新脚本:随着网页结构的变化,及时更新自动化脚本。

竞品对比🔍

功能差异

  • Browser Use:专注于 AI 驱动的浏览器自动化,功能强大且灵活。

  • 其他工具:比如 Selenium,虽然功能也很强大,但需要更多的代码编写。

性能评估

  • Browser Use:多模态数据采集技术让其在处理复杂网页时表现更出色。

  • 其他工具:在处理简单任务时性能相当,但在复杂任务中可能会出现兼容性问题。

价格对比

  • Browser Use:开源免费。

  • 其他工具:部分工具可能需要付费,尤其是商业版。

场景匹配

  • Browser Use:适合需要 AI 自动化操作的场景,如数据抓取、自动化测试等。

  • 其他工具:更适合传统的自动化测试和 Web 开发。

进阶技巧📚

高级使用方法

  • 自定义脚本:根据自己的需求编写自定义脚本,实现更复杂的自动化任务。

  • 与其他工具集成:可以与其他 AI 工具和框架集成,比如与 ChatGPT 结合,实现更智能的自动化。

效率提示

  • 定期优化脚本:随着网页结构的变化和需求的调整,定期优化脚本。

  • 合理安排任务:根据任务的复杂程度和优先级,合理安排自动化任务。

宝子们,Browser Use 真的是一个超级实用的工具!它不仅能让 AI 帮你操作浏览器,还能大大提高你的工作效率。无论是个人使用还是团队协作,都能发挥巨大的作用。如果你还在手动完成繁琐的浏览器任务,那Browser Use能让您解放出来。

评论

发表评论

validate