WebLlama：基于Llama的Web智能助手新进展

标签：WebLlama,Llama,Web智能助手,人工智能,自然语言处理时间：2024-04-25T14:43:08

<h2 id="h2-webllama-"><a name="WebLlama项目简介" class="reference-link"></a>WebLlama项目简介</h2>WebLlama是一个致力于构建高效人性化Web浏览智能助手的新项目。该项目的目标不是取代用户，而是为用户配备强大的智能助手。项目主要包含以下几个方面：
<ol>
<li>建模：在最先进的库的基础上，为Llama智能体训练Web导航任务。提供训练脚本、优化配置以及训练尖端Llama模型的说明。</li><li>评估：为在真实Web浏览场景中测试Llama模型提供基准，包括通过对话进行以人为本的浏览（WebLINX），很快还会增加更多自动Web导航的基准（如Mind2Web）。 </li><li>数据：第一个模型在超过24K个Web交互实例上进行了微调，包括点击、文本输入、提交和对话行为。希望不断策划、编译和发布数据集，以训练更好的智能体。</li><li>部署：希望让Llama模型与现有的部署平台（包括Playwright、Selenium和BrowserGym）轻松集成。目前正致力于实现这一目标。</li></ol>
<h2 id="h2-llama-3-8b-web-"><a name="Llama-3-8B-Web行动模型" class="reference-link"></a>Llama-3-8B-Web行动模型</h2>WebLlama项目发布了一个名为Llama-3-8B-Web的强大行动模型，用于构建可以遵循指令并与用户对话的Web智能体。该模型在超过24K个Web交互实例上进行了微调，包括点击、文本输入、提交和对话行为。
Llama-3-8B-Web模型在WebLINX基准测试中表现出色，优于零样本GPT-4V（添加了屏幕截图，因为它支持视觉）和其他微调模型（使用API的GPT-3.5、在Mind2Web上训练的MindAct，也在WebLINX上进行了微调）。下图显示了各模型的性能对比：
<img src="https://preview.redd.it/dazir7pnt5wc1.jpeg?width=1600&format=pjpg&auto=webp&s=ee014471b3565bda4db5fa4ec411a4c1b55fbd7e" alt="Llama-3-8B-Web Performance">
总分是IoU（针对目标元素的操作）和F1（针对文本/URL）的组合。这里的29%直观地告诉我们模型在现实世界中的表现如何，显然不需要100%才能获得一个好的智能体，但如果一个智能体获得100%，那肯定会很棒！
<h2 id="h2-u672Au6765u5C55u671B"><a name="未来展望" class="reference-link"></a>未来展望</h2>WebLlama项目的潜力对于本地使用来说可能会非常大，因为使用本地托管的模型执行任务可能会更好，你可以轻松审核，而不是使用公司提供的智能体，后者运行成本高、延迟高，而且可能不太安全/私密，因为它可以访问你的整个浏览历史。
接下来，WebLlama项目计划将行动模型与BrowserGym或Playwright等部署平台集成。此外，还将持续策划、编译和发布数据集，以训练更好的智能体，并增加更多自动Web导航的评估基准。
WebLlama项目的目标是打造高效人性化的Web浏览智能助手，相信随着项目的不断发展和完善，必将为人们的Web浏览体验带来革命性的变化。让我们拭目以待！

WebLlama：基于Llama的Web智能助手新进展

欢迎大家关注DataLearner官方微信，接受最新的AI技术推送

相关博客

最热博客