数据学习
登录
注册
原创博客
期刊会议
学术世界
期刊出版社
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
领域期刊分区
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
高校期刊分区
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI领域与任务
AI研究机构
AI学术期刊
AI论文快讯
AI数据集
AI开源工具
AI模型
AI模型概览图
AI模型月报
AI基础大模型
AI预训练大模型
数据推荐
网址导航
我的网址导航
程序员必备网站
重磅!来自Google内部AI研究人员的焦虑:We Have No Moat And neither does OpenAI
标签:
#Google#
#OpenAI#
#开源模型#
时间:2023/05/05 07:21:47
作者:小木
5月4日,网络流传了一个所谓Google内部人员写的内部信,表达了Google和OpenAI这样的公司可能并不能在AI领域获得胜利的焦虑。里面说明了开源的AI模型发展迅速,不管是Google还是OpenAI都没有很好的护城河。 全文内容包含了大公司在AI投入的方向分析以及开源发展的分析,说明了为什么开源可能将会让Google或者OpenAI无法保持巨大优势的原因。里面提到了MetaAI开源的LLaMA模型的巨大作用,以及LM-SYS发布的Vicuna-13B所取得的优秀的性能与速度的平衡等。文末还分析了从2023年2月份开始,开源AI模型的重要发展事件,这些值得大家参考。本文记录它的中文翻译(翻译来自ChatGPT)。英文原文见文末的参考链接。 [TOC] ### 我们没有护城河,OpenAI 也没有 我们一直在关注OpenAI的动态,谁会跨越下一个里程碑?下一步是什么? 但不舒服的真相是,我们没有立足之地来赢得这场竞赛,OpenAI也没有。在我们争吵不休的时候,第三方却悄悄地在偷偷吃我们的午餐。 我说的当然是开源社区。直截了当地说,他们正在超越我们。我们认为的“重大开放问题”,今天已经得到解决并落入人们的手中。只是举几个例子: - 手机上的LLMs:人们正在Pixel 6上以5个令牌/秒的速度运行基础模型。 - 可扩展的个人AI:您可以在一晚上的时间内在笔记本电脑上微调个性化AI。 - 负责任的发布:这个问题不是“解决”得太多,而是“明显的”。有整个网站充满了没有任何限制的艺术模型,而文本也不远了。 - 多模态:当前的多模态ScienceQA SOTA在一个小时内进行了训练。 虽然我们的模型在质量方面仍然稍有优势,但差距正在惊人地迅速缩小。开源模型更快、更可定制、更私密,而且按磅计算更有能力。他们正在用100美元和13B个参数做我们花费1000万美元和540B个参数才能完成的事情。而且他们是在几周内而不是几个月内做到的。这对我们有深远的影响: - 我们没有秘密配方。我们最好的希望是从Google之外的人所做的事情中学习和合作。我们应该优先考虑启用第三方集成。 - 当有免费、不受限制的替代品在质量上与我们相当时,人们不会为受限制的模型付费。我们应该考虑我们真正的附加值在哪里。 - 巨型模型正在减缓我们的步伐。从长远来看,最好的模型是那些可以快速迭代的模型。现在我们知道在小于20B个参数的范围内可能发生什么,我们应该将小变体视为重要考虑因素,而不是唯一的思考方向。

#### 发生了什么 三月初,开源社区第一次获得了一款真正具备能力的基础模型,Meta的LLaMA泄露给了公众。它没有指令或对话调整,也没有强化学习或人类反馈。尽管如此,社区立即意识到他们所拥有的东西的重要性。 紧接着出现了大量的创新,主要是在几天内完成的(请查看时间表以获取完整的细节)。现在,才过去不到一个月,就已经有了具备指令调整、量化、质量改进、人类评估、多模态、强化学习和人类反馈等多种变体。其中许多变体是建立在彼此基础上的。 最重要的是,他们已经解决了规模化问题,以至于任何人都可以进行调试。许多新的想法都来自普通人。培训和实验的准入门槛从一个大型研究组织的全部输出降低到了一个人、一个晚上和一台高性能笔记本电脑。 #### 为什么我们本应看到这个趋势的出现 在很多方面,这对任何人来说都不应该是一个惊喜。开源LLM的当前复兴紧随图像生成的复兴之后。社区意识到这两者之间的相似之处,很多人称这是LLM的“稳定扩散时刻”。 在这两种情况下,低成本的公众参与是由于一种被称为低秩适应(LoRA)的大大降低了微调成本的机制,加上规模方面的重大突破(图像合成的latent diffusion和LLM的Chinchilla)所实现的。在这两种情况下,接触到足够高质量的模型触发了来自世界各地的个人和机构的想法和迭代。在这两种情况下,这很快就超越了大型玩家。 这些贡献在图像生成领域起了关键作用,使得Stable Diffusion和Dall-E走上了不同的道路。拥有一个开放的模型导致了产品集成、市场、用户界面和创新,这在Dall-E中并没有发生。 影响是明显的:在文化影响方面,Stable Diffusion比OpenAI的解决方案快速占据了主导地位,后者变得越来越不相关。是否会发生同样的事情对于LLMs来说还有待观察,但是基本结构上的元素是相同的。 #### 我们错过了什么? 我们错过的是,驱动开源最近成功的创新直接解决了我们仍在努力解决的问题。更多关注他们的工作可能会帮助我们避免重复造轮子。 LoRA是一种非常强大的技术,我们可能应该更加关注它。LoRA通过将模型更新表示为低秩分解来工作,这将更新矩阵的大小降低了数千倍。这使得模型微调的成本和时间大大降低。在消费级硬件上在几个小时内个性化一个语言模型是一件大事,特别是对于涉及近实时整合新的和多样化的知识的抱负来说。虽然这项技术直接影响我们最雄心勃勃的项目之一,但这项技术存在而在谷歌内部却未得到充分利用。 #### 重新训练模型是一条艰难的道路 LoRA之所以如此有效,部分原因在于它像其他形式的微调一样是可堆叠的。例如,像指令微调这样的改进可以应用并作为其他贡献者添加的对话、推理或工具使用的基础。虽然单个微调是低秩的,但它们的总和不需要是低秩的,从而允许模型的全秩更新随时间累积。 这意味着,随着新的和更好的数据集和任务变得可用,模型可以廉价地保持最新状态,而不必支付全面运行的代价。 相比之下,从头开始训练巨型模型不仅会丢弃预训练,还会丢弃在其之上进行的任何迭代改进。在开源世界中,这些改进很快就会占据主导地位,使得全面重新训练的成本非常高昂。 因此,我们应该深思熟虑,是否每个新的应用程序或想法都真的需要一个全新的模型。如果我们真的有重大的架构改进,使得无法直接重用模型权重,那么我们应该投资于更积极的蒸馏形式,以尽可能地保留前一代的能力。 #### 大模型并不在长期内更具备能力,如果我们可以更快地迭代小模型的话 LoRA更新非常便宜(最受欢迎的模型尺寸约为100美元),几乎任何有想法的人都可以生成并分发。训练时间不到一天往往是正常的。在这样的速度下,不久就会有所有这些微调的累积效应克服了从一个尺寸劣势开始的情况。事实上,就工程师小时数而言,这些模型的改进速度远远超过我们最大的变体所能做到的,而最好的模型已经在很大程度上难以区分ChatGPT。将精力集中在维护全球最大的模型实际上会让我们处于劣势。 #### 数据质量比数据大小更具可扩展性 许多这样的项目通过在小型、高度筛选的数据集上进行训练来节省时间。这表明数据缩放定律存在某种灵活性。这些数据集的存在是由Data Doesn't Do What You Think中的思路引出的,并且它们正在迅速成为谷歌以外的训练标准方法。这些数据集使用合成方法构建(例如,从现有模型中筛选出最佳响应)并从其他项目中捕捉,而这两者在谷歌都不占主导地位。幸运的是,这些高质量的数据集是开源的,因此可以免费使用。 #### 直接与开源竞争是失败的主张 这些最近的进展直接、立即影响到我们的商业策略。如果存在一个没有使用限制的免费高质量替代品,谁还会为带有使用限制的 Google 产品买单呢? 而且我们不应该期望能够追赶上去。现代互联网以开源为基础有其原因。开源具有我们无法复制的显著优势。 #### 我们需要他们,而他们并不需要我们 保守我们的技术优势一直都是一个脆弱的主张。Google 的研究人员以固定的速度流失到其他公司,因此我们可以假设他们知道我们所知道的一切,并且将在管道保持开放的时间内继续了解。但是,现在通过对 LLM 的前沿研究进行了经济实惠的投入,保持技术上的竞争优势变得更加困难。全世界的研究机构正在共同建立自己的研究工作,用广度优先的方式探索解决方案空间,远远超出了我们自己的能力。我们可以试图牢牢抓住我们的秘密,而在外部创新稀释其价值,或者我们可以试图相互学习。 #### 个人不受许可证的限制程度与公司不同 许多这样的创新是在 Meta 泄露的模型权重的基础上进行的。虽然随着真正开放的模型变得更好,这种情况不可避免地会改变,但重点是他们不必等待。个人获取这些技术的合法保护是“个人使用”,而个人被起诉的不切实际性意味着,他们可以在这些技术炙手可热时获得这些技术。 #### 自己成为自己的客户意味着你理解使用情境 浏览人们在图像生成领域中所创建的模型,可以看到一股巨大的创造力涌动,从动漫生成器到HDR景观等应有尽有。这些模型被那些深度沉浸在特定子领域的人所使用和创建,这些人拥有我们难以匹敌的知识深度和共情能力。 #### 拥有生态系统:让开源为我们服务 具有讽刺意味的是,所有这一切中唯一的明显赢家是 Meta。因为泄露的模型是他们的,他们有效地获得了全球的免费劳动力。由于大多数开源创新是在他们的架构之上发生的,他们可以直接将其纳入他们的产品中。 拥有生态系统的价值不言而喻。Google自身已经成功地在其开源产品中使用了这种范例,例如Chrome和Android。通过拥有创新发生的平台,Google巩固了自己的领导地位和方向指引者的地位,赢得了塑造超越自身的想法叙事的能力。 我们控制模型的程度越高,开源替代方案就越具有吸引力。Google和OpenAI都采取了防御性的发布模式,以便他们能够保持对模型的紧密控制。但这种控制是虚构的。任何想要将LLMs用于未经授权的目的的人都可以自由选择可用的模型。 Google应该确立自己在开源社区中的领导地位,通过与更广泛的讨论合作,而不是忽视它。这可能意味着采取一些不舒服的步骤,例如发布小型ULM变体的模型权重。这必然意味着放弃我们对模型的一些控制。但这种妥协是不可避免的。我们不能希望既推动创新又控制创新。 #### 结语:那 OpenAI 呢? 所有这些关于开源的讨论可能会让 OpenAI 的封闭政策显得不公平。如果他们不公开,为什么我们要共享呢?但事实是,我们已经通过不断流失的高级研究人员在以某种形式与他们分享一切。除非我们阻止这种人才流失,否则保密是没有意义的。 最终,OpenAI 不重要。他们在与开源相关的姿态上犯了和我们一样的错误,他们的保持优势的能力必然受到质疑。除非他们改变立场,否则开源替代品终将超越他们。至少在这方面,我们可以先行一步。 #### 重大开源模型发展时间线 ##### 2023年2月24日 - LLaMA发布 Meta发布LLaMA,开放代码但不包括权重。此时,LLaMA还没有进行指令或会话调整。像许多当前的模型一样,它是一个相对较小的模型(提供7B、13B、33B和65B参数),但经过相对较长时间的训练,因此相对其大小而言非常有能力。 ##### 2023年3月3日 - 不可避免的事件发生 在一周内,LLaMA泄露到公众手中。对社区的影响不容忽视。现有许可证防止它被用于商业目的,但突然间任何人都能够进行实验。从这一点开始,创新快速而艰难地发生。 ##### 2023年3月12日 - 可以在烤面包机上运行的语言模型 一周多一点时间后,Artem Andreenko让这个模型在树莓派上运行起来。此时,模型运行速度太慢,无法实用,因为必须将权重分页进出内存。尽管如此,这为大量微型化工作铺平了道路。 ##### 2023年3月13日 - 在笔记本电脑上进行微调 第二天,斯坦福大学发布了Alpaca,该模型添加了指令调整到LLaMA。然而,比实际权重更重要的是Eric Wang的alpaca-lora repo,该repo使用低秩微调在“单个RTX 4090上几个小时内进行训练”。 突然之间,任何人都可以对模型进行微调,以实现任何目的,引发了低成本微调项目的激烈竞争。论文自豪地描述了他们的总花费为几百美元。更重要的是,低秩更新可以轻松地分发并单独于原始权重,使它们独立于来自Meta的原始许可证。任何人都可以共享和应用它们。 ##### 3月18日,2023年 - 现在它很快了 Georgi Gerganov使用4位量化在MacBook CPU上运行LLaMA。这是第一个足够快且实用的“无GPU”解决方案。 ##### 3月19日,2023年 - 一个13B的模型与Bard实现了“平衡点” 次日,一项跨大学的合作发布了Vicuna,并使用基于GPT-4的评估提供了模型输出的定性比较。尽管评估方法有问题,但该模型比早期变体显著改进。培训成本:300美元。 值得注意的是,他们能够使用ChatGPT的数据,同时绕过其API的限制-他们只是从像ShareGPT这样的网站中抽样“令人印象深刻”的ChatGPT对话示例。 ##### 3月25日,2023年 - 选择自己的模型 Nomic创建了GPT4All,这既是一个模型,更重要的是,也是一个生态系统。我们首次看到模型(包括Vicuna)被聚集在一个地方。培训成本:100美元。 ##### 3月28日,2023年 - 开源GPT-3 Cerebras(不要与我们自己的Cerebra混淆)使用Chinchilla暗示的最佳计算时间表和μ参数化暗示的最佳缩放来训练GPT-3架构。这比现有的GPT-3克隆表现得更好,也代表了μ参数化“在野外”的第一个确认使用。这些模型是从头开始训练的,这意味着社区不再依赖LLaMA。 ##### 2023年4月15日 - 在ChatGPT水平上开源RLHF Open Assistant发布了一个模型和一个通过RLHF进行对齐的数据集。他们的模型在人类偏好方面与ChatGPT非常接近(48.3%对51.7%)。除了LLaMA外,他们还展示了这个数据集可以应用于Pythia-12B,让人们有选择使用完全开放的堆栈来运行模型。此外,由于该数据集是公开可用的,因此将RLHF从难以实现变得简单易行,适用于小型实验者。 本文原文:https://www.semianalysis.com/p/google-we-have-no-moat-and-neither
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客
最热博客