标签:Google DeepMind,大模型,长上下文窗口,AI技术,机器学习 时间:2024-02-19T17:15:19
在最近的技术博客中,Google DeepMind团队宣布了其下一代模型Gemini 1.5的发布。这款模型不仅在速度和效率上有显著提升,更引入了一个革命性的特性——长上下文窗口。本文将深入探讨长上下文窗口的概念、重要性以及这一突破性特性如何帮助开发者。
长上下文窗口是指AI模型在一次处理中能够回忆和处理的信息量——即令牌(tokens)的数量。令牌是构成信息的最小单元,可以是单词的一部分、图像、视频等。长上下文窗口对AI模型来说至关重要,因为它们帮助模型在会话中回忆信息,就像人类在交谈中记住对方的名字或者刚刚听到的电话号码一样。
Gemini 1.5的前身最多能处理32,000个令牌,而1.5 Pro——我们发布的首个1.5模型,用于早期测试——其上下文窗口高达100万个令牌,是迄今为止所有大规模基础模型中最长的上下文窗口。事实上,研究团队甚至在研究中成功测试了高达1000万个令牌。上下文窗口越长,模型能够接收和处理的文本、图像、音频、代码或视频就越多。
Google DeepMind的研究科学家Nikolay Savinov表示,最初的目标是实现128,000个令牌的上下文,他提议将目标设为100万个令牌,而现在研究已经超过了这个目标的10倍。为了实现这一飞跃,团队进行了一系列深度学习的创新。工程师Denis Teplyashin解释说,一项突破带来了另一项突破,每一项都开辟了新的可能性,当它们叠加在一起时,团队惊讶地发现了模型的新能力。
1.5 Pro能够处理的原始数据为模型与用户的交互开辟了全新的方式。例如,它可以一次性总结数千页长的文档,分析数万行代码。研究科学家Machel Reid分享了一些测试案例,包括模型为整个代码库编写文档,以及在观看完整部45分钟的电影《夏洛克·福尔摩斯》后,能够准确回答有关电影的问题。
1.5 Pro还能够跨数据进行推理。Machel提到了一个有关Kalamang语言的例子——这是一种世界上不到200人使用的稀有语言,模型在提供了一整套语法手册和一些例句后,能够学会将英语翻译成Kalamang语,水平相当于人类从同样内容学习。
目前,1.5 Pro标配128K令牌的上下文窗口,但限定的开发者群体和企业客户可以通过AI Studio和Vertex AI以私有预览的形式尝试高达100万令牌的上下文窗口。完整的100万令牌上下文窗口在计算上非常密集,团队正在积极优化以提高响应速度,并计划在未来进行扩展。
团队还在不断努力使模型更快更高效,并以安全为核心。他们还在寻求进一步扩展长上下文窗口,改进底层架构,并整合新的硬件改进。Nikolay表示,目前模型已经接近Tensor Processing Units的热限,未来随着硬件的持续改进,模型可能会有更大的潜力。
团队对于开发者和更广泛社区能够实现的体验感到兴奋。Machel表示,当他第一次看到模型拥有100万个令牌的上下文时,他的第一个问题是:“这能用来做什么?”但现在,人们的想象力正在扩展,他们将找到越来越多创新的方式来使用这些新能力。
导致Sam离职风波背后的OpenAI最近的技术突破——Q*项目信息汇总
DataLearnerAI发布中国国产开源大模型生态概览统计:国产开源大模型都有哪些?现状如何?
大模型泛化能力详解:大模型泛化能力分类、泛化能力来源和泛化研究的方向
大模型如何使用长上下文信息?斯坦福大学最新论文证明,你需要将重要的信息放在输入的开始或者结尾处!
需要多少GPU显存才能运行预训练大语言模型?大语言模型参数规模与显存大小的关系估算方法~
又一个国产开源大模型发布:前腾讯创始人创业公司元象发布XVERSE-13B,超过Baichuan-13B,与ChatGLM2-12B齐平!但免费商用授权!
国产开源大模型再添重要玩家:BAAI发布开源可商用大模型Aquila
目前业界支持中文大语言模型开源和商用许可协议总结
百度文心一言发布,功能尝鲜概览
能否用85000美元从头开始训练一个打败ChatGPT的模型,并在浏览器中运行?
7种交叉验证(Cross-validation)技术简介(附代码示例)
目前正在举办的机器学习相关的比赛
2021年适合初学者的10个最佳机器学习在线课程
最流行的用于预测的机器学习算法简介及其优缺点说明
隐马尔科夫模型及其在NLP中的应用指南
关于机器学习理论和实践的信息图
工业蒸汽量预测-特征工程
亚马逊最新发布Feature Store简介
Scikit-Learn最新更新简介
100天搞定机器学习(100-Days-Of-ML)(一)数据预处理
Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
回归模型中的交互项简介(Interactions in Regression)
贝塔分布(Beta Distribution)简介及其应用
矩母函数简介(Moment-generating function)
使用R语言进行K-means聚类并分析结果
普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
H5文件简介和使用
深度学习技巧之Early Stopping(早停法)
手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署
Wishart分布简介