在最近的24个小时内,有2个开源的自然语言处理领域的开源预训练大模型发布。这两个模型都是类似GPT的Transformer模型,可以完成和ChatGPT类似的能力。最重要的是这2个模型完全开源!
小木 26尽管当前ChatGPT和GPT-4非常火热,但是高昂的训练成本和部署成本其实导致大部分个人、学术工作者以及中小企业难以去开发自己的模型。使得使用OpenAI的官方服务几乎成为了一种无可替代的选择。本文介绍的是一种低成本开发高效ChatGPT的思路,我认为它适合一些科研机构去做,也适合中小企业创新的方式。这里提到的思路涉及了一些最近发表的成果和业界的一些实践产出,大家可以参考!
小木 421今天下午,百度发布了文心一言大模型。这是一次对百度来说十分重要的发布会,也几乎是国内当前唯一一家将大模型作为一种大规模的服务推向市场的公司。本文主要介绍刚刚发布的文心一眼相关的能力。
小木 188ChatGLM-6B是清华大学知识工程和数据挖掘小组(Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University)发布的一个开源的对话机器人。根据官方介绍,这是一个千亿参数规模的中英文语言模型。并且对中文做了优化。本次开源的版本是其60亿参数的小规模版本,约60亿参数,本地部署仅需要6GB显存(INT4量化级别)。
小木 678PaLM全称Pathways Language Model,是谷歌在2022年4月份发布的自然语言预训练大模型(最高参数5400亿,PaLM模型卡信息:https://www.datalearner.com/ai-models/pretrained-models/PaLM )。而就在今天,Google CEO劈柴哥亲自宣布开放PaLM的商业API使用。
小木 343当前的自然语言处理预训练大模型展示了强大的能力,包括谷歌的PaLM、OpenAI的GPT系列以及最近很火热的ChatGPT等,都十分强大。但是,这些模型有2个明显的缺点:闭源和资源消耗大。斯坦福大学的研究人员发布了一个基于MetaAI开源的LLaMA微调的模型Stanford-Alpaca,该模型仅包含70亿参数,但是和OpenAI的1750亿参数的`text-davinci-003`水平差不多。
小木 697