当前的自然语言处理预训练大模型展示了强大的能力,包括谷歌的PaLM、OpenAI的GPT系列以及最近很火热的ChatGPT等,都十分强大。但是,这些模型有2个明显的缺点:闭源和资源消耗大。斯坦福大学的研究人员发布了一个基于MetaAI开源的LLaMA微调的模型Stanford-Alpaca,该模型仅包含70亿参数,但是和OpenAI的1750亿参数的`text-davinci-003`水平差不多。
小木 699字节对编码(Byte Pair Encoder,BPE),又叫digram coding,是一种在自然语言处理领域经常使用的数据压缩算法。在GPT系列模型中都有用到。主要是将数据中最常连续出现的字节(bytes)替换成数据中没有出现的字节的方法。该算法首先由Philip Gage在1994年提出。在这篇博客中我们将简单介绍一下这个方法。
小木 557昨天,卡地夫大学的NLP研究小组CardiffNLP发布了一个全新的NLP处理Python库——TweetNLP,这是一个完全基于推文训练的NLP的Python库。它提供了一组非常实用的NLP工具,可以做推文的情感分析、emoji预测、命名实体识别等。
小木 816