DeepSeek-V2-MoE-236B-Chat
发布时间: 2024-05-06
128K tokens
聊天大模型
2024-05-06
472GB
输入不支持
输入不支持
输入不支持
输入不支持
输入不支持
输出不支持
输出不支持
输出不支持
输出不支持
输出不支持
幻方量化旗下大模型企业深度求索开源的全球最大规模的大语言模型,参数数量2360亿,是一个基于混合专家架构的模型,每次推理激活其中的210亿参数。
DeepSeek-V2-236B-Chat是在8.1万亿tokens数据集上训练得到,并且做过有监督微调和强化学习对齐的版本。
关注DataLearnerAI微信公众号,接受最新大模型资讯