模型详细情况和参数
h2oGPT是H2O公司开源的一个类似ChatGPT的应用。是基于EleutherAI发布的GPT-NeoX-20b模型微调的结果。使用的是H2O自己收集的数据集。
h2oGPT的最大特点是具有完全宽松、商业可用的代码、数据和模型。
使用的是h2ogpt-oig-oasst1-instruct-cleaned-v1数据集做微调。H2O.ai 的 h2ogpt-oig-oasst1-instruct-cleaned-v1 是一个用于大型语言模型微调的开源指导类型数据集,可用于商业用途,包含349837条数据,共575MB。数据集的每一条有3列,分别是输入、来源和prompt_type。数据样例如下:
数据集地址:https://huggingface.co/datasets/h2oai/h2ogpt-oig-oasst1-instruct-cleaned-v1