ChatGPT开源

Salesforce开源XGen-7B

1.5万亿训练数据,8000输入长度,可商业化!Salesforce开源XGen-7B

全球排名第一CRM厂商Salesforce开源了,70亿参数的类ChatGPT大语言模型XGen-7B。
(开源地址:https://github.com/salesforce/xgen
XGen主要亮点功能包括:支持超长8000内容输入长度,同类开源产品多数都在2000左右;在1.5万亿tokens数据集上进行训练,Salesforce认为,参数并不是提升大语言模型性能的唯一标准,在海量优质数据上进行训练同样非常重要;
除了文本、还支持多种代码生成;资源消耗低性能强大,支持Apache-2.0允许商业化。目前,XGen推出了4K、8K两个商业化版,以及8K指令微调(只能用于技术研究)版本。

相关导航