今天AI圈又迎来一件大事:Meta正式发布他们迄今最强的新一代开源大语言模型Llama3。
首批发布的Llama3 8B和Llama3 70B包括预训练和指令微调版本,8K上下文,在两个24K GPU定制集群上使用15万亿tokens数据训练而成,Meta称它们分别是80亿和700亿参数上最好的模型。同时一个参数超过400B的“最大Llama3”也在训练中,社区认为这个模型更恐怖,极有可能超过当前的闭源王者GPT-4 Turbo。
Llama3在各种行业基准测试中表现惊艳,广泛支持各种场景。接下来几个月,Meta将陆续引入新的功能,包括多语言对话、多模态、更长的上下文和更强的整体核心性能,并将与社区分享研究论文。
Meta表示,新一代Llama3在Llama2 的基础上有了重大飞跃,确立LLM的新标准。在预训练和后训练过程上的改进大大降低了错误拒绝率,提高了一致性,并增加了模型响应的多样性。在推理、代码生成和指令遵循等方面都得到了极大改善,使得Llama3更加可控。