查看原文
其他

新晋开源顶流模型 Llama 3.1 被开发者赞爆!小扎拿苹果“开刀”反对闭源厂商:AI 不要“苹果税”!

InfoQ
2024-09-16

整理 | 褚杏娟、核子可乐

“如今,几家科技公司正在开发领先的闭源模型,但开源正在迅速缩小差距。”Meta 首席执行官马克·扎克伯格说道,“今年,Llama 3 与最先进的模型相媲美,并在某些领域处于领先地位。”

给扎克伯格底气的就是刚刚正式发布的第一个前沿级开源模型 Llama 3.1。这套最新模型的上下文长度扩展至 128K,新增对 8 种语言的支持。其中,Llama 3.1 405 B 具有超强的灵活性、控制力和功能,“足以与最强大的闭源模型相媲美。”这套新模型将帮助 AI 社区解锁新的工作流程,例如合成数据生成与模型蒸馏。

作为新版本的一部分,Meta 还为此前的 8B 及 70B 模型发布了升级版本。Meta 还对模型许可证进行了更改,允许开发人员使用 Llama 模型(包括 405B 在内)的输出以改进其他模型。为了履行开源承诺,,Meta 宣布从即日起将这些模型开放给整个社区:

Meta Llama:https://llama.meta.com/

Hugging Face:https://huggingface.co/collections/meta-llama/llama-31-669fc079a0c406a149a5738f

“405 B 模型的发布,是第一次所有人都可以访问和构建具有前沿能力的大语言模型。该模型似乎达到了 GPT-4/Claude 3.5 Sonnet 的水平,其权重是开放的,并具有许可证,包括商业用途、合成数据生成、蒸馏和微调。这是 Meta 发布的第一个真正的、开放的、具有前沿能力的大语言模型。”OpenAI 创始成员、前研究科学家 Andrej Karpathy 评价道。

“Llama 3.1 405B 可与最好的 GPT 4o 和 Claude Sonnet 3.5 直接竞争。现在 Meta 可以同时拥有性能和 Dota 主权。”Fossil CEO 兼创始人 Tim Kellogg 说道。

Meta 表示,最新一代 Llama 将激发出新的应用程序与建模范式,包括合成数据生成,以用于改进和训练小体量模型;此外还包含模型蒸馏功能,这也填充了开源领域大规模蒸馏功能的空白。

备受称赞的 Llama 3.1 405B

作为 Meta 旗下迄今为止最大的模型,在超过 15 万亿个 token 上训练 Llama 3.1 405B 是一项重大挑战。为了能够以这种规模开展训练,并在合理的时间内取得成果,Meta 显著优化了整个训练栈,并将实际模型训练任务交给超过 1.6 万张 H100 GPU。这也使得 405 B 成为首个以这种规模训练的 Llama 模型。

为了解决现实难题,Meta 在设计层面做出权衡,着力保持模型开发过程的可扩展性与简单性。

  • Meta 选择了标准的纯解码器 transformer 模型架构,同时做出微调,以此替代市面上常见的混合专家模型,希望借此最大限度提高训练稳定性。

  • Meta 采用了迭代后训练程序,其中每个轮次都采用监督微调加直接偏好优化的方法。这使得 Meta 能够为每个轮次创建出最高质量的合成数据,并提高每功能的实际性能。

相较于此前已经亮相的各 Llama 版本,Meta 改进了训练前与训练后所使用的数据规模与质量,具体改进包括为训练前数据开发更细致的预处理与管理管线、制定更严格的质量保证体系,以及针对训练后数据的过滤方法。

为了支持 405B 参数模型的大规模生产推理需求,Meta 将模型从 16 位(BF16)量化为 8 位(FP8)数值精度,从而有效降低了相应计算要求,允许模型在单一服务器节点之内运行。

通过 Llama 3.1 405B,Meta 希望努力提高模型对于用户指令的适用性、响应质量与详尽的指令遵循能力,同时确保安全性更上一层楼。Meta 面临的最大挑战在于如何支持更多功能、更长的 128K 上下文窗口以及更大的模型体量。

在训练之后,Meta 通过在预训练模型的基础之上执行多轮对齐以生成最终聊天模型。每个轮次都涉及监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。Meta 使用合成数据生成来提供绝大部分监督微调示例,并进行多轮迭代以生成涵盖所有功能且质量更高的合成数据。此外,Meta 还在多种数据处理技术上进行投入,尝试以过滤方式提高合成数据的质量,最终成功扩展了跨多种功能的微调数据量。

Meta 平衡了数据构成以建立起能够涵盖所有功能的高质量模型。例如,即使将上下文窗口扩展至 128K,Meta 也仍保持了模型在短上下文基准上的质量。同样,在引入安全缓解措施之后,新版本模型也仍可继续提供最具实效、能够满足用户需求的答案。

Meta 还发布了一份 92 页的 Llama 3 相关的论文,此时应该还有很多开发者正在研究里面的一些细节,已经读过的开发者也对这份论文表示称赞。

在 x 担任 SWE 的 kache 发文称:“阅读 Meta Llama 3.1 论文中关于基础设施的部分,以及他们为了解决这个规模的所有工程问题,实际上让我感到痛苦。重要的资产不是你创建的模型,而是基础设施的工程实力。如果你也能像这样做一次训练运行,你就可以做得更多。这是一个独一无二的资产,是一条护城河。”马斯克回复他:是的,这是一次痛苦的训练。

kache 还提到,“扎克伯格对苹果的看法确实很正确:他们树敌多少,还能继续生存下去吗?”马斯克也跟帖称:“说实话,我也是这么想的。”

看得出来,马斯克对扎克伯格是赞同的,“这令人印象深刻,扎克伯格确实因开源而受到赞扬”他在回复 Karpathy 的帖子中提到。

想要查看更多技术细节的读者可以查看:
https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

Meta 评估了 150 多项涵盖多个语种的基准数据集性能。此外,Meta 还开展了广泛的人工评估,将 Llama 3.1 与现实场景中的同类竞争模型进行了比较。评估结果表明,Meta 的旗舰模型在一系列任务中与领先基础模型相比具备竞争力,包括 GPT-4、GPT4o 以及 Claude 3.5 Sonnet。此外,Meta 的小模型在参数规模相当的其他封闭与开放模型当中,也同样具有强劲的竞争力。

此外,Meta 强调 Llama 模型始终作为整体系统的一部分发挥作用。Llama 系统能够协调多种组件,包括调用外部工具。Meta 还发布了一套完整的参考系统,其中包含多个示例应用程序。此外还有新的组件,例如 Llama Guard 3(多语言安全模型)和 Prompt Guard(提示词注入过滤器)。这些示例应用程序同样属于开源成果,可供社区做进一步构建。

与封闭模型不同,Llama 模型权重对外开放下载。开发人员可以根据自身需求和应用场景对模型进行全面自定义,在新数据集之上进行训练,并开展额外的微调。开发人员可以完全自定义自己的应用程序并在任意环境下运行,包括本地、云端,甚至是本地运行在笔记本电脑之上——所有这些都无需与 Meta 共享数据。

Groq 首席执行官兼创始人 Jonathan Ross 演示了 Llama 3.1 和 Groq 芯片结合的速度:

Kindo 产品副总裁 Andrew "Andy" Manoske 称,“使用 ollama 在 OpenDevin 上本地运行 llama 3.1 ,但是它耗尽了我的 VRAM。也许该买一台新笔记本电脑了!”

还有网友 nicekate 测试了 Llama 3.1 8B 的指令遵循情况,结论是“对比 Gemma2-9b-It,llama 3.1 8B 更好”。“测试用的我前两天做的单词关联应用,都是接入的 Groq,用 Gemma2-9b-It 运行结果显示例子和记忆技巧里一会是中文,一会是英文,不遵循我的提示。但是今天改用 llama 3.1 8B 和 70B,情况好了很多,让它中文解释,它都遵循了。”

有资深开源专家表示,“觉得 Meta 开源这么大一个模型是巨大的财务浪费? Llama3.1-405B 的成本也只有拍一部豆瓣评分不会到 7 的电影的三分之一。”

扎克伯格长文论辩为何坚持开源

“经常有人问我是否担心开源 Llama 会丢掉技术优势,我认为这是因为他们没有从大局方面考虑。”扎克伯格解释道,为了确保 Meta 能够使用最好的技术,并且不会长期被困在封闭的生态系统中,Llama 需要发展成为一个囊括工具、效率改进、芯片优化和其他集成的完整生态系统。

扎克伯格还指出,Meta 与闭源模型厂商之间的一个关键区别是,Meta 不靠出售 AI 模型访问权盈利,Meta 的商业模式是为人们打造最佳体验和服务。“这意味着公开发布 Llama 不会让我们的收入、可持续性和投资研究能力,像闭源厂商那样被削弱(这是一些闭源厂商不断游说政府反对开源的原因之一)。”

扎克伯格以自身经历为例说道,“我的一个重要经历是,我们在苹果平台上构建服务时会受到限制。从他们对开发者的征税方式、施加的任意规则以及阻止发布的所有产品创新行为看,很明显,如果 Meta 和其他许多公司能够构建自己产品的最佳版本,而竞争对手无法限制构建的内容,我们将能够为人们构建更好的服务。”

扎克伯格也提到自己在与世界各地的开发商、CEO 和政府官员交谈时了解到的开发者侧的需求:需要训练、微调和提炼自己的模型;需要自主掌控,而不是被一家封闭的供应商束缚;需要保护数据;需要一个高效且运行成本低廉的模型;希望投资于将成为长期标准的生态系统,而这些问题的答案,扎克伯格认为就是开源。

“开源将确保全世界更多的人能够享受 AI 带来的好处和机会,权力不会集中在少数公司手中,并且该技术可以更均匀、更安全地应用于整个社会。”扎克伯格说道。

这次扎克伯格的这次发文也赢得了很多开发者的赞同,为此,我们将其《开源人工智能——AI 发展的正确方向》原文附在下面:

在高性能计算时代早期,当时各大科技巨头都砸下重金希望开发自己的闭源版 Unix。当时我们很难想象还有什么其他方法能够开发出如此先进的软件产品。但最终,开源 Linux 还是获得了广泛普及——其最初的应用动力,主要是允许开发者随意修改其代码,而且使用成本也更为实惠。但随着时间推移,这个开源软件项目变得愈发先进、更加安全,而且有着比任何闭源 Unix 都更丰富的功能和更广泛的生态系统。现如今,Linux 已然成为云计算和大部分移动设备操作系统的行业标准和实现基础,让每个人都有机会体验到代表时代前沿的卓越软件成果。

Meta 坚信 AI 也会以类似的方式一路前行。当下,多家科技企业正在开发领先的闭源模型,但开源与其差距正在迅速缩小。去年,Llama 2 还仅与已显落后的上一代模型水平相当。时间来到今年,Llama 3 已经能够与最先进的闭源模型相媲美,甚至在某些领域实现了反超。从明年开始,我们预计后续 Llama 模型将成为业内最先进的大模型代表。而且哪怕是在当下,Llama 也已经在开放性、可修改性和成本效益等方面处于领先地位。

如今,Meta 正朝着开源 AI 成为行业标准的目标迈出坚实的又一步。Meta 正式发布首个前沿级开源 AI 模型 Llama 3.1 405B,以及经过改进的 Llama 3.1 70B 与 8B 模型。除了具有远胜封闭模型的成本 / 性能之外,405B 模型的开放性特质也使其成为微调和蒸馏小体量模型的最佳选择。

除了发布这些模型之外,Meta 还与多家企业开展合作,以期建立起更广泛的生态系统。亚马逊、Databricks 以及英伟达正着手发布配套服务,以支持开发人员微调和蒸馏自己的模型。Groq 等初创企业则为新的 Llama 家族成员建立起低延迟、低成本的推理服务。这些模型将登陆所有主要云服务平台,包括亚马逊云科技、Azure、Google 和 Oracle 等。Scale.AI、戴尔、德勤等公司也已做好准备,将帮助企业客户采用 Llama 模型并利用自有数据训练出定制化版本。随着社区的发展以及更多公司为此开发新服务,各方将共同推动 Llama 成为行业标准,让每个人都能享受到 AI 带来的切实助益。

Meta 致力于推动 AI 开源。本文将具体介绍开源为何是最适合广大用户的开发技术栈,开源 Llama 对于 Meta 自身的好处,以及开源 AI 为何有助于创造一个更美好的世界,并发展成一套持续创新、活力永驻的技术平台。

开源 AI 给开发人员带来的好处

在与世界各地的开发人员、CEO 和政府官员们交流时,他们往往高度关注以下几个议题:

  • 我们需要训练、微调和蒸馏自己的模型。每个组织的需求各不相同,最好使用不同体量的模型来满足这些需求,且各个模型应使用特定数据进行训练和微调。设备端的任务及分类任务更适合采用小模型,而较为复杂的任务则需要规模更大的模型。现在,我们可以采用最先进的 Llama 模型,且继续使用自有数据对其进行训练,而后将成果蒸馏为最佳大小的模型——Meta 或任何其他人都无法查看您的数据。

  • 我们需要掌控自己的命运,而不愿被锁定在封闭供应商身上。许多组织不想将业务命脉锁定在自己无法运行和控制在模型之上。他们不愿封闭模型提供商随意更改自己的模型、变更其使用条款,甚至完全停止为他们提供服务。他们也不希望被锁定在拥有模型专有权的特定云环境当中。开源使得涵盖兼容工具链的广泛商业生态成为可能,用户可以轻松在这些工具链之间往来切换。

  • 我们需要保护自己的数据。许多组织处理的是需要严格保护的敏感数据,因此无法通过云 API 将其发送至封闭模型。也有一些组织根本不信任将自己的数据交由封闭模型提供商来处理。开源允许用户在任意位置运行模型,因此有效解决了这些现实难题。人们普遍认为开源软件的开发流程更加透明,因此相关成果往往更加安全可靠。

  • 我们需要一种高效且运行成本低廉的模型。开发人员可以在自己的基础设施之上使用 Llama 3.1 405B 进行推理,成本约为使用 GPT-4o 等封闭模型的一半(无论是面向用户还是离线推理任务)。

  • 我们希望投资于能够发展为长期标准的生态系统。很多人意识到开源 AI 的发展速度比封闭模型更快,因此希望在能为自己带来最大长期优势的架构之上打造自己的系统。

    开源 AI 给 Meta 自身带来的好处

Meta 的商业模式,就是为用户打造最出色的体验和服务。要实现这个目标,Meta 公司必须确保自身始终掌握最好的技术手段,同时不会陷入由竞争对手所掌握、有可能限制 Meta 开发计划的封闭生态系统。

Meta 在发展过程中曾经有过此类经历,其构建的服务受到苹果平台对于构建内容的限制。而且从苹果向开发商抽成的方式、在规则制定方面的任性以及阻止产品创新的发布等行为来看,Meta 意识到要想打造出自家产品的最佳版本,也绝对不能将内容构建的管控权拱手让给竞争对手。也只有这样,包括 Meta 在内的各类软件厂商才能更自由地为用户构建更好的服务。从哲学层面来讲,这也是 Meta 坚定为下一代计算范式构建 AI 及 AR/VR 开放生态系统的主要原因。

人们常常会问,Meta 会不会担心由于开源 Llama 而失去技术优势。这种观点在某种程度上缺乏大局观,具体原因如下:

首先,为了确保始终使用最好的技术、且不会被长期锁定在封闭的生态系统当中,Llama 需要发展出一套完整的生态系统,具体包含工具、效率改进、芯片优化和其他集成。如果 Meta 是唯一一家使用 Llama 的公司,那么生态系统发展将无从谈起,产品表现也绝不会比当年的封闭 Unix 更好。

其次,Meta 预计 AI 开发将继续保持白热化的竞争态势,也就是说对任何当前模型的开源、都不致失去在下一代最佳模型上的主要技术优势。Llama 之所以逐步发展成为行业标准,依靠的就是一代又一代保持着竞争力、效率和开放性。

第三,Meta 和封闭模型提供商之间的一大关键区别,就在于 Meta 从来不会将出售 AI 模型的访问权作为自己的盈利模式。也就是说公开发布 Llama 不会像封闭服务商那样影响到 Meta 的收入、可持续性或者投资研究的能力。(这也是部分封闭服务商不断游说政府,打压开源的原因之一。)

最后,Meta 拥有悠久的开源项目和成功经历。Meta 通过开放计算项目(OCP)发布了自己的服务器、网络和数据中心设计,并让供应链在这套设计体系之上实现了标准化,从而节约下数十亿美元。Meta 也通过领先开源工具(包括 PyTorch、React 等多种工具)从生态系统的创新当中受益。只要长期坚持这种共赢方法,这种收益也将持续生效。

开源 AI 给整个世界带来的好处

Meta 坚信开源在为 AI 科技塑造光明未来当中发挥着至关重要的作用。与任何其他现代技术相比,AI 都具备更强大的提高人类生产力、创造力以及生活质量的潜力——而且能够在加速经济增长的同时,释放医学及科学研究的进步潜能。开源将确保世界上有更多人能够获得 AI 带来的好处和机会,避免权力被集中在少数企业手中,也能让技术成果以更均匀、更安全的方式被部署到整个社会。

关于开源 AI 模型的安全性争论一直存在,Meta 的观点是开源 AI 要比其他替代方案更加安全。相信各国政府会得出正确的结论,意识到支持开源更符合自身利益,也将使得整个世界更加繁荣和安全。

Meta 理解的安全框架,应当能够防范两类危害:无意危害与有意危害。无意危害是指 AI 系统本身可能造成的影响,且问题并非源自操作者的主观故意。举例来说,现代 AI 模型可能在不经意间给出不良的健康建议。或者在更未来化的场景中, 人们担心大模型可能会在无意中自我复制或者过度优化目标,从而损害人类利益。至于有意危害,则是指恶意人士利用 AI 模型来造成伤害。

需要注意的是,人们对于 AI 科技的大部分担忧其实都属于无意危害——例如 AI 系统将对数十亿用户产生怎样的影响,甚至包括可能给全人类带来灾难性后果的科幻场景。在这方面,开源同样更加安全,因为系统透明度更高、可以受到广泛的监督和审查。从历史角度看,开源软件确实凭借着良好的透明度而更加安全可靠。同样的,使用 Llama 及其安全系统(例如 Llama Guard)也能实现优于封闭模型的安全性和可靠性。也正因为如此,大多数关于开源 AI 安全的讨论都集中在有意危害层面。

Meta 的安全流程包括严格的查验与红队测试,用以评估相关模型是否会造成现实意义上的伤害,进而确保在发布之前降低风险。由于模型对外开放,所以任何人都可以亲自上手测试。但需要强调的是,这些模型是通过互联网上的现有信息训练而成,因此考虑其伤害及影响的基本出发点,应该是大模型是否会比直接从谷歌或其他搜索引擎中快速检索到的结果造成更多伤害,而非简单粗暴的存不存在伤害。

在对有意危害进行归因时,应当区分个人或小规模行为者可能造成怎样的危害,以及掌握大量资源的国家等大规模行为者可能造成怎样的危害。

在未来的某个时候,个别恶意行为者有可能利用 AI 模型的智能,从互联网上的可用信息中制造全新的危害。在这方面,力量平衡对于保障 AI 安全就显得尤其重要。Meta 认为生活在一个广泛部署 AI 方案的世界有助于实现权力分散,这样大规模行为者与小规模行为者之间能够形成制衡和拮抗。这也是我们长期以来管理社交网络安全的方式——利用强大的 AI 系统识别并阻止来自不太成熟的用户们的威胁,从而有效对抗他们手中掌握的小型 AI 系统。从更广泛的角度出发,大规模部署 AI 有助于促进整个社会的安全和稳定。只要每个人都能使用基于开源理念的迭代大模型,那么掌握更多计算资源的政府和机构将能够在降低算力资源消耗的同时,快速发现恶意行为者的踪迹。

下一个问题,是美国及其他民主国家应该如何应对某些拥有大量资源的专制国家的威胁。美国的优势就在于去中心化和开放式创新。有些人认为美国应当封闭自己的模型,以免开发成果落入敌对国家手中。但 Meta 认为这并非正道,只会让美国及其盟友处于更加不利的地位。国家力量支持下的间谍活动相当强大,如今的大模型也可以被轻松装进大容量 U 盘当中,而且多数科技企业的运营方式并不像保密机构那么严谨。所以最有可能的情况是,在只存在封闭模式的世界当中,能够率先接触到领先模式的可能只有少数大企业外加地缘政治对手,众多初创公司、高校和小企业反而被挡在赛场之外。

此外,如果将美国的创新限制在封闭开发的樊笼之内,也会增加整个国家失去领先地位的风险。因此,Meta 认为最好的策略是建立起一套强大的开放生态系统,让领先企业能够与各国政府和盟友密切合作,确保他们能够充分运用最新发展成果,并在长期之内把握住可持续的先发优势。

面对未来的种种机遇和挑战时,请大家记住,当今大多数领先的科技企业和科学研究都是建立在开源成果之上。只要我们共同投入,那么下一代企业和研究就有望拥抱开源 AI。其中既包括刚刚起步的初创公司,也包括那些拿不出雄厚资源、从头开始开发最先进 AI 的高校和各国政府。

最重要的是,开源 AI 代表着一种机会、一种希望。只有开源力量,能够将这项技术交付到每个人手上,最终创造出更大的经济机遇与可靠的安全保障。

携手 Meta,开源 AI

过往的 Llama 模型均由 Meta 公司自行开发并对外开放,但并没有过多关注如何构建更广泛的生态系统。Meta 此次发布采取了不同的方法。目前公司内部正在组建团队,希望让更多开发人员和合作伙伴能够使用到 Llama。此外 Meta 也在积极建立合作伙伴关系,确保生态系统中的更多企业能够为其客户提供独特的功能。

Meta 坚信 Llama 3.1 版本将成为 AI 行业的又一转折点,代表着大多数开发人员转向开源 AI 方案的开始。预计这股趋势将从此刻开始逐渐发展壮大。Meta 也诚邀各位加入这段旅程,将 AI 的好处交付到世界上的每一个人手中。

参考链接:

https://timkellogg.me/blog/2024/07/23/llama-3.1

https://ai.meta.com/blog/meta-llama-3-1/

https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/

https://x.com/JonathanRoss321/status/1815777714642858313

今日好文推荐

剥离几百万行代码,复制核心算法去美国?TikTok 最新回应来了

首次创业,9 个月内月入 10 万美元!YC 大佬分享致富秘籍:靠它开发速度翻 10 倍!

首次创业,9 个月内月入 10 万美元!YC 大佬分享致富秘籍:靠它开发速度翻 10 倍!

微软蓝屏至今仍未完全恢复,官方给出重启 15 次奇葩解决方案!网友:下一步会建议我检查是否插好电源

活动推荐

AICon 全球人工智能开发与应用大会,为资深工程师、产品经理、数据分析师等专业人群搭建深度交流平台。汇聚 AI 和大模型超全落地场景与最佳实践,期望帮助与会者在大模型时代把握先机,实现技术与业务的双重飞跃。在主题演讲环节,我们已经邀请到了「蔚来创始人 李斌」,分享基于蔚来汽车 10 年来创新创业过程中的思考和实践,聚焦 SmartEV 和 AI 结合的关键问题和解决之道。大会火热报名中,7 月 31 日前可以享受 9 折优惠,单张门票节省 480 元(原价 4800 元),详情可联系票务经理 13269078023 咨询。

继续滑动看下一个
InfoQ
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存