
蒸馏(也称为模型或知识蒸馏)是一个知识从大型,复杂的ai‘ rsquo的过程中传递的过程。建模为更小,更高效的学生;模型。
这样做会创建一个较小的模型文件,该文件虽然保持许多教师质量,但会大大降低计算要求。
> Openai的消息来源声称它有“蒸馏”的证据
>它使用修剪,模型蒸馏等技术
使用蒸馏在开源社区中非常受欢迎,因为它允许将紧凑的AI模型部署在个人计算机系统上。
你可能喜欢
DeepSeek的开源AI策略如何塑造模型蒸馏的未来
什么是AI量化?
什么是扩散模型?
一个受欢迎的例子是开源DeepSeek R1平台发布后不久,全世界创建的各种较小的蒸馏车型。
蒸馏史
蒸馏的概念首先是由杰弗里·辛顿(Geoffrey Hinton)(又名ai’的教父及其团队)在2015年引入的。该技术立即获得了吸引人的关注,作为使高级AI在适度计算平台上可行的最佳方法之一。
蒸馏允许并继续允许,以广泛使用日常AI应用程序 - 否则将需要由巨大的基于云的计算机处理。
大多数蒸馏型模型都可以在家庭计算机上运行,因此,全世界都有成千上万的AI应用程序,例如音乐和图像生成或业余爱好者科学等任务。
你是专业人士吗?订阅我们的新闻通讯
注册techradar Pro新闻通讯,以获取您的业务成功所需的所有首选,意见,功能和指导!取得成功!请与我联系我们的其他未来品牌的新闻,并代表我们值得信赖的合作伙伴或Sponsorsby提交您的信息,您同意您同意的条款和隐私政策,并年龄在16岁或超过16岁之间。
(图片来源:Npowell/Google Research)
蒸馏通过使用较大的教师模型来生成学生模型然后学会模仿的输出来起作用。
学生模型不仅会复制这些输出,还可以从中学习,并使用这些学习来创建较小的教师克隆。使用蒸馏的不仅是开源扇区。
来自OpenAI和Google等公司的所有基础模型通常都将其蒸馏成更易于管理的版本,以分发向业务和个人分发。
这些公司还经常向其顶级客户提供蒸馏工具,以帮助他们创建较小的模型版本。
蒸馏与微调
应该注意的是,蒸馏与微调完全不同。
蒸馏创建了一个新的较小模型,该模型模仿了较大的模型,而微调通过对特定于任务的数据训练它可以使模型适应特定任务。
有趣的是,在特定的任务或角色上,蒸馏和微调的模型有时都可以超越其更大的弟兄。
但是,在蒸馏的情况下,所得模型将失去主要模型最初包含的一些广泛知识。微调模型不一定是这种情况。
有三种主要的蒸馏,响应,特征和基于关系技术的方法。
在没有过多无聊的技术细节的情况下,每种方法都侧重于模拟原始模型质量的不同方式。
并且每种方法都在由此产生的学生模型的质量方面都提供好处和缺点。
因此,各种基础模型公司采用了不同的方法,以便尝试在市场上获得绩效优势。
蒸馏的重要性
(图片来源:pexels.com)
随着时间的推移,旗舰基金会模型已经成长为需要大量资源来运营,因此蒸馏现在已成为企业AI世界的关键部分。
大型公司和政府组织可以在本地运行较小的蒸馏型号,而不是处理数万亿个参数,而是需要城市规模的数据中心和电源。
此类选择的广泛可用性使AI成为一种更加民主的技术,并为更多的受众全面打开了好处。它还为更多私人和安全的AI应用程序打开了大门。
蒸馏还有其他优势。较小的型号运行速度更快,并使用明显较低的能量。
它们还以较小的内存足迹运行,可以接受专门任务的培训。
这些好处将蒸馏变成了现代AI景观的基本特征,弥合了昂贵的基础模型与日常用户可以从中受益的实用应用之间的差距。