
传统的AI硬件设计是仔细妥协的问题:必须平衡计算,内存和带宽,以免成为瓶颈。这很复杂,因为没有平均‘ ai工作量。实际上,神经网络在对这些资源的征税方式方面高度多样化,要求系统设计师选择“最佳点”。妥协或设计利基产品。
端点AI将功率引入了进一步的约束。功率利用率受到内存带宽的影响最大,然后是计算功率利用率。
本文认为,大多数使用足够计算的AI工作负载都需要NPU,这也需要大量的外部记忆和带宽。
你可能喜欢
将AI带到边缘,以获取较小,更聪明且更安全的应用程序
在民主化AI时代的透明度,偏见和人类当务之急
为什么现在是时候为AI驱动的未来刷新PC
卡洛斯道德核心链接导航
Aib的AI副总裁。
较大的神经网络意味着更大的一切
神经网络的大小大致是其输入和输出的大小,完成任务的复杂性以及所需的准确性的函数。简单的任务,例如识别手写数字,具有少量的输入和输出,并且可以通过非常小的网络准确地执行。相比之下,复杂的任务(例如CHATGPT)需要大量输入,大量的神经网络和计算架。
始终在端点AI工作负载
始终在端点AI工作负载由其约束定义 - 它们在本地收集的数据上运行,必须适合非常有限的内存和计算信封,并且对功耗非常敏感。
第一个约束经常被忽略。根据定义,始终在端点AI旨在根据本地传感器收集的数据进行操作。典型的数据源是来自生物识别,惯性,振动,环境传感器,音频数据和视觉数据的多变量时间序列。可从信息中获取与端点AI相关的神经体系结构类型的洞察力的数据类型,并在很大程度上决定了其性能和内存需求。
端点NPU的作用
AI工作负载需要内存(容量和带宽)和计算能力,必须平衡以避免瓶颈。NPU加速计算而无需添加内存。虽然某些端点AI工作负载从中受益,但大多数都没有。具体而言,我们发现NPU在以下域中有用:
你是专业人士吗?订阅我们的新闻通讯
注册techradar Pro新闻通讯,以获取您的业务成功所需的所有首选,意见,功能和指导!取得成功!请与我联系我们的其他未来品牌的新闻,并代表我们值得信赖的合作伙伴或Sponsorsby提交您的信息,您同意您同意的条款和隐私政策,并年龄在16岁或超过16岁之间。
1。实时复杂的音频处理:存在复杂的AI任务,例如特定于声音的噪声识别(例如,通过严格的延迟限制&ndash,通过特定人员的语音通过并删除其他说话者的语音)需要NPU;换句话说,这些相对较小的模型必须每几毫秒运行。
2。实时视频分析:实时AI功能,例如识别和跟踪通过视频移动的多个对象和语义分割需要NPU,以便在VGA上方进行视频分辨率。
睡觉的竞赛
经常被用来证明NPU合理的另一个原因是“竞争入睡”的概念。在电池供电的环境中,传统的节省动力的方式是尽可能长时间保持睡眠模式。微控制器功率效率的最新进展使得睡眠不足,引人注目,甚至不必要。
关于大型语言模型(LLM)
最好的大型语言模型吸引了世界的想象。在端点世界中,这种基于云的人工智能可用于从端点AI具有的更基本(有用的)见解中获取深刻的见解。
试图将LLM执行移至端点的原因与始终在端点AI具有价值相同的原因:成本,隐私和稳健性。但是,lsquo&rsquo’具有其功能的公众非常庞大,需要有史以来最大的计算平台。在Petaflop系列中的计算需求时,它们不是端点设备的实际考虑因素。
这并不意味着始终不可能具有深刻见解的端点AI,只有LLM不是最好的方法。对于健康分析等有限领域,语义嵌入模型或蒸馏的基础模型是一种更好的选择,并且产生了类似的体验。由于这些模型不是实时的,因此可以在没有NPU的情况下实现它们。
最后的想法
始终在端点AI旨在分析捕获的数据以产生有价值的见解。虽然在某些域中,端点AI计算加速度是有益的,但最相关的约束是数据的功能,内存和性质。因此,大多数启用AI端点功能并不能从其他计算中受益,尤其是在超功率高效设备上。
我们已经提供了最佳的AI聊天机器人的业务。
本文是Techradarpro的专家见解频道的一部分,在该频道中,我们以当今技术行业的最佳和最聪明的头脑为特色。这里表达的观点是作者的观点,不一定是Techradarpro或Future Plc的观点。如果您有兴趣在此处了解更多信息:https://www.techradar.com/news/submit-your-story-story-totor-to-to-techradar-pro