微软基于FPGA的海量AI平台实现数据中心规模的实时处理

阅读时间图标 3分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

微软今天透露了更多关于这项技术的信息,该技术最终将为机器人提供动力,这些机器人将压碎我们的头骨。

微软基于云的 AI 平台名为 Project Brainwave,由英特尔新的 14 nm Stratix 10 FPGA 单元提供支持,能够提供持续的 39.5 Teraflops,在 XNUMX 毫秒内运行每个请求。 这种高性能和超低延迟让微软能够提供实时人工智能,随着云基础设施处理实时数据流(无论是搜索查询、视频、传感器流还是与用户的交互),这一点变得越来越重要。

通过将高性能 FPGA 直接连接到他们的数据中心网络,微软可以将 DNN 用作硬件微服务,其中 DNN 可以映射到远程 FPGA 池并由循环中没有软件的服务器调用。 这种系统架构既减少了延迟,因为 CPU 不需要处理传入的请求,又允许非常高的吞吐量,FPGA 处理请求的速度与网络可以流式传输的速度一样快。

Project Brainwave 使用强大的“软”DNN 处理单元(或 DPU),合成到商用 FPGA 上,结合 FPGA 上的 ASIC 数字信号处理模块和可合成逻辑,以提供更多和更优化的功能单元数量。 使用多种定制技术,它可以实现与许多硬编码 DPU 芯片相当或更高的性能。

为了帮助开发人员利用所有这些强大功能,Project Brainwave 集成了一个软件堆栈,旨在支持广泛的流行深度学习框架。 它已经支持 Microsoft Cognitive Toolkit 和 Google 的 Tensorflow,并计划支持许多其他工具。

该系统的架构旨在在各种复杂模型中显示出高实际性能,具有无批处理执行,并且可以实时处理复杂的内存密集型模型,例如 LSTM。

即使在早期的 Stratix 10 芯片上,微软也展示了移植的 Project Brainwave 系统,该系统运行一个大型 GRU 模型——比 Resnet-50 大五倍——没有批处理,并取得了创纪录的性能。 该演示使用 Microsoft 的自定义 8 位浮点格式 (“ms-fp8”),该格式在一系列模型中不会遭受(平均)精度损失。

他们展示了 Stratix 10 在这个大型 GRU 上维持 39.5 Teraflops,在不到一毫秒的时间内运行每个请求。 在这样的性能水平上,Brainwave 架构每个周期可以执行超过 130,000 次计算操作,由每 10 个周期发出一个宏指令驱动。 Project Brainwave 在 Stratix 10 上运行,在极具挑战性的模型上实现了前所未有的实时 AI 性能水平,而今天的性能只是一个起点。

微软计划在 2018 年将 Project Brainwave 引入 Azure,这样任何客户都可以使用该技术,让他们能够以创纪录的性能运行最复杂的深度学习模型,并让世界末日更近一步。

阅读有关该技术的更多详细信息 在微软这里.

有关主题的更多信息: ai, FPGA, 微软, 项目脑电波

发表评论

您的电邮地址不会被公开。 必填带 *