微软基于FPGA的海量AI平台实现数据中心规模的实时处理

阅读时间图标 3分钟读

日历图标发表于 2017 年 8 月 22 日

发表于 2017 年 8 月 22 日

读者帮助支持 MSpoweruser。如果您通过我们的链接购买，我们可能会获得佣金。

微软今天透露了更多关于这项技术的信息，该技术最终将为机器人提供动力，这些机器人将压碎我们的头骨。

微软基于云的 AI 平台名为 Project Brainwave，由英特尔新的 14 nm Stratix 10 FPGA 单元提供支持，能够提供持续的 39.5 Teraflops，在 XNUMX 毫秒内运行每个请求。这种高性能和超低延迟让微软能够提供实时人工智能，随着云基础设施处理实时数据流（无论是搜索查询、视频、传感器流还是与用户的交互），这一点变得越来越重要。

通过将高性能 FPGA 直接连接到他们的数据中心网络，微软可以将 DNN 用作硬件微服务，其中 DNN 可以映射到远程 FPGA 池并由循环中没有软件的服务器调用。这种系统架构既减少了延迟，因为 CPU 不需要处理传入的请求，又允许非常高的吞吐量，FPGA 处理请求的速度与网络可以流式传输的速度一样快。

Project Brainwave 使用强大的“软”DNN 处理单元（或 DPU），合成到商用 FPGA 上，结合 FPGA 上的 ASIC 数字信号处理模块和可合成逻辑，以提供更多和更优化的功能单元数量。使用多种定制技术，它可以实现与许多硬编码 DPU 芯片相当或更高的性能。

为了帮助开发人员利用所有这些强大功能，Project Brainwave 集成了一个软件堆栈，旨在支持广泛的流行深度学习框架。它已经支持 Microsoft Cognitive Toolkit 和 Google 的 Tensorflow，并计划支持许多其他工具。

该系统的架构旨在在各种复杂模型中显示出高实际性能，具有无批处理执行，并且可以实时处理复杂的内存密集型模型，例如 LSTM。

即使在早期的 Stratix 10 芯片上，微软也展示了移植的 Project Brainwave 系统，该系统运行一个大型 GRU 模型——比 Resnet-50 大五倍——没有批处理，并取得了创纪录的性能。该演示使用 Microsoft 的自定义 8 位浮点格式 (“ms-fp8”)，该格式在一系列模型中不会遭受（平均）精度损失。

他们展示了 Stratix 10 在这个大型 GRU 上维持 39.5 Teraflops，在不到一毫秒的时间内运行每个请求。在这样的性能水平上，Brainwave 架构每个周期可以执行超过 130,000 次计算操作，由每 10 个周期发出一个宏指令驱动。 Project Brainwave 在 Stratix 10 上运行，在极具挑战性的模型上实现了前所未有的实时 AI 性能水平，而今天的性能只是一个起点。

微软计划在 2018 年将 Project Brainwave 引入 Azure，这样任何客户都可以使用该技术，让他们能够以创纪录的性能运行最复杂的深度学习模型，并让世界末日更近一步。

阅读有关该技术的更多详细信息在微软这里.

有关主题的更多信息： ai, FPGA, 微软, 项目脑电波

苏鲁尔·戴维斯

智能手机专家

Surur Davids 是 WMPoweruser（后来成为 MSPoweruser.com）的创始人。他是一位拥有十多年经验的智能手机专家。

发表评论