广州Python培训
达内广州Python培训中心

18087159764

热门课程

比较AI的密集计算平台

  • 时间:2018-05-02 17:03
  • 发布: 达内新闻
  • 来源:达内新闻

在人工智能领域,人们对硬件平台的性能和功能进行了大量的讨论。确实,今天的计算能力是允许AI革命(重新)发生的原因,这是1)增加的数据集大小和2)高密度计算的组合。在这个博客中,我想专注于计算方面,并提供一个框架来比较不同的高密度计算设备。

已经开始尝试通过“构建更好的捕鼠器”而不是CPU或GPU来解决这个问题,已经开始了许多努力。我自己的创业公司Nervana(由Intel于2016年8月收购)就是一个例子。虽然有一些方法可以更好地在硅芯片上布置晶体管,以便在此应用中实现性能和功耗优势,但是任何体系结构都必须解决一些基本问题。今天的一个问题是,有很多性能数字被抛出,可能与真实AI性能没有多大关联。原始TeraFLOPs / s或TeraOPs / s已用于比较各种平台,下面我们将深入探讨为什么该指标不足以评估神经网络培训性能的一些原因。 

内存带宽很重要

您可能听说过“冯诺依曼”架构以及它是如何死亡的。简单地说,冯诺依曼结构是一种数据存在于通过一些狭窄的数据管道连接到算术设备(ALU)的存储器中的结构。这有几个关键问题。当数据从存储器来回移动到算术设备时,会使用能量并产生延迟。另外,如果算术设备可以更快地消费数据,内存管道可能会成为瓶颈,而不是由内存提供。新思想是,如果我们能够将存储器更接近算术设备,我们就可以减少能源消耗并减少瓶颈。在构建真正的硅器件方面存在的问题是,分组在一起的存储器通常比散布数字逻辑的存储器更密集且功耗更低。这对片上SRAM来说是正确的,但是当我们考虑标准的外部存储器技术如DDR4,HBM2或HMC时,它们可以实现非常高的密度和功率效率,这一点更加明显。今天的神经网络的参数大小通常太大而不适合片上存储器资源,所以我们被困在离模片存储器和算术设备之间的数据管道中。片上存储器可以用来缓解存储器带宽问题,但是决定片上还是片外需要进行仔细的管理才能实现高性能。所以我们被困在一个脱模内存和算术设备之间的数据管道上。片上存储器可以用来缓解存储器带宽问题,但是决定片上还是片外需要进行仔细的管理才能实现高性能。所以我们被困在一个脱模内存和算术设备之间的数据管道上。片上存储器可以用来缓解存储器带宽问题,但是决定片上还是片外需要进行仔细的管理才能实现高性能。

python培训

利用率很重要

在这种情况下的利用率是可以有效用于实际工作负载的芯片的原始计算能力的百分比。深度学习和神经网络使用相对少量的计算原语,并且只有少数计算时间占用大部分时间。矩阵乘法(MM)和转置是基本操作。MM由乘法累加(MAC)操作组成。OPs / s数是由每秒可以完成多少个MAC(每个乘法和累加被认为是1个操作,因此MAC实际上是2个OP)导出的。因此,我们可以将利用率定义为

现在,如果设计的MAC功能被内存带宽“饿死”,我们的设计永远不会得到高利用率。由于内存带宽已成为瓶颈,所以全球所有OPs都不会使设计工作更快。我们称之为内存绑定。 内存子系统的工作是保持芯片上的所有计算繁忙。这可以通过聪明地理解如何在外部存储器和片上存储器之间管理存储器来完成。缓存就是一个例子。

可能很明显,芯片的计算量越多,保持MAC单元繁忙所需的内存带宽就越多。因此,必须采用像缓冲器,转置逻辑,非线性(ReLU)逻辑等附加电路来实现这一点。这些都是以面积和功耗为代价的。这些因素必须仔细平衡,以使设备具有足够的功率和面积,以保持MAC繁忙并最佳利用内存带宽。如果不考虑这些其他操作,那么只要在问题中投入越来越多的OP就不会有太大的帮助。

做得更好

我们必须更好地利用内存带宽,利用率和功耗的主要原因之一是要降低每个MAC的比特精度。这个博客的范围不包括精确度较低的挑战和解决方案,但它是一个积极研究的领域。另外,我们可以利用稀疏性并使用修剪等技术来实现设备上更明显的计算。

简单的指标

需要简单的指标来比较各种平台上的AI工作负载。过去CPU使用时钟速率作为比较的基础,但更好的基准测试最终消除了这种需求。同样,在密集的计算空间中,我们通常会看到使用TeraFLOPs / s或TeraOPs / s。相反,我们需要一个使硬件平台的相对训练性能线性化的度量。如果设备A的公制等级是设备B的两倍,则意味着设备A的性能是培训大多数神经网络时的两倍。

为此,我想提出以下度量:计算容量(CC)。涉及的3个因素是数字表示的位宽,内存带宽和OPs / s

设b =#位表示,m =以GigaBits / s为单位的存储器带宽,以及o = TeraOP / s

我们使用表示位数的平方作为实现该精度的乘法器相对面积的简单代理。这意味着16位乘法器比8位乘法器的电路大4倍,这接近实际。

上一篇:如何让AI演变变成个人的?
下一篇:如何通过人工智能将道德应用于更安全的未来

马上预约三天免费体验课

姓名:

电话:

选择城市和中心
贵州省

广西省

海南省