广州Python培训
达内广州Python培训中心

18087159764

热门课程

AI的未来需要更好的计算

  • 时间:2018-06-11 18:02
  • 发布:达内新闻
  • 来源:达内新闻

想象一下个性化人工智能(AI),智能手机变得更像一个智能助手-即使在嘈杂的房间里也能识别您的声音,了解不同社交场合的背景,或仅呈现与您真正相关的信息,从洪水中拔出的数据每天到达。这些功能可能很快就会在我们的范围内实现-但实现这些功能需要快速,功能强大,节能的AI硬件加速器。

团队以与基于图形处理单元(GPU)的系统相同的精度展示了大型模拟存储器阵列的深度神经网络(DNN)训练。我们相信这是在下一次AI突破所需的硬件加速器之路上迈出的重要一步。为什么?因为提供人工智能的未来将需要大大扩展人工智能计算的规模。

无论是在云端还是在边缘,DNN都必须变得更大更快,这意味着能效必须显着提高。尽管更好的GPU或其他数字加速器在某种程度上可以提供帮助,但这些系统不可避免地会花费大量时间和精力将数据从内存传输到处理和回传。我们可以通过在模拟领域的数据位置进行人工智能计算来提高速度和能量效率-但这只有在所产生的神经网络与使用传统数字硬件实现的神经网络一样智能时才有意义。

数组AI

交叉开关非易失性存储器阵列可以通过在数据位置执行计算来加速完全连接的神经网络的训练。

涉及连续可变信号而不是二进制0和1的模拟技术对其精度具有内在限制-这就是现代计算机通常为数字计算机的原因。然而,人工智能研究人员已经开始意识到,即使数字精度降低到几乎任何其他计算机应用程序的低水平,他们的DNN模型仍然运行良好。因此,对于DNN,模拟计算也可能起作用。

但是,直到现在,还没有人确凿证明,这种模拟方法可以完成与传统数字硬件上运行的软件相同的工作。也就是说,DNNs是否真的可以通过这些技术进行等效的高准确度训练?如果生成的分类精度始终低得令人无法接受,那么在训练DNN时要快速或更节能。

这些存储器允许在整个这些算法中使用的“乘法-累加”操作在模拟域中,在重量数据的位置处使用基础物理学进行并行化。我们只需将一个小电流通过一个电阻器传递到一根导线中,然后将许多这样的导线连接在一起以使电流聚集起来,而不是将大量电路相乘并将数字相加。这让我们可以同时执行许多计算,而不是一个接一个地计算。而不是出货数字存储芯片和处理芯片之间长途跋涉的数字数据,我们可以执行所有的计算内 模拟存储芯片。

python人工智能培训

然而,由于当今模拟存储器设备固有的各种不完善之处,之前直接在大型真实NVM设备阵列上进行的DNN训练演示未能实现与软件训练网络相匹配的分类精度。

通过将相变存储器(PCM)器件中的长期存储,常规互补金属氧化物半导体(CMOS)电容器的近线性更新以及用于消除器件与器件之间可变性的新技术相结合,我们将这些不完善性提高到了极致,并实现了软件等效的DNN在各种不同网络上的精确度。这些实验采用混合硬件-软件方法,将易于准确建模的系统元件的软件仿真(如CMOS器件)与PCM器件的完整硬件实现相结合。对于我们的神经网络中的每个重量,使用真实的模拟记忆设备是非常重要的,因为这种新颖设备的建模方法通常无法捕捉到它们可以展现的全部设备到设备变化。

鉴于这些令人鼓舞的结果,我们已经开始探索原型硬件加速器芯片的设计,

从这些早期的设计工作中,作为我们自然论文的一部分,我们能够提供初始估计,这些基于NVM的芯片用于训练全连接层的潜力,计算能效(28,065 GOP / sec / W)和每区域吞吐量(3.6 TOP / sec / mm2)。这些值超过了当今GPU的规格两个数量级。此外,完全连接的层是一种神经网络层,其实际的GPU性能经常远低于额定规格。

本文表明,尽管现有的模拟存储器设备不完善,但我们的基于NVM的方法可提供软件等效的训练精度以及加速和能效的数量级提高。接下来的步骤是在大型网络上展示这种相同的软件等价性,这些网络要求大型完全连接的层-例如机器翻译最近进展背后的循环连接的长期短期存储器(LSTM)和门控循环单元(GRU)网络,字幕和文本分析-以及在基于NVM的原型硬件加速器上设计,实施和改进这些模拟技术。为此应用优化的新型更好的模拟存储器形式可以帮助进一步提高面密度和能源效率。

上一篇:移动,人工智能和物联网的发展趋势
下一篇:没有下一篇了
选择城市和中心
贵州省

广西省

海南省