广州Python培训
达内广州Python培训中心

18087159764

热门课程

与人工智能系统进行交互更加自然

  • 时间:2018-04-26 14:37
  • 发布:达内新闻
  • 来源:达内新闻

深度学习已成为许多AI应用的一种选择方法,从图像识别到语言翻译。由于算法和计算的进步,我们现在能够训练更大更深的神经网络,从而提高AI精度。但是,由于功耗和内存使用量增加,在硬件资源有限和功耗有限的嵌入式设备上部署这些模型是不切实际的。

克服这一挑战的一个实际方法是在不牺牲准确性的情况下降低模型的复杂性。该解决方案涉及删除潜在的冗余权重,以使网络更加稀疏。众所周知的L1正则化方法已被广泛用于有效地发现浅层网络的稀疏解,如线性和逻辑回归。然而,当应用于更深的网络时,这些技术并没有显示出任何益处,部分原因是与深度网络相关的损失函数是高度非凸性的,并且优化算法无法找到既不稀疏又提供高精度的好解决方案。

想象一下,你想要求某人给你一个物体。你可能会说,“请把蓝色的笔放在你左边的桌子上。”

这就是我们人类彼此沟通的过程:用自然语言描述场景和对象。然而,教AI系统执行这个命令历来是一个挑战。AI系统可能会识别蓝色笔和表格等物体,但如果存在多个表格,可能无法识别哪个表格。缺失的难题一直是如何教导系统将文本连接或接地到给定图像或场景中的对象-通常在包含许多其他对象的视野的特定区域内-以及如何准确地进行。

配备各种传感器,机器现在可以通过记录图像(甚至视频)和声音轻松捕捉周围环境的细节。但为了使这些录音与人们进行自然交互,一台机器需要将语句与图像联系起来。文本接地解决了将文本短语(例如,通过语音识别引擎从语音中获得)与图像区域相关联的问题。换句话说,对于文本短语中的每个指定对象(例如“蓝色笔”和“左边的表格”),我们需要识别指定对象所在图像中的一个区域(以便系统知道从哪里得到他们)。

python培训

与许多现有的基于深度神经网络的方法不同,在这些方法中,通过端到端训练提取特征,但意义难以解释,我们提出了一种混合方法,将一组明确提取的特征(我们称之为“评分图” )和结构化支持向量机(SVM)。该功能的分数图是可扩展的,以便我们可以轻松地将任何新功能并入我们的算法中。在NIPS论文中,我们选择了许多易于获取的特征,例如来自输入查询的词前缀,区域几何偏好以及其他深度神经网络导出的“图像概念”,如语义分割,对象检测和姿态估计。

在大多数现有模型中,给定一组区域建议,推理要求相对简单的矩阵向量乘法。在我们的混合模型中,推理涉及求解能量最小化,它搜索所有可能的边界框以找到最合适的边界框。

为了解决能量最小化问题,我们采用了具有分支和界限的子窗口搜索算法,这使得我们的混合模型的端到端训练在计算上可行(因为训练涉及多次解决能量最小化问题)。我们还定义了一个适当的能量函数,其目标函数具有易于计算的界限,有助于有效地解决问题,并消除了大多数现有文本接地技术所使用的一组“区域提案”的需要。

对文本基础质量的影响,并且还观察到了解释性的提高。可解释性的一个表现形式是像查询词的表示这样的词嵌入,其中每个嵌入元素与我们已经明确提取的特征的分数图(或图像概念)直接相关。这种嵌入的有效性可以通过计算字向量对之间的余弦相似度来说明,这又表明相互接近的字也在语义上相关(和分组)。例如,如示出在下面的图中,因为“杯”,“饮料”和“咖啡”在语义上彼此接近,它们在嵌入空间相似度大于它们的相似性,以其他不相关的话高得多。

上一篇:让机器服务于人才是未来的趋势?
下一篇:物联网在培训AI方面的作用

马上预约三天免费体验课

姓名:

电话:

选择城市和中心
贵州省

广西省

海南省