机器学习(ML)模型的快速演进需要灵活且高效的硬件解决方案,因为硬连线加速器(固定功能的硬件加速器,无法灵活适应新的算法变化)面临快速过时的问题。向量处理器是全可编程的,通过利用数据并行性、分摊指令取指和解码成本来实现高能效。因此,一种很有前景的设计选择是基于共享 L1 内存集群的精简向量处理单元 (VPE,用于执行向量运算的硬件单元)构建加速器。
后续请点击
链接进行详细了解~
机器学习(ML)模型的快速演进需要灵活且高效的硬件解决方案,因为硬连线加速器(固定功能的硬件加速器,无法灵活适应新的算法变化)面临快速过时的问题。向量处理器是全可编程的,通过利用数据并行性、分摊指令取指和解码成本来实现高能效。因此,一种很有前景的设计选择是基于共享 L1 内存集群的精简向量处理单元 (VPE,用于执行向量运算的硬件单元)构建加速器。
后续请点击
链接进行详细了解~