在人工智能(AI)领域,大部分焦点都集中在GPT-4、Gemini等大型模型的训练上。这些模型需要大量的计算资源和数月的专业硬件训练。然而,尽管人们非常关注训练,但当今人工智能最紧迫的挑战在于其他方面:推理。

推理——使用训练好的模型生成预测或输出的过程——是AI真正产生价值的地方。推理是一种操作成本,它与每个请求呈线性关系,当涉及到部署边缘人工智能(Edge AI)时,推理的挑战变得更加明显。
Edge AI引入了一组独特的约束:有限的计算资源、严格的功耗预算和实时延迟要求。解决这些挑战需要我们重新思考如何设计模型、优化硬件和构建系统。人工智能的未来取决于我们掌握边缘推理的能力。
推理的计算成本
推理的核心是获取输入(无论是图像、文本还是传感器读数),并通过训练好的人工智能模型运行以产生输出的过程。推理的计算成本由三个关键因素决定:
模型大小:模型中的参数和激活数量直接影响内存带宽和计算要求。较大的型号,如GPT-4,需要更多的内存和处理能力,使其不适合边缘部署。
计算强度:每个推理步骤所需的浮点运算(FLOP)数量决定了所需的计算能力。例如,基于转换器的模型涉及多个矩阵乘法和激活函数,每次推理产生数十亿个FLOP。
内存访问:存储、RAM和计算核心之间的数据移动效率至关重要。低效的内存访问会阻碍性能,特别是在内存带宽有限的边缘设备上。

在边缘,这些约束将被放大
内存带宽:边缘设备依赖于低功耗内存技术,如LPDDR或SRAM,这些技术缺乏云GPU中的高吞吐量内存总线。这限制了数据移动和处理的速度。
电源效率:虽然云GPU的工作功率为数百瓦,但边缘设备必须在毫瓦预算内运行。这需要彻底重新思考如何利用计算资源。
延迟要求:自动驾驶、工业自动化和增强现实等应用程序要求在毫秒内做出响应。基于云的推理,由于其固有的网络延迟,对于这些用例来说通常是不切实际的。
边缘高效推理技术
优化边缘推理需要硬件和算法创新的结合。下面,我们将探讨一些最有前景的方法:
模型压缩和量化
降低推理成本的最直接方法之一是缩小模型本身。量化、修剪和知识蒸馏等技术可以显著减少内存和计算开销,同时保持准确性。
硬件加速:从通用计算到领域特定计算
传统的CPU甚至GPU在边缘推理方面效率低下。相反,像苹果的神经引擎和谷歌的Edge TPU这样的专用加速器针对张量运算进行了优化,实现了实时设备上的人工智能。
架构优化:Edge AI的转换器替代方案
转换器已经成为占主导地位的人工智能架构,但它们在注意力机制中的二次复杂性使它们的推理成本很高。正在探索线性化注意力、专家混合(MoE)和RNN混合等替代方案,以减少计算开销。

分布式和联合推理
在许多边缘应用中,推理不必发生在单个设备上。相反,工作负载可以跨边缘服务器、附近的设备,甚至混合云边缘架构进行拆分。分裂推理、联合学习和神经缓存等技术可以减少延迟和功耗,同时保护隐私。
边缘推理的未来:我们该何去何从?
边缘推理是一个系统级的挑战,需要整个AI堆栈的共同设计。随着人工智能嵌入到一切事物中,解决推理效率问题将是释放人工智能在云端之外全部潜力的关键。
未来最有希望的方向包括:
更好的编译器和运行时优化:TensorFlow Lite、TVM和MLIR等编译器正在不断发展,以优化边缘硬件的AI模型,动态调整执行性能和功耗。
新的内存和存储架构:RRAM和MRAM等新兴技术可以降低频繁推理工作负载的能源成本。
自适应AI模型:根据可用资源动态调整大小、精度或计算路径的模型可以将近云AI性能提升到边缘。
定义未来十年的人工智能挑战
推理是人工智能的无名英雄——这是一个安静、连续的过程,使人工智能在现实世界中变得有用。解决这一问题的公司和技术将塑造下一波计算浪潮,使人工智能超越云端,进入我们的日常生活。