允中发自凹非寺

量子位报道 | 公众号 QbitAI

这可能是小米目前为止最重要的AI大动作。

昨天（6月28日），在2018开源中国开源世界高峰论坛现场，小米人工智能与云平台副总裁崔宝秋对外宣布，将正式开源小米自研的移动端深度学习框架Mobile AI Compute Engine，简称MACE。

小米方面称，MACE是专门为移动设备优化的深度学习模型预测框架。

近年来，随着移动互联网的深入发展和IoT智能设备的普及，以及用户对智能性，低延迟和隐私保护的诉求变得越来越高，移动设备上的离线深度学习应用变得越来越普遍。

于是MACE从设计之初，便针对移动设备的特点进行了专门的优化。

针对移动设备优化

涉及6个方面：

速度：对于放在移动端进行计算的模型，一般对整体的预测延迟有着非常高的要求。在框架底层，针对ARM CPU进行了NEON指令级优化，针对移动端GPU，实现了高效的OpenCL内核代码。针对高通DSP，集成了nnlib计算库进行HVX加速。同时在算法层面，采用Winograd算法对卷积进行加速。

功耗：移动端对功耗非常敏感，框架针对ARM处理器的big.LITTLE架构，提供了高性能，低功耗等多种组合配置。针对Adreno GPU，提供了不同的功耗性能选项，使得开发者能够对性能和功耗进行灵活的调整。

系统响应：对于GPU计算模式，框架底层对OpenCL内核自适应的进行分拆调度，保证GPU渲染任务能够更好的进行抢占调度，从而保证系统的流畅度。

初始化延迟：在实际项目中，初始化时间对用户体验至关重要，框架对此进行了针对性的优化。

内存占用：通过对模型的算子进行依赖分析，引入内存复用技术，大大减少了内存的占用。

模型保护：对于移动端模型，知识产权的保护往往非常重要，MACE支持将模型转换成C++代码，大大提高了逆向工程的难度。

此外，MACE支持TensorFlow和Caffe模型，提供了转换工具，可以将训练好的模型转换成专有的模型数据文件，同时还可以选择将模型转换成C++代码，支持生成动态库或者静态库，可以大大提高模型的保密性。

目前MACE已经在小米手机上的多个应用场景得到了应用，其中包括相机的人像模式，场景识别，图像超分辨率，离线翻译(即将实现)等。

小米开源自研移动端深度学习框架MACE，之前已在内部广泛使用