滴滴推理引擎IFX：千万规模设备下AI部署实践 - 互联技术分享

互联技术分享

互联技术分享 -> 关注AI ->

滴滴推理引擎IFX：千万规模设备下AI部署实践

1.

背景

随着人工智能技术的发展，深度学习技术在工业界得到了广泛的应用。数据、算法、算力三个维度的协同发展，逐步将 AI 推向成熟期，并且渗透到生活的方方面面。

滴滴拥有海量出行大数据，同时拥有大量的司乘端手机用户、桔视设备（车载摄像头）、GPU 集群等算力平台，对云、边、端 AI 能力的发掘将迎来一个黄金时代。滴滴机器学习团队从 2018 年 9 月开始调研和搭建自研推理引擎平台 IFX，在 2018 年 12 月开始对内提供服务，并在司机端和乘客端 APP 中落地。

经历了 2 年的发展，IFX 已经在公司的大量业务中得到应用，服务于订单和准入的关键路径，司乘支付绑卡、实名认证、金融安全、提现等业务流程，高危场景识别，费用判责，追尾碰撞检测，定位导航，路网更新等业务场景。涵盖国内/国际化司乘 APP、桔视（车载摄像头）、代驾记录仪、滴滴云 GPU 等算力平台。

目前滴滴 IFX 平台服务千万级别设备，平台日活调用量超千万亿。

滴滴推理引擎IFX：千万规模设备下AI部署实践

2.

架构

在服务业务的过程中，我们发现纯粹的推理引擎已经很难满足业务高效的发展，因此，我们对平台进行了逐步的迭代与升级，将其分为 4 层结构：接入层，软件层，引擎层，算力层。

滴滴推理引擎IFX：千万规模设备下AI部署实践

▍接入层

通过接入层，主要完成与业务工程的对接工作，同时我们在该层增加了推理/授权数据埋点，能够及时的展示设备接入量、推理接入量、设备分布、推理质量等信息。

local inference 需求：提供各类编程语言接口的 SDK
remote inference 需求：提供 http/thrift/grpc 等接口的标准服务化 api
授权与埋点：提供安全授权接入方案，提供业务模型 inference 相关可视化报表

▍软件层

在软件层，主要完成与业务算法的对接工作，主要完成模型解析和模型管理功能。

模型瘦身：提供更小的模型文件，降低 SDK 大小，同时提升在线升级模型速度
模型加密：确保模型结构安全性，不容易被破解
版本管理：解决业务迭代过程中，多个模型版本管理问题
自动测试：模型解析，带来精度差异，自动测试保证训练模型和推理模型表达一致性，同时也会测试模型推理性能以及硬件设备适配工作

▍引擎层

所有引擎优化相关工作集中在该层，针对异构设备算子的开发和调优，引擎系统调用的调优，

性能诊断器：为引擎层提供离线性能诊断工具，剖析模型在不同硬件设备上的表现，同时指导 kernel 优化，模型结构优化等工作
引擎瘦身与混淆：提供更小的体积以及安全的内核
算子优化：主要整合低精度、图优化、异构调度、汇编优化等能力，同时提供 auto tuning kernel 的能力，为专用硬件提供最佳的汇编实现
系统优化：除了计算本身，提供系统调度、I/O、预/后处理等耗时环节的优化

▍算力层

算法模型实际运行的硬件设备，目前针对云、边、端等场景，支持了大部分的处理器。主要包括 NVIDIA GPU，ARM，X86，寒武纪等设备。

3.

产品化

基于架构的升级，IFX 团队进一步打造 AI 部署产品化解决方案，争取为业务提供更加系统化的支持。主要围绕以下 6 个方面进行能力建设。

滴滴推理引擎IFX：千万规模设备下AI部署实践

▍高性能

为保障业务的核心竞争力，模型执行速度对于成本、安全、业务效果等影响非常大，我们针对推理引擎内核以及全链路进行了一次性能改造，在业务性能上，得到了不错的效果。

汇编级优化：核心 op 汇编优化，模型性能提升 40% - 200%
全链路优化：预处理、后处理、网络调用链路优化，服务化性能提升 30 - 260%

滴滴推理引擎IFX：千万规模设备下AI部署实践

local 性能测试对比

滴滴推理引擎IFX：千万规模设备下AI部署实践

服务化性能对比

▍精巧性

为降低 APP 包大小，提升用户体验，我们专门针对引擎以及模型，做了大量的裁剪和压缩工作。

模型压缩：多种压缩策略联合驱动，压缩不降低精度，压缩率 < 25%
引擎压缩：二进制 elf 压缩，进一步降低 SDK 大小，通常压缩率在 50% 左右

滴滴推理引擎IFX：千万规模设备下AI部署实践

▍统一性

为了提升接入效率，提供更加高效的接入方案，针对云、端、边等多种场景，IFX 可以提供统一的接入方案，同一个算法模型，支持部署到多种不同硬件设备。

滴滴推理引擎IFX：千万规模设备下AI部署实践

▍多框架

业务方选用的算法框架相对比较自由，为让体验和接入流程一致，IFX 支持将 TensorFlow，PyTorch，Caffe，Darknet 等不同的深度学习训练得到的算法模型，转换成 IFX 支持的模型，并提供兼容性设计，满足业务迭代以及算法升级的需求。

▍自动化

AI 模型落地的过程中，存在较大的人工操作，为了降低每一个环节人工干预的程度，我们梳理了一些值得自动化实施的环节，帮助业务更快进行开发。

SDK 自动化生成
服务自动化压测
模型正确性评测
功耗、CPU Loading 等自动化测试

▍安全性

滴滴有大量的算法部署在端侧，目前我们发现软件系统会受到一些外部的攻击，为了更好的提升 AI 软件的运行安全性，保障滴滴业务的同时，更好的对外输出，我们进行了一次架构安全升级。

接入层：离线、在线授权方案，严控接入设备
SDK层：IOS，Android，Linux 代码混淆，保护业务逻辑
引擎层：函数级别加密和混淆，杜绝反调试，反编译
模型层：模型文件加密，保护算法结构

4.

总结

当前，IFX 已经服务了内部不少的业务，但是在 AI 部署的过程中，依然存在很多低效的环节需要迭代和优化。IFX 团队也将继续在这个过程中进行能力建设，后续我们计划将整个开发和生产流程线上化，采用统一的开发环境，整合开发、测试、验证、分析、上线流程，需要做的工作还很多，但未来可期。

作者：蔡金平滴滴专家工程师，机器学习平台框架组负责人，现负责异构计算、AI系统优化等工作,为公司提供端/云AI优化和部署方案。曾就职于阿里，参与异构计算集群、阿里云 HPC 产品等研发工作。

滴滴推理引擎IFX：千万规模设备下AI部署实践

滴滴机器学习团队从 2018 年 9 月开始调研和搭建自研推理引擎平台 IFX，在 2018 年 12 月开始对内提供服务，并在司机端和乘客端 APP 中落地。

高手都是通过这9种方法找到了“底层算法”

知乎上有个很火的话题：厉害的人遇到问题时的思维模式与普通人之…件装入信封、封上封口。你会怎么做？?第一种办法是：拆分动作，把所有的邮件全部装好，全部封好，全部写上地址，再全部贴上邮票；第二种办法是：每次把一个信封的动作全部完成，然后再完成下一个。?你可能觉得第一种更快，但实际上，第二种能更快完成工作，…健康、幸福的人生赢家都拥有自己的人生算法。《人生算法》这本书

一个Bug损失200亿！如何搭建业务异常检测系统？

DataPipelineHead of AI 王睿在51CTO大咖来了公开课上作了题为《业务异常实时自动化检测 — 基于人工智能的系统实战》的分享，本文根据分享内容整理而成。

为什么要学习少儿编程？这些理由你无法拒绝

快速上手，机器人可以连接很多传感器，让机器人实现很多功能，机器人搭建+编程的学习方式更生动，在学习编程的同时也可以激发孩子的创新能力。在幼儿园接触过简单机器人搭建、编程的小朋友，小学-年级再接触机器人编程，一点儿都不费劲！然而之前毫无基础，等小学-年级才开

环企 | 网站建设 | SEO | 随手推 | 实战营 | 商弈云课 | 三十六计 | 一键推 | 跨圈推 | 旺道 | 一直上