MLOps工程实践

  • 概述
  • 面临挑战
  • 目的
    • 内容简介
    • 读者对象
    • 专家推荐
    • 目录
  • 写在末尾:

主页传送门: 传送

概述

  作为计算机科学的一个重要领域,机器学习也是目前人工智能领域非常活跃的分支之一。机器学习通过分析海量数据、总结规律,帮助人们解决众多实际问题。随着机器学习技术的发展,越来越多的企业将机器学习技术作为核心竞争力,并运用在实际业务中。

面临挑战

  但是,机器学习应用落地并非一件轻松的事情,AI开发者往往需要面对各个环节的挑战。这些环节包括目标定义、数据收集、数据清洗、特征提取、模型选择、模型训练、模型部署和模型监控等,其中任何一个环节出现失误,都可能影响算法和策略在最终业务中落地的效果,造成成倍的损失。反过来看,利用工程化技术去优化模型的自学习能力,能让模型保持持续更新、迭代和演进,随着数据和业务的变化不断进行自适应,避免衰退,始终保持在最佳状态,为业务场景带来更好的效果、更多的价值。

  除了效果之外,机器学习应用的开发效率也是阻碍落地的关键因素。像Google这样的互联网领头羊企业,其AI科学家与AI工程师也常常会遇到“开发一周,上线三月”的情况。因此需要针对每个模型花费数月时间进行正确性排查,覆盖模型鲁棒性、数据时序穿越、线上线下一致性、数据完整性等各个维度。

  从团队协作角度来看,数据、模型、算法的开发和部署需要不同的技能和知识,需要团队敏捷地进行沟通和协作。因此,建设一种可以在任何时间、任何环境被信任的团队合作模式、沟通渠道以及反馈机制,形成一个如敏捷迭代、Kubernetes一样的事实标准,可方便AI工程师敏捷、快速地上线AI应用。

  除了效果和效率两个AI开发者所关注的维度外,成本、人才、安全也是机器学习应用开发落地时需要权衡的。

  • 成本:无论软件、硬件成本还是人力成本,企业需要在落地AI应用的效益和成本之间进行权衡,确保投入产出比是可行的,而这要求开发者对成本和产出有更加精准的预测和判断。

  • 人才:人才短缺是一个普遍问题,哪怕是在硅谷、中关村等科技人才聚集地,具备机器学习和软件开发能力的人也是供不应求的。开发者需要更好地精进技能,规划好AI工程化的技能树和学习路径,把自己变成有竞争力的人才。

  • 安全:几乎所有的企业都会要求AI应用背后的数据、算法和模型符合法规和标准。开发者需要确保AI应用和系统不会向企业外部泄露数据,不让非法的攻击侵入并影响业务系统。

  正是在这样的背景下,MLOps快速成为机器学习生产落地中不可或缺的关键能力。构建一个靠谱、永远可以信任、从容应对新技术演进的机器学习系统,匹配让AI开发者高效且省心省力的机器学习应用开发流程,成为当前机器学习领域面临的极为关键的问题之一。


       《MLOps工程实践:工具、技术与企业级应用》

             陈雨强 郑曌 谭中意 卢冕 等著

              第四范式创始人领衔撰写
         腾讯、小米、百度、网易等分享MLOps工程经验
       指导企业构建可靠、高效、可复用、可扩展机器学习模型

目的

  作为当今企业和研究人员关注的热点领域,MLOps相关的知识和实践仍然相对分散,因此,迫切需要一本系统化介绍MLOps实践方法的书籍。希望本书能够:

  • 梳理MLOps的核心概念和方法,帮助读者全面了解MLOps的基本原理;

  • 提供实用的案例分析和操作指南,使读者能够在实际项目中应用MLOps,提高工作效率;

  • 针对不同规模的企业和团队,给出相应的MLOps最佳实践,帮助它们量身定制MLOps策略;

  • 探讨MLOps的未来发展趋势,以及如何将新技术方向(如人工智能伦理、可解释性等)融入MLOps实践。

  MLOps实践的推广和普及需要时间和努力,希望本书可以为研究人员提供全面、系统和实用的指南,以便他们在实际应用中构建可靠、高效和稳健的机器学习模型,实现业务价值最大化。

内容简介

  这是一本能指导企业利用MLOps技术构建可靠、高效、可复用、可扩展的机器学习模型,从而实现AI工程化落地的著作。本书由国内AI领域的独角兽企业第四范式的联合创始人领衔撰写,从工具、技术、企业级应用、成熟度评估4个维度对MLOps进行了全面的讲解。

本书的主要内容包括如下9个方面:
(1)MLOps的核心概念和方法,可以帮助读者全面了解MLOps的基本原理;
(2)MLOps涉及的几种角色,以及这些角色之间如何协作;
(3)机器学习项目的基础知识和全流程,是学习和应用MLOps的基础;
(4)MLOps中的数据处理、主要流水线工具Airflow和MLflow、特征平台和实时特征平台OpenMLDB、推理工具链Adlik,为读者系统讲解MLOps的技术和工具;
(5)云服务供应商的端到端MLOps解决方案;
(6)第四范式、网易、小米、腾讯、众安金融等企业的MLOps工程实践案例和经验;
(7)MLOps的成熟度模型,以及微软、谷歌和信通院对MLOps成熟度模型的划分;
(8)针对不同规模的企业和团队的MLOps最佳实践,帮助他们量身定做MLOps策略;
(9)MLOps的未来发展趋势,以及如何将新技术融入MLOps实践。

  本书深入浅出、循序渐进地讲解了如何在实际项目中利用MLOps进行机器学习模型的部署、监控与优化,以及如何利用MLOps实现持续集成与持续交付等高效的工作流程。同时,本书通过企业级的MLOps案例和解决方案,帮助读者轻松掌握MLOps的设计思路以及学会应用MLOps解决实际问题。

读者对象

  本书旨在帮助读者掌握MLOps技术,从而构建可靠、可重复使用和可扩展的机器学习工作流程。我们更加强调实践和操作,通过示例来帮助读者更好地理解并应用这些技术和工具。

本书适用的读者对象如下。

  • 数据科学家和AI研究人员:希望了解如何将自己的模型和算法更有效地部署到实际生产环境,提高工作效率和质量。

  • 机器学习工程师和DevOps工程师:想要掌握MLOps的最佳实践,以便在组织内更好地支持AI和ML项目的开发、部署与维护。

  • 产品经理和业务负责人:希望了解MLOps的概念和实践,以便更好地推动组织内AI和ML项目的落地,提高项目成功率和产出价值。

  • 教育者和学者:在教学和研究过程中需要掌握MLOps的理论和实践知识,以便为学生和咨询者提供指导。

专家推荐

  本书作者根据自己多年在软件研发、运维、DevOps和机器学习等领域的从业经验,对MLOps这一新生事物的原理和工具进行了全面系统的介绍,并结合多家企业的实践案例总结整理出一系列MLOps最佳实践,覆盖端到端机器学习全生命周期,涉及AI科学家和AI工程师在内的多个角色,知识新颖,内容丰富,极具参考价值。相信大部分AI从业人员会从中受益,强烈推荐!
—— 崔宝秋 小米集团前副总裁

这是一本业界真正需要的书。它全面介绍了AI工程化落地的全过程,包括面对的挑战、要解决的问题、常用工具和平台,以及企业的实践案例。这样一本内容全面、翔实的工具书能让读者对AI技术在企业落地方面有比较深的认识。希望它能帮助更多企业AI的应用者、工程师跨越AI工程化的鸿沟。
—— 堵俊平 LFAI & DATA基金会前董事主席

本书介绍了MLOps的完整流程、方法论、开源工具,并包含了网易云音乐、众安保险、小米商城、腾讯金融等的一手实践案例,对行业内外的工程师都有很高的学习和参考价值。
—— 戈君 字节跳动架构师
bRPC项目创始人/Apache VP

MLOps可以使得人工智能应用从低效能的手工制作模式,逐渐演变成自动化的、高效的流水线生产模式,将有力地促进人工智能规模化应用。盼此关于MLOps的书也能为大家学习人工智能指明方向。
—— 孟伟 中兴通讯开源战略总监

本书不仅从原理上阐述了MLOps的基本概念、方法、核心技术,更从实践角度给出了MLOps全流程搭建工具,并提供了丰富的互联网大厂典型MLOps平台搭建案例,以飨读者。内容专业翔实,极具可操作性。强烈推荐给AI算法和平台工程师,常读常新,大有裨益。
—— 陶阳宇 腾讯机器学习平台部总监

MLOps是现代软件工程理念下的机器学习系统构建方法论,指导企业在智能化升级中构建AI中台。本书全面介绍了MLOps的核心技术,结合丰富的业界实践向读者展示了AI原生时代下的AI中台技术全貌!
—— 王耀 百度智能云技术委员会主席

MLOps可以降低人工智能应用开发和维护的技术门槛和成本,是人工智能走进各行各业的关键技术。本书介绍了业界多家领先企业在MLOps方面的实践经验,具有非常高的参考价值。
—— 汪源 网易副总裁

本书作者长期工作在业务或咨询第一线,从工程师视角介绍机器学习在企业实践中的落地,系统阐述机器学习在实际工作中的困难和解决方案,是一本很好的实践指南。
—— 于洋 众安保险首席风险官

MLOps最重要的任务是保证机器学习应用生命周期中各个环节紧密协作,让应用的智能程度不断提高,真正解决用户在现实世界中的问题。感谢谭中意等专家的长期努力,让我们在CSDN中文社区中能看到高质量的经验和智慧结晶。期待这本书能帮助我们的研究员和工程师跨越各式各样的AI应用大峡谷。
—— 邹欣 CSDN副总裁

目录

目  录作者简介前言第1章 全面了解MLOps11.1 人工智能的趋势和现状11.1.1 趋势1:人工智能在企业中加速落地,彰显更多业务价值11.1.2 趋势2:人工智能应用从以模型为中心向以数据为中心转变31.1.3 现状:人工智能落地成功率低,成本高41.2 人工智能的问题、挑战以及应对措施51.2.1 问题1:机器学习代码只是整个系统的一小部分51.2.2 问题2:数据是最主要的问题61.2.3 挑战:人工智能系统如何规模化落地71.2.4 应对措施:MLOps81.3 MLOps简介81.3.1 MLOps的定义81.3.2 MLOps相关的工具和平台121.3.3 MLOps的优势131.4 MLOps与DevOps141.4.1 DevOps的3个优点141.4.2 MLOps延续了DevOps的优点171.4.3 MLOps和DevOps的不同之处191.4.4 MLOps和DevOps的目标与实践理念201.5 MLOps与其他XOps的区别201.5.1 MLOps与AIOps的区别211.5.2 MLOps与DataOps的区别211.5.3 MLOps与ModelOps的区别221.5.4 XOps的相同点:都基于DevOps原则221.6 本章小结22第2章 MLOps涉及的角色232.1 角色类型232.1.1 产品经理242.1.2 数据科学家242.1.3 数据工程师252.1.4 机器学习工程师262.1.5 DevOps工程师272.1.6 IT运维工程师272.2 角色划分以及角色之间存在的问题282.2.1 角色划分282.2.2 问题1:技术栈不一致导致人工智能模型线上、线下效果不一致282.2.3 问题2:关注点不同导致对系统的需求不同292.2.4 协作问题及解决办法302.3 本章小结30第3章 机器学习项目概论313.1 机器学习项目简介313.1.1 机器学习的定义313.1.2 机器学习相关概念333.1.3 机器学习能解决的问题373.1.4 机器学习项目度量383.1.5 机器学习项目难以落地的原因413.2 深入理解机器学习项目全流程443.2.1 方案调研453.2.2 方案投产493.3 本章小结51第4章 MLOps中的数据部分524.1 从以模型为中心到以数据为中心524.1.1 以模型为中心的时代524.1.2 以数据为中心的时代534.2 MLOps中的数据生命周期管理554.3 数据存储架构演进564.4 MLOps中主要的数据问题及解决方案574.4.1 常见的数据质量问题及解决方案574.4.2 时序数据穿越问题及解决方案594.4.3 离线和实时数据一致性问题及解决方案644.4.4 数据安全问题及解决方案664.4.5 数据共享与复用问题及解决方案674.5 本章小结67第5章 流水线工具695.1 Airflow695.1.1 Airflow的功能和应用场景695.1.2 Airflow的核心概念725.1.3 Airflow的使用方法725.2 MLflow805.2.1 MLflow的功能和应用场景805.2.2 MLflow的核心概念815.2.3 MLflow的使用方法825.3 其他流水线工具915.4 本章小结93第6章 特征平台946.1 特征平台的概念和起源946.2 特征平台的特性966.3 特征平台的现状976.4 主流的特征平台986.4.1 Tecton的特征平台996.4.2 AWS的SageMaker特征平台1006.4.3 Databricks的特征平台1026.4.4 Feast项目1036.4.5 OpenMLDB项目1056.5 特征平台的发展趋势1066.6 本章小结107第7章  实时特征平台OpenMLDB1087.1 实时特征平台构建方法论1087.1.1 机器学习闭环1087.1.2 实时特征计算1097.1.3 痛点:线上线下计算一致性校验带来的高成本1107.1.4 目标:开发即上线1127.1.5 技术需求1127.1.6 抽象架构1137.1.7 OpenMLDB架构设计实践1147.2 OpenMLDB项目介绍1167.2.1 设计理念1167.2.2 生产级机器学习特征平台1167.2.3 核心特性1177.2.4 常见问题1177.3 核心模块—在线引擎1187.3.1 概览1187.3.2 Apache ZooKeeper1197.3.3 Nameserver1197.3.4 Tablet1207.4 核心数据结构1227.4.1 背景介绍1227.4.2 双层跳表索引1227.4.3 预聚合技术1247.4.4 性能表现1257.5 高级特性—主从集群部署1277.5.1 定义和目标1277.5.2 技术方案1277.5.3 主从集群搭建实践1307.5.4 主从集群部署常见问题1317.6 高级特性—双存储引擎1337.6.1 内存和磁盘双存储引擎架构1337.6.2 功能支持对比1347.6.3 性能对比1357.7 执行流程介绍1367.7.1 执行流程概览1367.7.2 执行模式概览1377.7.3 离线模式1377.7.4 在线模式1387.7.5 请求模式1387.8 实践1397.8.1 准备1407.8.2 使用流程1417.8.3 实时特征计算的结果说明1447.9 生态整合—在线数据源Kafka1457.9.1 简介1457.9.2 准备工作1467.9.3 步骤1:启动OpenMLDB并创建数据库1467.9.4 步骤2:启动Kafka并创建Topic1477.9.5 步骤3:启动Connector1477.9.6 步骤4:测试1487.10 生态整合—离线数据源Hive1497.10.1 配置1497.10.2 数据类型1497.10.3 通过LIKE语法快速建表1507.10.4 将Hive数据导入OpenMLDB1507.10.5 将OpenMLDB数据导出到Hive1517.11 案例:出租车行程时间预测1517.11.1 环境准备和预备知识1517.11.2 全流程演示1527.12 本章小结155第8章 Adlik推理工具链1568.1 机器学习模型落地挑战1568.2 Adlik的优势1578.3 Adlik的架构1588.3.1 模型优化器1598.3.2 模型编译器1618.3.3 推理引擎模块1618.4 快速入门1648.4.1 编译模型1648.4.2 部署模型1668.4.3 模型推理1668.4.4 引入自定义运行时1678.5 Adlik端到端模型推理优化实践1688.5.1 模型结构优化1688.5.2 模型推理引擎1708.6 本章小结171第9章 云服务供应商的端到端MLOps解决方案1729.1 认识SageMaker1739.1.1 SageMaker的主要组成部分1739.1.2 广泛的数据源和数据集成支持1749.2 无代码实现供应链中到货时间的预测1769.2.1 数据准备1779.2.2 简单的数据合并1799.2.3 构建、训练和分析机器学习模型1809.2.4 模型预测1839.3 应用SageMaker Notebook进行 MLOps 管理1839.3.1 数据导入1849.3.2 数据清洗和特征设计1849.3.3 模型训练1859.3.4 模型评估1869.3.5 模型上线1879.3.6 使用模型仓库和 Pipeline系统管理训练成果1879.4 本章小结194第10章 MLOps 在反欺诈与推荐系统中的应用19610.1 案例1:信用卡交易反欺诈系统19610.1.1 定义业务目标19610.1.2 系统设计的挑战19810.1.3 数据准备与特征设计思路20110.1.4 系统设计与实现20210.2 案例2:推荐系统20510.2.1 推荐系统介绍20510.2.2 定义优化目标20610.2.3 系统设计挑战与实现思路20810.3 本章小结210第11章 网易云音乐实时模型大规模应用之道21111.1 从云音乐直播推荐中的实时性说起21111.1.1 直播对实时性的强需求21311.1.2 推荐引擎实时性的三要素21311.1.3 直播精排模型的实时化演进21611.2 实时增量模型的构建21611.2.1 实时特征快照21711.2.2 实时样本归因21911.2.3 实时样本拼接22211.2.4 增量训练和更新22311.2.5 线上效果22411.3 特征平台将实时能力泛化到更多场景22511.4 FeatureBox22611.4.1 FeatureBox解决的问题22611.4.2 FeatureBox整体架构22711.4.3 DataHub模块22711.4.4 Transform模块23111.4.5 MFDL模块23211.4.6 Storage模块23311.4.7 Monitor模块23411.5 在线预估基于FeatureBox的构建23611.5.1 特征与模型的高效迭代23611.5.2 高性能预估计算24211.5.3 预估与FeatureBox实时性方案24611.6 本章小结248第12章 小米广告机器学习平台实践24912.1 小米广告一站式机器学习平台简介24912.1.1 传统机器学习流程的问题24912.1.2 小米广告机器学习平台模块简介25112.2 特征工程模块25212.2.1 特征工程简介25212.2.2 数据源管理25312.2.3 特征管理25312.2.4 样本管理25712.3 模型训练平台25912.3.1 算法管理26012.3.2 离线模型训练管理26112.3.3 模型更新26212.4 线上推理模块26412.4.1 线上推理服务介绍26412.4.2 高性能和高可用保证26612.4.3 模型部署26812.5 本章小结273第13章 腾讯金融推荐中台实践27413.1 业务介绍27413.1.1 业务优化目标27413.1.2 业务特点27513.2 现状及挑战27613.2.1 推荐系统复杂性27713.2.2 算法工程技术壁垒27813.3 MLOps实践27813.4 推荐系统产品体系28013.4.1 特征系统28113.4.2 模型训练系统28113.4.3 模型服务系统28213.4.4 推荐运营系统28313.5 系统设计28313.5.1 特征系统28413.5.2 模型服务系统29013.6 本章小结293第14章 众安金融实时特征平台实践29414.1 众安金融的MLOps建设背景29414.2 众安金融的MLOps建设思路29514.2.1 众安金融的MLOps流程说明29514.2.2 众安金融特征平台能力要求29714.3 实时特征平台的架构设计29714.3.1 实时特征平台架构说明29814.3.2 实时特征数据源层29814.3.3 实时特征平台的核心功能29914.4 实时业务特征计算30014.4.1 实时业务特征计算系统设计30014.4.2 实时业务特征核心数据模型30114.4.3 实时业务特征计算引擎30214.5 反欺诈场景中的特征计算30314.5.1 反欺诈特征计算系统设计30314.5.2 反欺诈特征分类说明30414.5.3 用户关系图谱实现方案30514.6 本章小结306第15章 MLOps成熟度模型30815.1 能力成熟度模型概述30815.2 谷歌的MLOps成熟度模型30915.2.1 谷歌对MLOps的理解和认识30915.2.2 谷歌对MLOps成熟度等级的定义31015.3 微软的MLOps成熟度模型31715.3.1 微软对MLOps成熟度模型的理解和认识31715.3.2 微软对MLOps成熟度等级的定义31815.4 信通院的MLOps成熟度模型32215.4.1 需求管理能力子域相关内容32315.4.2 数据工程能力子域相关内容32515.5 本章小结329

直播预告
 AI工程化—— 如何让AI在企业多快好省的落地?
 AI 2.0时代,要不要学习MLOPS?MLOps推理的挑战以及大模型时代的推理优化思路如何?以及基于MLOps构建网易云音乐实时模型大规模应用实践分享~

  10月14日19:00,第四范式平台架构师李瀚、中兴通讯AI高级工程师袁丽雅、网易云音乐算法工程高级总监吴官林、星策社区发起人及LF AI & Data TAC成员兼 Outreach主席谭中意 四位嘉宾将与您分享~

写在末尾:

根据博客阅读量本次活动一共赠书若干本,评论区抽取若干位小伙伴送出,中奖了会私信通知
参与方式:关注博主、点赞、收藏 + 评论
(任意评论不折叠即可,切记要点赞+收藏,否则抽奖无效,每个人最多评论三次)

如果喜欢的话,欢迎 关注 点赞 评论 收藏一起讨论你的支持就是我✍️创作的动力!