一、昇腾AI基础知识介绍
1.1. 全栈全场景解决方案
课程先介绍了全站全场景的框架(如图)
昇腾计算语言接口AscendCL
AscendCL的优势如下:
- 高度抽象:算子编译、加载、执行的API归一,相比每个算子一个API,AscendCL大幅减少API数量,降低复杂度。
- 向后兼容:AscendCL具备向后兼容,确保软件升级后,基于旧版本编译的程序依然可以在新版本上运行。
- 零感知芯片:一套AscendCL接口可以实现应用代码统一,多款昇腾处理器无差异。
PyTorch模型迁移——三种方法
•手工迁移
•脚本转换工具(msFmkTransplt)
•自动迁移(推荐)
手工迁移——Step1 迁移前的准备
关于分布式:由于NPU上的一些限制,PyTorch需要使用DistributedDataParallel(DDP),若原始代码使用的是DataParallel(DP)则需要修改为DDP,DP相应的一些实现例如torch.cuda.common,则可以替换为torch.distributed相关操作
关于混合精度:由于NPU天然的混合精度属性,我们需要使用apex对原始代码进行修改
手工迁移—— Step2 单P模型迁移
单P代码迁移的主要修改点
– 设备从cuda切换至npu
– torch.cuda. –> torch.npu.
手工迁移—— Step3 多P模型迁移
多P代码迁移的主要修改点
– “nccl” –> “hccl”
PyTorch模型迁移——脚本转换工具迁移
功能介绍
•脚本转换工具根据适配规则,对用户脚本给出修改建议并提供转换功能,大幅度提高了脚本迁移速度,降低了开发者的工作量。
•原脚本需要在GPU环境下且基于python3.7及以上能够跑通。
•脚本转换后的执行逻辑与转换前保持一致。
•此脚本转换工具当前支持PyTorch1.5.0和1.8.1版本的训练脚本转换。
PyTorch模型迁移——自动迁移(推荐)
使用方式——只需要增加一行
•from torch_npu.contrib import transfer_to_npu
AscendCL基础概念解析
Host&Device
Host:指与Device相连接的x86服务器、ARM服务器,会利用Device提供的NN(Neural-Network)计算能力,完成业务。
Device:指安装了芯片的硬件设备,利用PCIe接口与Host侧连接,为Host提供NN计算能力。若存在多个Device,多个Device之间的内存资源不能共享。
典型场景如在服务器上插Atlas300I设备:
将Atals 300I推理卡插入推理服务器(或个人PC)的主机中,此时程序的运行均在CPU侧进行控制,当需要进行专用计算(模型推理等)时,将CPU侧内存数据传输到NPU侧内存中,NPU侧完成专用计算后将数据回传至CPU侧。
CPU+内存所在这一侧,或者说,进程启动的这一侧,收集数据的这一侧,我们称之为“Host”侧;
NPU+Device所在这一侧,或者说,进行专用计算的这一侧,使用数据的这一侧,我们称之为“Device”侧
同步&异步
在AscendCL中当提及“同步&异步”的时候,都是站在调用者、执行者的角度来看的。
同步:当前线程发起一个方法调用,然后阻塞在调用点等待被调用方法执行完毕返回,再继续向下走。
异步:调用者向执行者下发一个任务之后,不等待任务执行完,而是立即返回往下走,暂且不管这个任务是否执行完毕。
把Stream理解为“任务队列”,另一层含义是在队列中任务的执行是保序的,即运行时环境会根据任务下发的顺序依次执行。异步执行需要知道(或者说确保)Stream中的任务都已经执行完毕了,此时需要以下接口确认Stream中任务全部执行完毕,调用这个接口的时候,线程会阻塞在调用点上,等待指定stream中所有任务全部执行完毕才会继续向下进行。
1.2.CANN逻辑框架
CANN是异构计算架构,能够释放其硬件的澎湃性能,也是各种AI框架的核心底层。
华为公司面向计算机视觉、自然语言处理、推荐系统、类机器人等领域量身打造了基于“达芬奇(DaVinci)架构”的昇腾(Ascend)AI处理器,开启了智能之旅。为提升用户开发效率和释放昇腾AI处理器澎湃算力,同步推出针对AI场景的异构计算架构CANN(Compute Architecture for Neural Networks),CANN通过提供多层次的编程接口,以全场景、低门槛、高性能的优势,支持用户快速构建基于Ascend平台的AI应用和业务。
昇腾AI异构计算架构(Compute Architecture for Neural Networks,CANN)总体流程图·,如下图所示。
1.3.PyTorch全景
在线对接适配方案特性及优点:
- 最大限度的继承PyTorch框架动态图的特性。 最大限度的继承原生PyTorch上的使用方式,用户在移植到昇腾AI处理器设备上时,在开发方式和代码重用方面做到最小的改动。
- 最大限度的继承PyTorch原生的体系结构保留框架本身出色的特性,比如自动微分、动态分发、Debug、Profiling、Storage共享机制以及设备侧的动态内存管理等。
- 扩展性好。在打通流程的通路之上,对于新增的网络类型或结构,只需涉及相关计算类算子的开发和实现。框架类算子,反向图建立和实现机制等结构可保持复用。