所用版本: v6.1
本文解读detect.py
源代码地址: YOLO v5
1. 加载系统库 27~33行
import argparse import osimport sys from pathlib import Pathimport torchimport torch.backends.cudnn as cudnn
首先加载必要的外部库, 在使用时我们再介绍他们的用法
2. 设置系统环境 34~40行
FILE = Path(__file__).resolve() # __file__指的是当前文件(即detect.py),FILE最终保存着当前文件的绝对路径,比如D://yolov5/detect.pyROOT = FILE.parents[0] # ROOT保存着当前项目的父目录,比如 D://yolov5if str(ROOT) not in sys.path: # sys.path即当前python环境可以运行的路径,假如当前项目不在该路径中,就无法运行其中的模块,所以就需要加载路径 sys.path.append(str(ROOT)) # 把ROOT添加到运行路径上ROOT = Path(os.path.relpath(ROOT, Path.cwd())) # ROOT设置为相对路径
这一部分的主要作用有两个:
- 将当前项目添加到系统路径上,以使得项目中的模块可以调用.
- 将当前项目的相对路径保存在ROOT中,便于寻找项目中的文件.
3. 加载自定义模块 41~47行
from models.common import DetectMultiBackendfrom utils.dataloaders import IMG_FORMATS, VID_FORMATS, LoadImages, LoadStreamsfrom utils.general import (LOGGER, check_file, check_img_size, check_imshow, check_requirements, colorstr, cv2, increment_path, non_max_suppression, print_args, scale_coords, strip_optimizer, xyxy2xywh)from utils.plots import Annotator, colors, save_one_boxfrom utils.torch_utils import select_device, time_sync
这些都是用户自定义的库,由于上一步已经把路径加载上了,所以现在可以导入,这个顺序不可以调换。
用的时候再解释这些库/方法的作用
4. run方法 48~213行
4.1 参数列表 48~77行
@torch.no_grad()# 该标注使得方法中所有计算得出的tensor的requires_grad都自动设置为False,也就是说不会求梯度,可以加快预测效率,减小资源消耗def run( weights=ROOT / 'yolov5s.pt', # 事先训练完成的权重文件,比如yolov5s.pt,假如使用官方训练好的文件(比如yolov5s),则会自动下载 source=ROOT / 'data/images', # 预测时的输入数据,可以是文件/路径/URL/glob, 输入是0的话调用摄像头作为输入 data=ROOT / 'data/coco128.yaml', # 数据集文件 imgsz=(640, 640), # 预测时的放缩后图片大小(因为YOLO算法需要预先放缩图片), 两个值分别是height, width conf_thres=0.25, # 置信度阈值, 高于此值的bounding_box才会被保留 iou_thres=0.45, # IOU阈值,高于此值的bounding_box才会被保留 max_det=1000, # 一张图片上检测的最大目标数量 device='', # 所使用的GPU编号,如果使用CPU就写cpu view_img=False, # 是否在推理时预览图片 save_txt=False, # save results to *.txt 是否将结果保存在txt文件中 save_conf=False, # save confidences in --save-txt labels 是否将结果中的置信度保存在txt文件中 save_crop=False, # save cropped prediction boxes 是否保存裁剪后的预测框 nosave=False, # do not save images/videos 是否保存预测后的图片/视频 classes=None, # 过滤指定类的预测结果 agnostic_nms=False, # 如为True,则为class-agnostic. 否则为class-specific augment=False, # augmented inference visualize=False, # visualize features update=False, # update all models project=ROOT / 'runs/detect', # 推理结果保存的路径 name='exp', # 结果保存文件夹的命名前缀 exist_ok=False, # True: 推理结果覆盖之前的结果 False: 推理结果新建文件夹保存,文件夹名递增 line_thickness=3, # 绘制Bounding_box的线宽度 hide_labels=False, # True: 隐藏标签 hide_conf=False, # True: 隐藏置信度 half=False, # use FP16 half-precision inference 是否使用半精度推理(节约显存) dnn=False, # use OpenCV DNN for ONNX inference):
这里仅把一些必要的参数注释了一下,其他参数在实际使用中可以使用默认值,如果识别效果不好可以考虑修改参数(但更可能是训练的问题而不是这些参数的问题)
4.2 初始化环境,加载模型 78~105行
source = str(source) save_img = not nosave and not source.endswith('.txt') # 是否需要保存图片,如果nosave(传入的参数)为false且source的结尾不是txt则保存图片 # 后面这个source.endswith('.txt')也就是source以.txt结尾,不过我不清楚这是什么用法 is_file = Path(source).suffix[1:] in (IMG_FORMATS + VID_FORMATS) # 判断source是不是视频/图像文件路径 # 假如source是"D://YOLOv5/data/1.jpg",则Path(source).suffix是".jpg",Path(source).suffix[1:]是"jpg" # 而IMG_FORMATS 和 VID_FORMATS两个变量保存的是所有的视频和图片的格式后缀。 is_url = source.lower().startswith(('rtsp://', 'rtmp://', 'http://', 'https://'))# 判断source是否是链接 webcam = source.isnumeric() or source.endswith('.txt') or (is_url and not is_file)# 判断是source是否是摄像头 if is_url and is_file: source = check_file(source) # 如果source是一个指向图片/视频的链接,则下载输入数据
# Directories save_dir = increment_path(Path(project) / name, exist_ok=exist_ok) # save_dir是保存运行结果的文件夹名,是通过递增的方式来命名的。第一次运行时路径是“runs\detect\exp”,第二次运行时路径是“runs\detect\exp1” (save_dir / 'labels' if save_txt else save_dir).mkdir(parents=True, exist_ok=True) # 根据前面生成的路径创建文件夹 # 加载模型 device = select_device(device)# select_device方法定义在utils.torch_utils模块中,返回值是torch.device对象,也就是推理时所使用的硬件资源。输入值如果是数字,表示GPU序号。也可是输入‘cpu’,表示使用CPU训练,默认是cpu model = DetectMultiBackend(weights, device=device, dnn=dnn, data=data, fp16=half)# DetectMultiBackend定义在models.common模块中,是我们要加载的网络,其中weights参数就是输入时指定的权重文件(比如yolov5s.pt) stride, names, pt = model.stride, model.names, model.pt # stride:推理时所用到的步长,默认为32, 大步长适合于大目标,小步长适合于小目标 # names:保存推理结果名的列表,比如默认模型的值是['person', 'bicycle', 'car', ...] # pt: 加载的是否是pytorch模型(也就是pt格式的文件), imgsz = check_img_size(imgsz, s=stride) # 将图片大小调整为步长的整数倍 # 比如假如步长是10,imagesz是[100,101],则返回值是[100,100] # Dataloader if webcam:# 使用摄像头作为输入 view_img = check_imshow()# 检测cv2.imshow()方法是否可以执行,不能执行则抛出异常 cudnn.benchmark = True # 该设置可以加速预测 dataset = LoadStreams(source, img_size=imgsz, stride=stride, auto=pt)# 加载输入数据流 # source:输入数据源 image_size 图片识别前被放缩的大小, stride:识别时的步长, # auto的作用可以看utils.augmentations.letterbox方法,它决定了是否需要将图片填充为正方形,如果auto=True则不需要 bs = len(dataset) # batch_size 批大小 else: dataset = LoadImages(source, img_size=imgsz, stride=stride, auto=pt) bs = 1 # batch_size vid_path, vid_writer = [None] * bs, [None] * bs# 用于保存视频,前者是视频路径,后者是一个cv2.VideoWriter对象
4.3 开始预测 106~203行
# Run inference model.warmup(imgsz=(1 if pt else bs, 3, *imgsz)) # 使用空白图片(零矩阵)预先用GPU跑一遍预测流程,可以加速预测 seen, windows, dt = 0, [], [0.0, 0.0, 0.0] # seen: 已经处理完了多少帧图片 # windows: 如果需要预览图片,windows列表会给每个输入文件存储一个路径. # dt: 存储每一步骤的耗时 for path, im, im0s, vid_cap, s in dataset: # 在dataset中,每次迭代的返回值是self.sources, img, img0, None, '' #path:文件路径(即source) #im: 处理后的输入图片列表(经过了放缩操作) #im0s: 源输入图片列表 #vid_cap # s: 图片的基本信息,比如路径,大小 t1 = time_sync()# 获取当前时间 im = torch.from_numpy(im).to(device)#将图片放到指定设备(如GPU)上识别 im = im.half() if model.fp16 else im.float() # 把输入从整型转化为半精度/全精度浮点数。 im /= 255 # 0 - 255 to 0.0 - 1.0 #将图片归一化处理(这是图像表示方法的的规范,使用浮点数就要归一化) if len(im.shape) == 3: im = im[None] # 添加一个第0维。在pytorch的nn.Module的输入中,第0维是batch的大小,这里添加一个1。 t2 = time_sync() # 获取当前时间 dt[0] += t2 - t1 # 记录该阶段耗时 # Inference visualize = increment_path(save_dir / Path(path).stem, mkdir=True) if visualize else False # 如果为True则保留推理过程中的特征图,保存在runs文件夹中 pred = model(im, augment=augment, visualize=visualize) # 推理结果,pred保存的是所有的bound_box的信息, t3 = time_sync() dt[1] += t3 - t2# 记录该阶段耗时 # NMS pred = non_max_suppression(pred, conf_thres, iou_thres, classes, agnostic_nms, max_det=max_det) # 执行非极大值抑制,返回值为过滤后的预测框 # conf_thres: 置信度阈值 # iou_thres: iou阈值 # classes: 需要过滤的类(数字列表) # agnostic_nms: 标记class-agnostic或者使用class-specific方式。默认为class-agnostic # max_det: 检测框结果的最大数量 dt[2] += time_sync() - t3 # Second-stage classifier (optional) # pred = utils.general.apply_classifier(pred, classifier_model, im, im0s) # Process predictions for i, det in enumerate(pred): # 每次迭代处理一张图片, seen += 1 if webcam: # batch_size >= 1 p, im0, frame = path[i], im0s[i].copy(), dataset.count #frame:此次取的是第几张图片 s += f'{i}: '# s后面拼接一个字符串i else: p, im0, frame = path, im0s.copy(), getattr(dataset, 'frame', 0) p = Path(p) # to Path save_path = str(save_dir / p.name) # 推理结果图片保存的路径 txt_path = str(save_dir / 'labels' / p.stem) + ('' if dataset.mode == 'image' else f'_{frame}') # 推理结果文本保存的路径 s += '%gx%g ' % im.shape[2:] # 显示推理前裁剪后的图像尺寸 gn = torch.tensor(im0.shape)[[1, 0, 1, 0]] # normalization gain whwh #得到原图的宽和高 imc = im0.copy() if save_crop else im0 # for save_crop #如果save_crop的值为true, 则将检测到的bounding_box单独保存成一张图片。 annotator = Annotator(im0, line_width=line_thickness, example=str(names)) # 得到一个绘图的类,类中预先存储了原图、线条宽度、类名 if len(det): # Rescale boxes from img_size to im0 size det[:, :4] = scale_coords(im.shape[2:], det[:, :4], im0.shape).round() # 将标注的bounding_box大小调整为和原图一致(因为训练时原图经过了放缩) # Print results for c in det[:, -1].unique(): n = (det[:, -1] == c).sum() # detections per class s += f"{n} {names[int(c)]}{'s' * (n > 1)}, " # add to string # 打印出所有的预测结果 比如1 person(检测出一个人) # Write results for *xyxy, conf, cls in reversed(det): if save_txt: # 保存txt文件 xywh = (xyxy2xywh(torch.tensor(xyxy).view(1, 4)) / gn).view(-1).tolist() # 将坐标转变成x y w h 的形式,并归一化 line = (cls, *xywh, conf) if save_conf else (cls, *xywh) # label format # line的形式是: ”类别 x y w h“,假如save_conf为true,则line的形式是:”类别 x y w h 置信度“ with open(f'{txt_path}.txt', 'a') as f: f.write(('%g ' * len(line)).rstrip() % line + '\n') # 写入对应的文件夹里,路径默认为“runs\detect\exp*\labels” if save_img or save_crop or view_img: # 给图片添加推理后的bounding_box边框 c = int(cls) # 类别标号 label = None if hide_labels else (names[c] if hide_conf else f'{names[c]} {conf:.2f}')# 类别名 annotator.box_label(xyxy, label, color=colors(c, True)) #绘制边框 if save_crop:# 将预测框内的图片单独保存 save_one_box(xyxy, imc, file=save_dir / 'crops' / names[c] / f'{p.stem}.jpg', BGR=True) # Stream results im0 = annotator.result()#im0是绘制好的图片 if view_img:# 如果view_img为true,则显示该图片 if p not in windows: # 如果当前图片/视频的路径不在windows列表里,则说明需要重新为该图片/视频创建一个预览窗口 windows.append(p)# 标记当前图片/视频已经创建好预览窗口了 cv2.namedWindow(str(p), cv2.WINDOW_NORMAL | cv2.WINDOW_KEEPRATIO) # allow window resize (Linux) cv2.resizeWindow(str(p), im0.shape[1], im0.shape[0]) cv2.imshow(str(p), im0) # 预览图片 cv2.waitKey(1) # 暂停 1 millisecond # Save results (image with detections) if save_img:# 如果save_img为true,则保存绘制完的图片 if dataset.mode == 'image':# 如果是图片,则保存 cv2.imwrite(save_path, im0) else: # 如果是视频或者"流" if vid_path[i] != save_path: # vid_path[i] != save_path,说明这张图片属于一段新的视频,需要重新创建视频文件 vid_path[i] = save_path if isinstance(vid_writer[i], cv2.VideoWriter): vid_writer[i].release() # release previous video writer if vid_cap: # video fps = vid_cap.get(cv2.CAP_PROP_FPS) w = int(vid_cap.get(cv2.CAP_PROP_FRAME_WIDTH)) h = int(vid_cap.get(cv2.CAP_PROP_FRAME_HEIGHT)) else: # stream fps, w, h = 30, im0.shape[1], im0.shape[0] save_path = str(Path(save_path).with_suffix('.mp4')) # force *.mp4 suffix on results videos vid_writer[i] = cv2.VideoWriter(save_path, cv2.VideoWriter_fourcc(*'mp4v'), fps, (w, h)) vid_writer[i].write(im0) # 以上的部分是保存视频文件 # Print time (inference-only) LOGGER.info(f'{s}Done. ({t3 - t2:.3f}s)')# 打印耗时
4.4 打印结果 204~212行
t = tuple(x / seen * 1E3 for x in dt) # 平均每张图片所耗费时间 LOGGER.info(f'Speed: %.1fms pre-process, %.1fms inference, %.1fms NMS per image at shape {(1, 3, *imgsz)}' % t) if save_txt or save_img: s = f"\n{len(list(save_dir.glob('labels/*.txt')))} labels saved to {save_dir / 'labels'}" if save_txt else ''# 标签保存的路径 LOGGER.info(f"Results saved to {colorstr('bold', save_dir)}{s}") if update: strip_optimizer(weights) # update model (to fix SourceChangeWarning)
5. 其余代码
parse_opt方法的解释和run的参数解释一致,不再重复解释
如果不明白如何修改参数使用请使用搜索引擎搜索ArgumentParser的用法