摘要

arxiv.org/pdf/2402.13616.pdf

当今的深度学习方法侧重于如何设计最合适的目标函数,以便模型的预测结果能最接近于实际结果。同时,还必须设计一个适当的架构,以便于获取足够的预测信息。现有的方法忽略了一个事实,即当输入数据经历层层特征提取和空间变换时,会损失大量信息。本文将深入研究数据通过深度网络传输时的重要问题,即信息瓶颈和可逆函数。我们提出了可编程梯度信息(PGI)的概念,以应对深度网络为实现多个目标所需的各种变化。PGI可以为目标任务提供完整的输入信息,以计算目标函数,从而获得可靠的梯度信息以更新网络权重。此外,还设计了一种基于梯度路径规划的新型轻量级网络架构——广义高效层聚合网络(GELAN)。GELAN的架构证实了PGI在轻量级模型上获得了卓越的结果。我们在基于MS COCO数据集的目标检测上验证了提出的GELAN和PGI。结果表明,GELAN仅使用常规卷积运算符,就比基于深度卷积的最先进方法实现了更好的参数利用率。PGI可用于从轻量级到大型的各种模型。它可以用来获取完整的信息,因此,从头开始训练的模型可以比使用大型数据集预训练的最新模型获得更好的结果,如图1所示。源代码位于:https://github.com/WongKinYiu/yolov9。

1、简介

基于深度学习的模型在计算机视觉、语言处理和语音识别等各个领域都表现出了比过去的人工智能系统更好的性能。近年来ÿ