note

文章目录

  • note
  • 一、Pythia — 大模型该如何训练?
  • 二、Llama 2 — 开源模型之王
  • 三、QLoRA — 高效微调
  • 四、BloombergGPT — 垂直领域大模型翘楚
  • 五、DPO — 对 RLHF 的革命性技术
  • 六、Mistral 7B — “小模型”的典范
    • 1. Mistral 7B
    • 2. Mixtral-8x7B
  • 七、Orca 2 — “小模型”如何推理?
  • 八、CNN vs Transformer — CNN 也不弱于 ViT
  • 九、SAM — 分割一切!
  • 十、Emu Video — 令人印象深刻的文本到视频生成模型
  • 附:2023年openai大事记

一、Pythia — 大模型该如何训练?

论文:《Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling》
链接:https://arxiv.org/pdf/2304.01373.pdf

Pythia模型: 由 8 个参数范围从 70M 到 12B 的大模型组成,模型权重和数据都是开源,可商用。

经验:

  • 对重复数据进行预训练会带来什么问题?答:删除重复数据既不会增强模型性能也不会损害模型性能
  • 训练顺序会影响模型记忆吗?答:不会,重新排序训练数据不会减轻模型的“逐字记忆”问题
  • 预训练中,一些术语的频率会影响下游任务吗?答:会的,出现频次更高的术语在 few-shot 中准确往往更高
  • 增强 batch 大小如何影响模型的训练?答:增加 batch 将会使得训练时间减半,但不会损害其收敛性

二、Llama 2 — 开源模型之王

论文:《Llama 2: Open Foundation and Fine-Tuned Chat Models》
链接:https://arxiv.org/pdf/2307.09288.pdf

亮点:llama2是市面上为数不多的经过RLHF对齐训练后的大模型,记录的如从最开始的有监督微调(SFT-v1) 到最终使用 PPO + RLHF 微调(RLHF-v5) 的演变历程。

三、QLoRA — 高效微调

论文:《QLoRA: Efficient Finetuning of Quantized LLMs》
链接:https://arxiv.org/pdf/2305.14314.pdf

核心:将更新权重拆为两个低秩矩阵相乘的形式,降低模型微调对GPU显存的要求;QLoRA 指经过量化处理的 LoRA,通过将 LoRA 中的低秩矩阵的连续值范围映射到一组有限的离散区间,以降低其数值精度需求,而减少模型的内存占用和计算需求。

效果:QLoRA降低了65B llama的内存需求, 使得可以被单个显存48G的GPU(如a100)所训练,使用 QLoRA 经过 24 个小时的微调就达到了 ChatGPT 性能的 99.3% ,当然由于多了一步映射,导致 QLoRA 的计算时长略长于普通的 LoRA

四、BloombergGPT — 垂直领域大模型翘楚

论文:《BloombergGPT: A Large Language Model for Finance》
链接:https://arxiv.org/pdf/2303.17564.pdf

BloombergGPT 是一个投资数百万美元的 500 亿参数的金融领域大模型,使用了来自金融行业专用的数据集进行训练(包含 3630 亿的垂直数据以及 3450 个通用公开数据)。

五、DPO — 对 RLHF 的革命性技术

论文:《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》
链接:https://arxiv.org/pdf/2305.18290.pdf

核心:通过推导使用下图的式子直接将 RLHF 中奖励建模的一步省略,使用简单的分类目标无需显式建模奖励模型就可以优化语言模型以符合人类偏好。
∇θL D P O( π θ; π ref )=− β E (x, y w, y l)∼ D[σ (r ^θ(x, y l)−r ^θ(x, y w))⏟higherweightwhenrewardestimateiswrong[ ∇ θlog⁡π ( yw∣ x )⏟ increaselikelihoodof yw − ∇ θlog⁡π ( yl∣ x )⏟ decreaselikelihoodof yl ] ] ,\begin{aligned} & \nabla_\theta \mathcal{L}_{\mathrm{DPO}}\left(\pi_\theta ; \pi_{\mathrm{ref}}\right)= \\ & -\beta \mathbb{E}_{\left(x, y_w, y_l\right) \sim \mathcal{D}}[\underbrace{\sigma\left(\hat{r}_\theta\left(x, y_l\right)-\hat{r}_\theta\left(x, y_w\right)\right)}_{\text {higher weight when reward estimate is wrong }}[\underbrace{\nabla_\theta \log \pi\left(y_w \mid x\right)}_{\text {increase likelihood of } y_w}-\underbrace{\nabla_\theta \log \pi\left(y_l \mid x\right)}_{\text {decrease likelihood of } y_l}]],\end{aligned}θLDPO(πθ;πref)=βE(x,yw,yl)D[higherweightwhenrewardestimateiswrong σ(r^θ(x,yl)r^θ(x,yw))[increaselikelihoodofyw θlogπ(ywx)decreaselikelihoodofyl θlogπ(ylx)]],

效果:如下

六、Mistral 7B — “小模型”的典范

论文:《Mistral 7B》
链接:https://arxiv.org/pdf/2310.06825.pdf

1. Mistral 7B

效果:Mistral 7B催生了两个模型,Zephyr 7B 和最新的 Mistral Mixture of Experts(MoE,也称为Mixtral-8x7B,在多个公共基准测试中的性能相当或超过了更大的 Llama-2-70B 模型)方法。Mistral 7B超越了13B llama, 也同时是今年 NeurIPS LLM 微调和效率挑战赛中获胜方案的基础模型。

核心:Mistral 7B 与 Llama 2 类似,不过多了一个滑动窗口注意力机制(Sliding Window Attention),以节省内存,增强计算效率并加快训练速度。滑动窗口注意力使得模型不必关注未来之前所有的 tokens,而只需要关注特殊数量的 tokens

2. Mixtral-8x7B

MoE,也称为Mixtral-8x7B:由8个拥有 70 亿参数的专家网络组成,对于每个输入 token,都输入两个专家网络进行处理,最后整个序列事实上来源于一系列「不同的两两专家」输出的组合。这里 MoE 方法仅应用于 FFN,因此其总的参数量并非 8 X 7 =56 ,而是在 40-50B 左右。

七、Orca 2 — “小模型”如何推理?

论文:《Orca 2: Teaching Small Language Models How to Reason》
链接:https://arxiv.org/pdf/2311.11045.pd

核心:结合从gpt造的数据微调训练小模型想法(alpaca)、sft数据高质>量(《LIMA: Less Is More for Alignment》)想法提出。

八、CNN vs Transformer — CNN 也不弱于 ViT

论文:《ConvNets Match Vision Transformers at Scale》
链接:https://arxiv.org/pdf/2310.16764.pdf
核心:这篇论文让 CNN 与 ViT 来了一场公平的对决,最终证明在同等计算条件下, CNN 也不弱于 ViT

九、SAM — 分割一切!

论文:《Segment Anything》
链接:https://arxiv.org/pdf/2304.02643.pdf

核心:可以在零样本的情况下真正如论文名字一样“分割一切”,作为一个通用模型,SAM 被认为已经学会了关于物体的一般概念,哪怕遇到训练中没有遇到的物体或图像,SAM 都可以“泛化”为此物体生成 mask。

SAM 主要由三个组件组成,分别是:

  • 图像编码器:使用预训练 ViT 作为图像编码器
  • Prompt 编码器:对输入的由点框组成的 Prompt 进行编码,使用 CLIP 与卷积实现
  • 解码器:将图像嵌入,提示嵌入与输出标记进行解码,使用 Transformer 架构中的 Decoder 模块。

十、Emu Video — 令人印象深刻的文本到视频生成模型

论文:《Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning》Meta
链接:https://arxiv.org/pdf/2311.10709.pdf

效果:Emu Video 在目前最大的一个文本到视频的数据集中进行训练,其中包含近 1000 万个样本,实验结果表明,Emu Video 生成视频的语义一致性超过 86%,质量一致性超过 91%。

核心:首先使用扩散模型从文本生成图像,然后再根据文本+生成的图像创建视频,使用的模型依然是扩散模型。通过将文本到视频的过程中间添加图像的阶段,从而简化了这一任务的难度。

附:2023年openai大事记

22年11月30日,ChatGPT问世
23年2月1日,ChatGPT plus 版本上线
23年2月7日,微软宣布并发布集成ChatGPT功能的New Bing
23年2月7日,谷歌Bard首秀Demo并翻车
23年2月24日,Meta发布LLaMa 并开源
23年3月1日,OpenAI推出ChatGPT API,供开发者集成
23年3月14日 OpenAI发布GPT-4,并在ChatGPT和Bing中支持
23年3月16日,百度发布文心一言
23年上半年,国内百模大战开启
2023年3月14日,斯坦福发布Alpaca
23年3月17日,微软GPT-4 Office全家桶发布
23年3月21日,Midjourney v5版本画出100%逼真情侣
23年3月22日,Runway 重磅发布Gen-2,文生视频里程碑
23年3月24日,ChatGPT可以联网、添加插件
23年3月29日,千名大佬发联名信,叫停GPT-5超强大模型
23年3月31日,意大利暂时禁止ChatGPT使用
23年4月6日,Meta发布可以分割一切的Segment Anything
23年4月20日,Google Brain与DeepMind 合并成立 Google DeepMind
23年5月5日,微软BingChat全面开放
23年5月15日,OpenAI发布ChatGPT的iOs应用
2023年5月18日,特斯拉人形机器人进化
23年5月30日,谷歌宣布开放「生成式搜索平台」
23年6月14日,ChatGPT 大更新,API能力升级还降价
23年7月13日,马斯克高调官宣成立xAI
23年7月19日,Llama 2开源可商用
23年 8月10日,斯坦福「虚拟小镇」开源,引爆智能体研究
23年8月23日 GPT-3.5 Turbo正式开放微调功能
23年8月29日,OpenAI发布企业版ChatGPT:没有限制、更快、更强、更安全的GPT-4
23年9月21日,OpenAI推出DALL·E 3,并将原生集成至ChatGPT中
23年10月17日,文心大模型4.0发布
23年10月20日,ChatGPT全球宕机,API崩溃
23年10月29日,完全版GPT-4智能体:图像生成+插件+代码运行器+文件上传
23年11月7日,OpenAl首届开发者日官宣GPTs商店,推出更强版GPT-4 turbo
23年11月15日,奥特曼被OpenAI董事会开除系列事件
23年11月29日 文生视频产品Pika 1.0正式发布
23年12月6日,谷歌DeepMind发布Gemini系列模型
23年12月10日,最新开源模型Mixtral 超越LLama2和GPT-3.5
23年12月14日,谷歌官宣开放Gemini API,奥特曼宣布ChatGPT Plus恢复订阅
23年12月21日,MidJounery V6 发布