AI产品视角下的ChatGPT

“ChatGPT:Optimizing Language Models for Dialogue”

我的公众号文章地址：https://mp.weixin.qq.com/s?__biz=MzUyMTA2Mjk2NQ==&mid=2247484536&idx=1&sn=04743c36f7ab3010f75c530eeeaafcbd&chksm=f9e19b22ce961234a7649cd0bb1c8ae8ca9d804a01b9a7ee9bff1807590b4612e86f8ee39e14&token=235322077&lang=zh_CN#rd

ChatGPT使用体验

内容创作【创作小说提纲、编写小说开篇】

ChatGPT使用体验

代码编写【生成markdown解析器】

ChatGPT使用体验

“检索问答”【知识截止于21年9月】

ChatGPT使用体验

“安全模型”

ChatGPT主要特点主要特性

支持连续多轮对话，根据用户的输入连续生成回答
可以主动承认自身错误
- 若用户指出其错误，模型会听取意见并优化答案
可以质疑不正确的问题，并给出“正能量”答复
可以承认自身的无知：承认对专业技术的不了解

“认知误区”

不是搜索引擎，是基于语言模型，推断输入意图，生成对应文本
模型数据输入截止21年9月，时效性
模型本身无法确认自身输出的真实性使用者需自行判断
可以作为人的能力的延伸，但不能完全代替人类的思考
开放领域的大模型，未针对指定领域特别设计
- 需要使用者提供足够充分的prompt【描述需求】

ChatGPT的发展历史模型时间线

	模型发布时间	层数	头数	词向量长度	参数量	预训练数据量	论文地址
GPT-1	2018年6月	12	12	768	1.17 亿	约 5GB	https://pa…
GPT-2	2019年2月	48	–	1600	15 亿	40GB	https://pa…
GPT-3	2020年5月	96	96	12888	1,750 亿	45TB	https://pa…
InstructGPT	2022年2月	–	–	–	–	–	https://pa…
ChatGPT	2022年11月	–	–	–	–	–	–

ChatGPT的发展历史模型解读

?GPT1【无监督学习】：自左向右生成式的构建预训练任务+简单的微调
?GPT2【多任务学习】：使用更多参数、训练数据 >使用无监督的预训练模型做有监督的任务
- 重要思想：“所有的有监督学习都是无监督语言模型的一个子集”，这个思想也是提示学习（Prompt Learning）的前身
?GPT3【海量参数】：1759亿参数量，并且训练使用了情境学习（In-context Learning）^[1]
- [1]元学习（Meta-learning）的一种，元学习的核心思想在于通过少量的数据寻找一个合适的初始化范围，使得模型能够在有限的数据集上快速拟合，并获得不错的效果

?预训练模型的偏见性

因预训练模型都是通过海量数据在超大参数量级的模型上训练出来的[黑盒子]
没人能保证预训练模型不会生成一些“危险内容”，因它超大训练数据很可能包含类似的样本

?InstructGPT/ChatGPT：有用的（Helpful）、可信的（Honest）、无害的（Harmless）ChatGPT的简单的技术原理大参数的预训练生成语言模型

根据采集的SFT数据集对GPT-3.5进行有监督的微调（Supervised FineTune，SFT）
收集人工标注的对比数据，训练奖励模型（Reword Model，RM）
使用RM作为强化学习的优化目标，利用PPO算法微调SFT模型（Proximal Policy Optimization，近端策略优化）

基于GPT3.5训练监督策略模型SFT模型【Supervised Fine-Tuning】

首先在数据集中随机抽取问题，由人类标注人员给出高质量答案
然后用这些人工标注好的数据来微调GPT3.5（获得SFT模型, Supervised Fine-Tuning）
- 使其初步具备理解指令的意图
此时的SFT模型在遵循指令/对话方面已经优于 GPT-3.5，但不一定符合人类偏好

基于专家标注结果微调GPT模型

训练奖励模型主要是通过人工标注训练数据,来训练回报模型

在数据集中随机抽取问题，用第一阶段生成的模型,对每个问题生成多个不同回答【问题-答案对】
人类标注者对这些结果综合考虑给出排名顺序【这一过程类似于教练或老师辅导】
使用这个排序结果数据来训练奖励模型

专家标注【问题-答案-排序】训练数据，调节参数使高质量回答的打分>低质量的打分

近端策略优化强化学习来优化策略

在数据集中随机抽取问题，使用PPO模型生成回答【PPO模型用SFT初始化】
用训练好的RM模型给出质量分数
再通过强化学习的方式来更新PPO模型参数

指导训练对象每一步如何决策，采用什么样的”行动”可以使回答的效果更好【更新参数】

ChatGPT原理通俗解读

OpenAI使用RLHF【人类反馈强化学习】技术对【预训练语言模型】进行训练优化
得到大语言模型LLM
并基于prompting【提示】来适应不同领域的任务
“仿真性”感知上“智力提升”，本质上是“在用人类所喜欢的方式回答”

预训练模型通俗解读之前对智能模型的认知：

例如一个能分辨狗品种的Agent，需要你提供A-柴犬，B-柯基这样的数据集给他，让它学习不同品种之间的特征差异，从而学会分辨狗品种这项能力

通过一个大一统模型先来认识这个世界。再带着对这个世界的认知对具体领域进行降维打击

将海量的文本语料，直接喂给模型进行学习
在这其中模型对词性、句法的学习自然而然会沉淀在模型的参数当中

chatgpt：拥有3000亿单词的语料基础上预训练出的拥有1750亿参数的模型

3000亿单词就是训练数据，1750亿参数就是AI对这个世界的理解
一部分沉淀了Agent对各类语法、句法的学习
另一部分参数参数则储存了AI对于事实的认知

GPT与BERTNLP任务->“猜概率”游戏LLM大语言模型，演化出Bert和GPT，但理念有所不同

BERT：
- 预训练：Masking Input【完形填空，预测什么被盖住】
  - 双向：“结合空格两端的信息来猜测空格内应该是哪个单词” 如：“我坐__去上班”
- 微调：fine-tuning
  - 做专业领域任务时，需收集相关的专业领域数据，做小幅模型调整更新相关参数
- 示例：AI情绪分析
GPT：
- 预训练：Predict Next Token【预测下一个token是什么】
  - 自回归：“从左往右做预测，不会利用文本中右侧的内容” 如：“我坐…”
- 提示/指示：Prompting
  - 做专业领域的任务时，提供给它一些示例或引导。不用更新模型参数

	应用方向	应用场景
BERT	自然语言理解	问答系统、句子相似度、文本分类、情感分析、命名实体识别
GPT	自然语言生成	文本生成/续写、语言翻译、对话生成、摘要生成

ChatGPT的“影响”