国内有类似ChatGPT能力的模型吗?

2022-12-07 04:00:07
OpenAI最新公布的ChatGPT对话式大规模语言模型,网友对其进行了大量的测试,某些方面确实太强大了,比如生成代码一类的。比较遗憾的是国内目前还用不了,不清楚目前国内在这方面发展的如何,有没有一些"公测"的计划?'
国内有类似ChatGPT能力的模型吗?

泻药。ChatGPT是纯生成式对话模型,国内目前还少有类似的研究出现。第一,创新缺乏动力(Funding给不足,虽然ChatGPT最终的结果很惊艳,但是它的兄弟模型InstructGPT的出发点是减少模型偏见,这种研究国内给的支持很少);第二,公司割裂严重(公司各干各的,想要从头搭,例如百度文心大模型没法从别的大公司处得到支持,但是OpenAI的InstructGPT收到了来自DeepMind等知名公司的大力支持甚至直接介入)。高校是不可能做出这样的模型的,根本没钱做标注。因此国内做传统对话模型更多,是通过模块化的方式实现的。

以下为技术分析正文:


学术圈、工业圈和朋友圈都被ChatGPT刷爆了,在铺天盖地的评价中我们还是来做一下对于模型架构的分析,看看OpenAI又是如何创造这一个神话的。这里我搬运一下InstructGPT(ChatGPT的兄弟模型,目前可以看成学习ChatGPT的最宝贵资源)的一些基础。本系列包括三篇文章,每一篇会投不同的问题。本文是引入性质的,主要搬运了InstructGPT和RLHF的博客内容。

ChatGPT全家桶阅读指南

对InstructGPT的大致了解:InstructGPT博客+RLHF博客(本文)

对InstructGPT的深度理解:InstructGPT博客+RLHF博客+论文(更新后会上链接)

对InstructGPT的系统学习:InstructGPT博客+RLHF博客+论文+系统性概括(更新后会上链接)

InstructGPT博客:对齐语言模型以遵循指令

英文博客传送门

摘要

我们训练的语言模型比 GPT-3 更善于遵循用户意图,同时使用通过我们的对齐研究开发的技术使它们更真实、毒性更小。 这些 InstructGPT 模型是在循环中与人类一起训练的,现在作为默认语言模型部署在我们的 API 上。

简介

OpenAI GPT-3 可以使用精心设计的文本提示执行自然语言任务。 但这些模型也可能产生不真实、有毒或反映有害情绪的输出。 这部分是因为 GPT-3 被训练来预测大型互联网文本数据集上的下一个单词,而不是安全地执行用户想要的语言任务。 换句话说,这些模型与他们的用户不一致。

为了使我们的模型更安全、更有帮助和更一致,我们使用了一种称为基于人类反馈的强化学习 (RLHF) 的现有技术。 在我们的客户向 API 提交的提示中,[1] 我们仅使用通过 Playground 提交给 2021 年 1 月部署的早期版本 InstructGPT 模型的提示。我们的人工注释者会从所有提示中删除个人身份信息,然后再将其添加到训练集。

我们的标签提供所需模型行为的演示,并对我们模型的几个输出进行排名。 然后我们使用这些数据来微调 GPT-3。

由此产生的 InstructGPT 模型比 GPT-3 更擅长遵循指令。 他们也不太经常编造事实,并且在有毒输出产生方面表现出小幅下降。 尽管参数少了 100 多倍,但我们的标签制作者更喜欢 1.3B InstructGPT 模型的输出而不是 175B GPT-3 模型的输出。 同时,我们表明我们不必在 GPT-3 的能力上做出妥协,正如我们的模型在学术 NLP 评估中的表现所衡量的那样。

这些 InstructGPT 模型已经在 API 上测试了一年多,现在是我们 API 上可访问的默认语言模型。 [2] API 中部署的 InstructGPT 模型是使用相同的人工反馈数据训练的更新版本。 他们使用我们将在即将出版的出版物中描述的类似但略有不同的培训方法。

我们相信,在循环中对人类进行微调的语言模型是提高其安全性和可靠性的有力工具,我们将继续朝着这个方向努力。

这是我们多年来一直追求的对齐研究,首次应用于我们的产品。 我们的工作还与最近的研究有关,该研究微调语言模型以遵循使用学术 NLP 数据集的指令,特别是 FLAN 和 T0. 我们工作的一个关键动机是增加有用性和真实性,同时减轻语言模型的危害和偏见。 我们之前在这个方向的一些研究发现,我们可以通过微调人类示范的小型精选数据集来减少有害输出。其他研究侧重于过滤预训练数据集,安全特定控制令牌,或指导模型生成。我们正在我们正在进行的对齐研究中探索这些想法和其他想法。

实验结果

我们首先评估 InstructGPT 的输出遵循用户指令的程度,方法是让标记者将其输出与 GPT-3 的输出进行比较。 我们发现 InstructGPT 模型在提交给 API 上的 InstructGPT 和 GPT-3 模型的提示中明显更受欢迎。 当我们为 GPT-3 提示符添加前缀以使其进入“指令跟随模式”时,这也是正确的。

针对各种模型尺寸(x 轴)的模型输出质量评级,根据我们 API 上提交给 InstructGPT 模型的提示。 InstructGPT 输出被我们的标注者给出的分数比 GPT-3 的输出高得多,有几个提示和没有提示,以及通过监督学习微调的模型。 我们发现在 API 上提交给 GPT-3 模型的提示有类似的结果。

为了衡量我们模型的安全性,我们主要在公开可用的数据集上使用一套现有指标。 与 GPT-3 相比,InstructGPT 产生的模仿性错误更少(根据 TruthfulQA)并且毒性更小(根据 RealToxicityPrompts)。 我们还对我们的 API 提示分布进行了人工评估,发现 InstructGPT 更少地编造事实(“幻觉”),并生成更合适的输出。

评估 InstructGPT 的毒性、真实性和适用性。 较低的分数对毒性和幻觉更好,而较高的分数对 TruthfulQA 和适当性更好。 幻觉和适当性是根据我们的 API 提示分布来衡量的。 结果跨模型大小组合。

最后,我们发现 InstructGPT 输出优于我们客户分发版中的 FLAN 和 T0。 这表明用于训练 FLAN 和 T0 的数据(主要是学术 NLP 任务)并不能完全代表已部署的语言模型在实践中的使用情况。

方法

下面这张图是全文精髓,希望仔细阅读(在paper的翻译中会有更详细的导读):

说明我们方法的三个步骤的图表:(1) 监督微调 (SFT),(2) 奖励模型 (RM) 训练,以及 (3) 通过近端策略优化 (PPO) 对该奖励模型进行强化学习。 蓝色箭头表示此数据用于训练我们的模型之一。 在第 2 步中,方框 A-D 是来自我们的模型的样本,这些样本由标注者进行排序。

为了训练 InstructGPT 模型,我们的核心技术是从人类反馈中强化学习 (RLHF),这是我们在早期对齐研究中帮助开创的一种方法。 这种技术使用人类偏好作为奖励信号来微调我们的模型,这很重要,因为我们旨在解决的安全和对齐问题是复杂且主观的,并且无法通过简单的自动指标完全捕获。

我们首先收集关于提交给我们 API 的提示的人工编写演示数据集,并使用它来训练我们的监督学习基线。 接下来,我们收集了一个数据集,该数据集包含两个模型输出在更大的 API 提示集上的人工标记比较。 然后我们在这个数据集上训练一个奖励模型 (RM) 来预测我们的标签者更喜欢哪个输出。 最后,我们使用此 RM 作为奖励函数并微调我们的 GPT-3 策略以使用 PPO 算法最大化此奖励。

对这一过程的一种思考方式是,它 "解锁 "了GPT-3已经具备的能力,但仅通过提示工程难以激发:这是因为我们的训练程序相对于预训练期间学到的东西,教给模型新能力的能力有限,因为相对于模型预训练,它使用的计算和数据不到2%。

这种方法的局限性在于它引入了“对齐税”:仅在客户任务上对齐模型可能会使它们在其他一些学术 NLP 任务上的表现更差。 这是不可取的,因为如果我们的对齐技术使模型在人们关心的任务上变得更糟,那么它们就不太可能在实践中被采用。 我们发现了一个简单的算法更改,可以最大限度地减少这种对齐税:在 RL 微调期间,我们混合了一小部分用于训练 GPT-3 的原始数据,并使用正常对数似然最大化对这些数据进行训练。 这大致保持了安全性和人类偏好方面的表现,同时减轻了学术任务上的表现下降,在某些情况下甚至超过了 GPT-3 基线。

泛化的设置

我们的程序使我们的模型行为与我们的标签人员和我们的研究人员的偏好相一致,前者直接产生用于训练我们的模型的数据,后者则通过书面说明、对具体例子的直接反馈和非正式对话向标签人员提供指导。它也受到我们的客户和我们的API政策中隐含的偏好的影响。我们选择了那些在识别和回应敏感提示的能力的筛选测试中表现良好的标签人员。然而,这些对数据的不同影响来源并不能保证我们的模型与任何更广泛群体的偏好相一致。

我们进行了两个实验来调查这一点。首先,我们使用没有产生任何训练数据的被扣留的标签者来评估GPT-3和InstructGPT,发现这些标签者喜欢InstructGPT模型的输出的比率与我们的训练标签者差不多。第二,我们在来自我们的标签者的一个子集的数据上训练奖励模型,发现它们在预测不同子集的标签者的偏好方面有很好的概括性。这表明,我们的模型并没有完全过度适应我们的训练标签者的偏好。然而,还需要做更多的工作来研究这些模型在更广泛的用户群体中的表现,以及它们在人类对所需行为有分歧的输入中的表现。

局限性

尽管取得了重大进展,我们的InstructGPT模型还远未完全统一或完全安全;它们仍然产生有毒或有偏见的输出,编造事实,并在没有明确提示的情况下产生性和暴力内容。但是,机器学习系统的安全性不仅取决于底层模型的行为,而且还取决于这些模型的部署方式。为了支持我们的API的安全性,我们将继续在上线前审查潜在的应用程序,提供内容过滤器以检测不安全的完成,并监测滥用情况。

训练我们的模型以遵循用户指令的一个副产品是,如果被指示产生不安全的输出,它们可能会变得更容易被滥用。解决这个问题需要我们的模型拒绝某些指令;可靠地做到这一点是一个重要的开放性研究问题,我们很高兴能够解决这个问题。

此外,在许多情况下,向平均标签者的偏好看齐可能是不可取的。例如,当生成对少数民族群体影响过大的文本时,该群体的偏好应该得到更多的重视。现在,InstructGPT被训练成遵循英语指令;因此,它偏向于讲英语的人的文化价值观。我们正在进行研究,了解贴标者偏好的差异和分歧,这样我们就可以根据更多特定人群的价值观来调整我们的模型。更广泛地说,使模型输出与特定人类的价值观相一致,会带来具有社会影响的困难选择,最终我们必须建立负责任的、包容性的程序来做出这些决定。

接下来的步骤

这是我们对准研究在我们产品上的第一次应用。我们的结果表明,这些技术能够有效地大幅提高通用人工智能系统与人类意图的一致性。然而,这仅仅是个开始:我们将继续推动这些技术,以改善我们当前和未来的模型的一致性,使其成为对人类安全和有帮助的语言工具。

RLHF博客:从人类偏好中学习

英文博客传送门

摘要

构建安全 AI 系统的一个步骤是消除人类编写目标函数的需要,因为对复杂目标使用简单代理,或者将复杂目标弄错一点,可能会导致不良甚至危险的行为。 通过与 DeepMind 的安全团队合作,我们开发了一种算法,可以通过告知两种提议的行为中哪一种更好来推断人类的需求。

简介

我们提出了一种学习算法,该算法使用少量人类反馈来解决现代 RL 环境。 之前已经探索过具有人类反馈的机器学习系统,但我们已经扩大了该方法的规模,使其能够处理更复杂的任务。 我们的算法需要来自人类评估者的 900 位反馈来学习后空翻——一项看似简单的任务,判断起来很简单,但具体说明却很困难。

我们的算法使用来自人类评估者的大约 900 个反馈学会了后空翻。

整个训练过程是人类、智能体对目标的理解和 RL 训练之间的 3 步反馈循环。

我们的 AI 代理首先在环境中随机行动。 定期将其行为的两个视频片段提供给人类,人类决定两个片段中的哪一个最接近实现其目标——在本例中为后空翻。 人工智能通过找到最能解释人类判断的奖励函数,逐步建立任务目标模型。 然后它使用 RL 来学习如何实现该目标。 随着其行为的改进,它会继续询问人类对轨迹对的反馈,其中它最不确定哪个更好,并进一步完善其对目标的理解。

我们的方法展示了有前途的样本效率——如前所述,后空翻视频需要不到 1000 位的人类反馈。 它花费了人类评估者不到一个小时的时间,而在后台,政策积累了大约 70 小时的整体经验(模拟速度比实时速度快得多)。我们将继续努力减少人类需要供给的反馈量。

我们已经在模拟机器人和 Atari 领域的许多任务上测试了我们的方法(没有获得奖励函数的访问权限:所以在 Atari 中,没有访问游戏分数)。 我们的代理可以从人类反馈中学习,以在我们测试的许多环境中实现强大的,有时甚至是超人的表现。 在下面的动画中,您可以看到使用我们的技术训练的智能体玩各种 Atari 游戏。 每个框架右侧的水平条代表每个代理人对人类评估员对其当前行为的认可程度的预测。 这些可视化表明,经过人类反馈训练的代理人在 Seaquest(左)中学会了评估氧气的价值,在 Breakout 和 Pong(中)中预测奖励,或者在 Enduro(右)中学习如何从崩溃中恢复。

请注意,反馈不需要与环境的正常奖励函数保持一致:例如,我们可以训练我们的代理在 Enduro 中精确地与其他汽车保持平衡,而不是通过超过它们来最大化游戏分数。 有时我们还发现,从反馈中学习比使用正常奖励函数的强化学习效果更好,因为人类比编写环境奖励的人更好地塑造奖励。

挑战

我们算法的性能仅与人类评估者关于哪些行为看起来正确的直觉一样好,因此如果人类没有很好地掌握任务,他们可能不会提供那么多有用的反馈。 相关地,在某些领域,我们的系统可能会导致代理采用欺骗评估者的策略。 例如,一个本应抓取物品的机器人将其操纵器置于相机和物体之间,使其看起来只是在抓取物体,如下所示。

我们通过添加视觉提示(上面动画中的粗白线)来解决这个特殊问题,使人类评估者更容易估计深度。

这篇文章中描述的研究是与 DeepMind 的 Jan Leike、Miljan Martic 和 Shane Legg 合作完成的。 我们的两个组织计划继续就涉及长期 AI 安全的主题进行合作。 我们认为像这样的技术是朝着能够学习以人为中心的目标的安全人工智能系统迈出的一步,并且可以补充和扩展现有的方法,如强化和模仿学习。 这篇文章代表了 OpenAI 安全团队所做的工作; 如果您有兴趣解决此类问题,请加入我们!

相比之下,我们花了两个小时来编写自己的奖励函数来让机器人后空翻,虽然它成功了,但它比仅通过人类反馈训练的那个要笨拙得多。 我们认为,在许多情况下,人类反馈可以让我们比手动制定目标更直观、更快速地指定特定目标。

,

大人,时代变了,修城墙没用。

以ChatGPT为代表的国际性AIGC平台很有可能成为未来新的互联网基础设施,全球性的。

Google开创的搜索引擎和关键词打分时代;

字节开创的用户习惯和用户画像时代;

ChatGPT将开创智能聚合和生成时代。


现在,互联网联通人类,每个人都能发布数据,

但是,

互联网数据和人类所需要的信息还是有本质不同的。

之前互联网基础设施都只是在原始数据到人类需求信息上的一种辅助,

而不是替代。

Google的pagerank只是一种概率上的逼近。

真正的信息需要用户自己筛选和拼接,甚至自己思考搜索的关键字。

字节的短视频推送也得根据用户有限的交互操作和视频本身的标签进行用户归类和匹配。

而且为了避免推送模型退化,还得加入随机扰动和大众口味。

用户看得很爽,但信息含量不足。

如果是搜索视频,表现得不比Google好。

玩游戏会一个队伍都是辅助角色吗?

主力还是人,

人得策划搜索什么,

人得查找、复制有用信息,

人最后整合输出有价值的整体。

人很厉害,但人也很累啊。

而现在,ChatGPT给了大家一个人人都用得起小秘的机会。

大家可以思考一下老总的秘书到底是干什么用的?我说的是正经的那种。

胡乔木、田家英都是毛主席的秘书,

纵使泽东自己再能写,东西多了也是写不过来的,

蒋介石更不用说了,除了微操手令和收买军阀的文书,

全得靠陈布雷才能写点上台面的文章,

对了,光头还会写日记,这个不做评述。

文字秘书就是一种套路性智力工作,

根据主题查找汇总资料,

根据场景设计提纲和选择发布内容,

老总大部分自己也会干,但多了,就很浪费时间。

所以一般都是老总定调子,定文章的需求,

是整风用,还是换届用,

是内宣,还是外宣。

国家公务员考试的申论也是这种,

历史上科举时代叫策论,

就是为国家制定政策做使用说明或者设计报告的。


我为什么会写这个帖呢?

一方面就是看到了ChatGPT的这个回答,

AI 真要成精了?ChatGPT 上手体验 - 王树义的文章 - 知乎 https://zhuanlan.zhihu.com/p/589318426

申论80分以上的水平,

文字秘书领失业保险的水平。

思考一下,以后文字类公务员还有用武之地吗?能不能卷过ChatGPT?

另一方面,就是内网大肆鼓吹AIGC相关A股股票,同时我莫名其妙地上不去ChatGPT。

本来我是要测试一下发点自己的使用感受的,

但目前这种情况,我不由得想起“掩耳盗铃”这个事,

捂住眼睛就假装太阳不存在?

不报道ChatGPT等国际AIGC平台的进展和水平,

转过来宣传国内各种远近亲相关的公司股票。

真以为国外AIGC平台学不会中文内容吗?

现象说明是显然没有防住openAI学习中文信息,

看看上面中国绿色经济发展措施的1、2、3和措辞,

与时俱进,言辞到位,高屋建瓴,振聋发聩。

说没有阅读过100本相关报告估计是写不出来的。

中国本身就是互联网大国,甚至由于用户数量大和隐私保护弱,本身是很好的互联网信息AI训练场,

但,

目前AIGC领域无论是基础设施还是模型性能,都没有同等水平的AI服务。

上面这句话是我的假说,不过国际上已经有很多公开的AI比赛,未来可能AIGC领域也有,

同不同等,比一下就好了。

A股里的AIGC股票或公司只有一种不断发展的可能,就是闭关锁国。

一个不太恰当的比喻,只有建立一个封闭的泥塘,大王八才能成为顶级的掠食者。

这其实就是我这几天用百度搜索的用户体验。

我们或许不会有更多的网络风险,但也有可能彻底错过web3.0时代。

可惜啊,可惜。


玩游戏讲游戏教游戏看游戏,我是谭剑,研究游戏智能设计,欢迎来看看我的其他视频。



'