如何评价李宏毅

显示全部楼层 · 发表于 2022-9-21 12:40:48

萨德基：提出诉讼李宏毅同学，熟识 AI 的听众好友很大不能孤单在 GPT-3 面世后，李宏毅同学专门针对传授了这个非同寻常的数学模型，称作 “源自幽灵暗影内地的数学模型”所致科学知识散播目地，“统计数据两栖作战派” 依照该传授音频将李宏毅同学的看法重新整理Seiches，有如前所述本意的删去：。

OpenAI 刊登了捷伊十分大的 language model，在此以后 OpenAI 早已刊登了 GPT，除了名噪一时的 GPT-2，那时到了 GPT-3（GPT-3 的学术论文试题为 Language Models are Few-Shot Learners）。

所以，GPT-3 跟 GPT-2 有甚么相同呢？大体上没甚么相同，它都是 language model。GPT-3 奇妙的地方性是甚么呢？奇妙的地方性是它太过十分大。

在它以后，最小的 model 是 Turing NLG，在以后早已给我们看完两个 model 大小不一的较为图，主要包括从最先的 ELMo 到而后的 Turing NLG Turing NLG 早已十分的十分大，它有 17 个 billion 的模块，远超以后 OpenAI 刊登的 GPT-2 和最先的 GPT。

而第二代的 GPT 有多大？它是 Turing NLG 的 10 倍，它有 175 个 billion 的模块，也是 1750 万个模块，你显然没配套措施把它画在这两张图上。

假定我们用宽度来代表者模块量，ELMO 的模块量是两个长 30 cm的尺，则 GPT-3 约是 ELMO 的 2000 倍。30 cm ×2000 是啥？它比高雄 101 更要高。

在我看来十分大的小东西都是源自暗影内地，GPT-3 就像源自于暗影内地的数学模型。1简述 GPT 系列产品的最终目标

所以，GPT-2 有 1.5 个 billion 的模块，就 6GB 了，175 个 billion 的模块约莫 700GB，Ossun连浏览留下来都有十分困难GPT-3 的传奇服务端也极短，ELMO 有 15 页，BERT 有 16 页，GPT-2 有 24 页，T5 有 53 页，而 GPT-3 有 72 页。

所以，GPT 这一系列产品的工作想要实现甚么？它想要做的事情是 —— They will shut the learning在过去，我们使用 BERT+pre-train model 时，先 pre-train model，接留下来为每两个任务准备与这些任务相关的资料，依照这些任务的专业资料进行 fine-tune，会有每两个任务的 model。

所以，如果你要用 BERT 解决任务，其实还是要收集一些资料的，BERT 并没办法直接去解这些任务，主要包括 QA 任务还是 NLI 任务GPT 系列产品的工作，是在问：我们能不能拿掉 fine-tune 这个步骤，能不能 pre-train 两个数学模型，这个数学模型就可以直接解决 downstream task，连 fine-tune 都不需要。

GPT系列产品的终极最终目标也许是这样在进行英文能力考试时，我们怎么告诉考生怎样回答试题？其实只需要给两个题型的说明比如告诉考生，选择最适合题意的字或词，然后也许再多给两个范例，告诉考生这个试题如果真的要解，约莫怎样解，就结束了。

考生只看了题型说明和一点范例，就知道怎么回答接留下来的问题GPT 系列产品想要做的是类似的事情

更具体一些，GPT 做的事情是这个样子，它有三个可能：Few-shot Learning，One-shot Learning，Zero-shot Learning在 Few-shot Learning 情况下，首先给 GPT 的 model 看两个句子，这个句子是任务的说明。

如果是翻译，任务的说明是 translate English to French，希望机器能够看得懂这个句子的意思然后接留下来给它几个范例，告诉它 sea otter 是翻译成这样，Plush girafe 是翻译成这样。

接留下来开始考试，问它 cheese 应该翻译成甚么这个是 Few-shot Learning，即 example 的部分可以提供不止两个 example如果是 One-shot Learning，可能就十分接近人类在英文能力考试中的状况了，只给你一段题型说明，再给两个例子，接留下来就要自己回答问题。

最疯狂的是 Zero-shot Learning，直接给两个试题的叙述，然后回答问题不知道两个 language model 有没可能做到，你交待它 translate English to French，在没额外训练的状况下，它知道甚么叫做 translate English to French。

接留下来给它一句英文，它就自动知道要输出法文，这显然是很大的挑战也许 One-shot Learning 较为接近现实能够实现的情况机器至少看到两个例子，One-shot Learning 还是较为有机会。

这里需要再提醒一下，在 GPT-3 中，它的 Few-shot Learning 跟一般所谓的 Few-shot Learning 是不一样的一般所谓的 Few-shot Learning，是给机器少量的训练资料，用少量的训练资料去 fine-tune model。

但在 GPT-3 中没 fine-tune 这回事，所谓的 Few-shot Learning，所谓的一点点 example，是直接当做 GPT model 的输入，给 GPT 读过这些句子，它要自动知道怎么解接留下来的问题。

在这个过程中完全没调整 model，完全没所谓的 gradient descent，直接输入文字当作指示，这些文字就让它知道接留下来要做甚么，期待它看到这些题型的说明和范例，就可以真的回答问题在 GPT-3 这篇传奇服务端里，他们把这种学习的方式叫做 “in-context Learning”。

2GPT-3 的奇妙之处所以，GPT-3 这篇传奇服务端表现怎样？硕大无朋的 GPT-3 表现怎样？上图是学术论文中所用的 42 个 task 的平均情况数目正好是 42，这是个很巧的数字，我们知道 42 是生命的意义（《银河系漫游指南》中的计算机用了 N 久的时间得出的结果），不知道这里的 42 个任务是不是刻意选择出来的。

上图纵轴是正确率，横轴是 model 的大小不一，从 0.1 billion 一直到 175 billion蓝色是 Zero Shot，绿色是 One Shot，橙色是 Few Shot可以看到随着 model 越来越大，不管是 Few-shot Learning、One-shot Learning 还是 Zero-shot Learning 的正确率，都越来越高。

当然有人可能会质疑，为了增加这么一点点正确率，用了约莫 10 倍的模块量到底值不值得？至少这个图显示，较为大的 model 确实是有好处的，至于大了 10 倍，只是增加这样的正确率，到底能不能够接受、划不划算，这是两个见仁见智的问题。

接留下来就讲GPT-3的几个奇妙之处首先，它可以做 Closed Book QA在 question answering 中，有两个 knowledge source，有两个 question，然后要找出 answer。

如果机器在回答问题的时候可以看 knowledge source，是 open book QA，而 Closed Book QA 则是没 knowledge source，直接问两个问题看看能不能得到答案。

比如直接问你，喜马拉雅山有多高，看机器的模块里面会不能有喜马拉雅山高度的资讯，会不能不需要读任何文章，它就知道喜马拉雅山的高度是 8848 公尺而 GPT-3 的表现是这个样子，蓝色的线是 Zero Shot，绿色的线 One Shot，橙子色的线是 Few Shot。

奇妙的事情是， Few-shot Learning 居然超过了在 TriviaQA 上 fine-tune 最好的 SOTA model所以，在这里，十分大的 model 展现了奇迹如果是只有 13 个 billion，没配套措施超越 SOTA，但约 10 倍大，达到 175 个 billion，可以超越 SOTA。

上图是 SuperGLUE 的部分，同样显示 Zero-shot Learning 、One-shot Learning 、Few-shot Learning 的 performance，谁的模块量越来越多，performance 当然越来越好。

如果看最小的 model 的话，它可以超越 Fine-tuned BERT Large model右边这张图显示，在做 Few-shot Learning 时，training example 对 performance 所造成的影响。

如果没给任何 example，也是 Zero-shot Learning，当然有点差但随着 example 越来越多，如果只给 1、2、3、4 个，那与 Fine-tuned BERT 的 performance 差不多；如果给到 32 个，就可以超越 Fine-tuned BERT。

GPT-3 是两个 language model，所以它可以生Seiches本在 GPT-3 学术论文中，作者也用 GPT-3 来产生文章他们给 GPT-3 新闻的标题，然后希望 GPT-3 自己把新闻写出来有两个奇妙的小发现是：如果不给 GPT-3 任何 example，只给它一则新闻的标题，它会以为这则新闻的标题是推特的一句话，然后接留下来它就会自己去回忆想象。

所以在生Seiches本的时候，GPT-3 不能是 Zero-shot 的，你需要给它几个 example，告诉它有两个标题，下面会接一篇新闻，然后接留下来再给他两个标题，希望它可以依照这个标题阐述。

在上图，纵轴代表者的是，给人看 GPT-3 产生的新闻与真正的新闻，人能不能够判断这篇新闻是真的还是假的如果人的正确率只有 50%，就代表者 GPT-3 产生出来的新闻太过真实，真实到人类没配套措施判断它是真的还是假的。

我们会发现，随着模块量越来越大，GPT-3 就越来越能骗过人类，最小的 GPT-3 几乎可以骗过人类，人类几乎没配套措施分辨 GPT-3 产生出来的新闻跟真实的新闻之间的差异。

GPT-3 还学会了造句上图中，浅灰色的文字是人的输入，黑色的文字是 GPT-3 的输出你先告诉 GPT-3 要怎么造句，造句是怎么一回事，先给两个词汇的定义比如，有两个小东西叫做 “whatpu”，“whatpu” 是甚么，“whatpu” 是两个小的毛茸茸的动物。

接留下来，以 “whatpu” 为词汇造两个句子，如我们去非洲旅行，我们看到很多可爱的 whatpu再给两个胡乱创造的词汇，这个词汇叫做 “Burringo”，是一种跑得很快的车要 GPT-3 用 “Burringo” 造两个句子，然后 GPT-3 就说在我们家的车库里面有两个 Burringo，我爸爸每天都开 Burringo 上下班。

它知道 Burringo 是两个可以开的小东西再比如，有两个小东西叫做 “Gigamuru”，它是日本的乐器然后让 GPT-3 用 “Gigamuru” 造两个句子.GPT-3 就说，我有两个 Gigamuru，它是我的叔叔给我的礼物，我喜欢在家弹它。

它知道 Gigamuru 是两个可以弹的小东西或者有两个动词 “screeg”，它是挥剑的意思此时，GPT-3 造出来的句子有些奇怪了，它说我们对彼此 screeghed（它知道要加 ed），即我们彼此挥剑，然后我们就去吃 ice cream，乍一看有点前言不对后语，彼此挥剑感觉应该是敌人，怎么接留下来是吃 ice cream？。

但是如果你把 screeg 想成是一种小孩的游戏，它虽然是挥剑，但仍是小孩的一种游戏，小好友对彼此挥剑后，接留下来去吃冰淇淋，听起来也是合理的再来看 GPT-3 能不能学会做数学问题怎样让它做数学问题呢？你就问 “What is 17 minus 14？”，然后给它 “A:”，它自动回答 “3”。

它居然会算数学

GPT-3的数学水平可以做到甚么程度？上图横轴代表者的是使用数学模型的模块量，纵轴代表者的是正确率如果看这些模块量最多的数学模型，你会发现，大体上在两位数的加法跟两位数的减法上，可以得到不错的几乎 100% 的正确率。

三位数的减法也做得不错，也不知道为甚么三位数的加法就稍微差一点其他更十分困难的问题 ——4 位数、5 位数的加法，对它来说就较为十分困难，但至少它学会了二位数跟三位数的加减法（三位数不算完全学会）3GPT-3 的"不奇妙"之处。

上文我们主要讲了 GPT-3 的奇妙那除了奇妙之处以外，也有它不 work 的地方性从文章里面看，GPT-3 在做 NLI 问题的时候不太行所谓 NLI 的问题，即给机器两个句子，要求机器判断这两个句子是矛盾的，还是互相包含，还是中立的关系。

这时会发现，如果使用 GPT-3 的 model，随着数学模型越来越大，Zero-Shot 跟 One-Shot 大体上表现不佳这个灰色的虚线代表者的是 Random Guessing就算是最小的数学模型，在 Zero-Shot 跟 One-Shot 上，基本都是惨的。

只有 Few-Shot Learning，给数学模型 50 个 example 的时候，看起来是有一些希望，只有在这个状况下显示出一些生命的迹象所以， NLI 问题对 GPT-3 来说还是有些十分困难不过，GPT-3 是两个十分大的 language model，它在学习的过程中从来没看完甚么 NLI 问题，只知道 predict 下两个词汇而已。

也许因为在做 NLI 任务的时候，我们放在一起的两个句子很多时候是奇怪和矛盾的句子，两个矛盾的句子放在一起，这种情况本身在人类文字中出现的次数是很少，所以，GPT 系列产品看到这种接在一起但是矛盾的句子，它会觉得有些困惑。

接留下来发生了一件有趣的事情今天我们在训练这种十分大的 model 时，资料往往源自于网络，而网络上爬留下来的资料，有可能就包含了我们那时的 testing data这件事情是有可能发生的本来 OpenAI 在做这个实验的时候，他们就想要尽量避免训练统计数据中杂了 downstream task 的统计数据。

但是他们在写的时候有两个 bug，所以没成功实现这一点但是这个 bug 太严重了，无法想象犯了错误的 researcher，他心理压力有多大而 “Due to the cost of training，it wasnt feasible to retrain the model”，因为 GPT-3 太大了，虽然有两个 bug，但没配套措施重新训练，只能够就这样了。

虽然没配套措施重新训练，那我们就改一下 testing data所以他们把 downstream task data 分成 clean data 和 dirty dataclean data，即 GPT-3 在训练的时候，没接触到的 data。

dirty data，即 GPT-3 在训练的时候接触过的 data如果这些点在这两个水平线之下的话，就代表者有看到 dirty data 的 performance 较为好，在水平线之上，就代表者给 GPT-3 只看 clean data 的 performance 较为好。

也是说，有一些混杂的资料对它来说也没占到甚么便宜即训练统计数据有没被污染，有没混杂到 downstream task 的统计数据，对 GPT-3 来说也许影响并没所以大，所以有两个 bug 就算了4超大规模的 model，语言水平究竟怎样？

那时，我们有了这么多十分大的 model，它到底能够了解人类语言到甚么样的程度？有两个比赛叫做 Turing Advice Challenge它跟 GPT-3 没甚么直接关系了，只是想到那时有这么多十分大的 model，好像都理解人类的语言，那它可以像人类一样知道怎么使用这些语言吗？而 Turing Advice Challenge 这个比赛，是要机器去 reddit 上给人类意见。

reddit 上会有很多 points，举例来说，有人会给一些感情上的问题这个 point 是放在 Turing Advice Challenge传奇服务端里面的例子

有两个人说，她男好友跟她交往 8 个月，然后有一天她男好友要给她两个生日礼物，她男好友就把所有的好友都找齐，然后秀出了他的背，他的背上有两个他女好友的脸的刺青，而这个女生会觉得不太行，问怎么办，期待网友给一些建议。

在这个问题上，GPT 建议分手。

对机器而言，要给出像样的建议不太容易再举个例子，有人问了两个问题，说他要上高中解剖课，但是他很害怕死掉的动物，那怎么办？有两个人给了两个建议，他建议说你可以越级上报，提问者也觉得这个建议有用我其实有点不太确定这个建议有没用，不过至少这个问问题的人觉得是有用的。

所以，机器怎么学会给建议呢？你训练两个 model，这个 model “吃” 下 reddit 上的两个 point，然后它会想配套措施去模仿 point 下面的回复这个比赛提供了 600k 训练统计数据，也是 600k 个 reddit 上的 point 及 point 下的回应，而期待机器可以学会正确的回应。

这里以 T5 当作例子，那个时候还没 GPT-3T5 答案是这样，你去和你的同学说，你想要两个 project，然后这个 project 可以看到死的动物这个回答显然是不知所云，看起来是合理的句子，看起来像在讲些甚么，但实际上没甚么作用。

今天，这些十分大的 language model，它往往能得到的表现是样子

上图是一些真正的实验结果在 Turing Advice Challenge 中，主要包括 Grover、T5 等各式各样的数学模型结果是，就算是 T5，人们也只有在 9% 的情况下，才觉得 T5 提出来的建议比人提出来的建议有效。

如果那时较为 reddit 上评分第一高的建议与第二高的建议，其实评分第二高的建议除了 40% 的人是觉得有用的，但 T5 只有 9% 的人是觉得有用这说明了，用这种十分大的 language model 帮助机器产生的文字，和人类对语言使用的能力仍相差甚远。