《这就是ChatGPT》-读书笔记-1
生活的情况越艰难,我越感到自己更坚强,甚而也更聪明。——高尔基
第一章 Chat GPT在做什么?它为和能做到这些?
他只是一次添加一个词
通俗解释,你可以想象你是一个Chat GPT,你在阅读了数十亿个网页的内容后,在听了别人说的一句话后,可能会猜测下一句话说什么。它(泛指各类大模型)做的事情就是这样,只不过不是查看字面上的文本,而是寻找某种意义上“意义匹配”的事物。
也即是“概率”,通过选取概率,每次选取一个概率最大的词,添加后再重新选取下一个词,从而不断重复增加进去。
概率从何而来
ChatGPT总是根据概率选择下一个词,但是这些概率是从何而来的呢?让我们从一个更简单的问题开始:考虑逐字母(而非逐词)地生成英文文本。怎样才能计算出每个字母应当出现的概率呢?
最佳思路是建立一个模型,让我们能够估计序列出现的概率—即使我们从未在已有的文本语料库中明确看到过这些序列。ChatGPT的核心正是所谓的“大语言模型”,后者已经被构建得能够很好地估计这些概率了。
建立模型
估计概率
输出单词
什么是模型
简单讲:
- 模型系以简单的图形、实体或符号来代表一个 需要 的真实系统,以化繁为简,易于控制 ,方便进行预测。
你使用的任何模型都有某种特定的基本结构,以及用于拟合数据的一定数量的“旋钮”(也就是可以设置的参数)。
ChatGPT使用了许多这样的“旋钮”—实际上有1750亿个。
类人任务的模型
上文提到的例子涉及为数值数据建立模型,这些数据基本上来自简单的物理学—几个世纪以来,我们已经知道可以用一些“简单的数学工具”为其建模。但是对于ChatGPT,我们需要为人脑产生的人类语言文本建立模型。而对于这样的东西,我们(至少目前)还没有“简单的数学”可用。
如果我们的目标是为人类在识别图像方面的能力生成一个模型,真正需要问的问题是:面对一个模糊的图像,并且不知道其来源,人类会用什么方式来识别它?
神经网络
A Neural Network Playground (tensorflow.org)
我们拿上面的网站进行测试:
通过实验可以看出来,当神经元的个数够多,它的分类效果越好,速度越快。
你们也可以去试试,它是完全免费的。
更大的神经网络通常能更好地逼近我们所求的函数。