《这就是ChatGPT》-读书笔记-1

生活的情况越艰难,我越感到自己更坚强,甚而也更聪明。——高尔基

第一章 Chat GPT在做什么?它为和能做到这些?

他只是一次添加一个词

通俗解释,你可以想象你是一个Chat GPT,你在阅读了数十亿个网页的内容后,在听了别人说的一句话后,可能会猜测下一句话说什么。它(泛指各类大模型)做的事情就是这样,只不过不是查看字面上的文本,而是寻找某种意义上“意义匹配”的事物。

也即是“概率”,通过选取概率,每次选取一个概率最大的词,添加后再重新选取下一个词,从而不断重复增加进去。

概率从何而来

ChatGPT总是根据概率选择下一个词,但是这些概率是从何而来的呢?让我们从一个更简单的问题开始:考虑逐字母(而非逐词)地生成英文文本。怎样才能计算出每个字母应当出现的概率呢?

最佳思路是建立一个模型,让我们能够估计序列出现的概率—即使我们从未在已有的文本语料库中明确看到过这些序列。ChatGPT的核心正是所谓的“大语言模型”,后者已经被构建得能够很好地估计这些概率了。

  • 建立模型

  • 估计概率

  • 输出单词

什么是模型

模型 - MBA智库百科 (mbalib.com)

简单讲:

  • 模型系以简单的图形、实体或符号来代表一个 需要 的真实系统,以化繁为简,易于控制 ,方便进行预测。

你使用的任何模型都有某种特定的基本结构,以及用于拟合数据的一定数量的“旋钮”(也就是可以设置的参数)。

ChatGPT使用了许多这样的“旋钮”—实际上有1750亿个。

类人任务的模型

上文提到的例子涉及为数值数据建立模型,这些数据基本上来自简单的物理学—几个世纪以来,我们已经知道可以用一些“简单的数学工具”为其建模。但是对于ChatGPT,我们需要为人脑产生的人类语言文本建立模型。而对于这样的东西,我们(至少目前)还没有“简单的数学”可用。

如果我们的目标是为人类在识别图像方面的能力生成一个模型,真正需要问的问题是:面对一个模糊的图像,并且不知道其来源,人类会用什么方式来识别它?

神经网络

A Neural Network Playground (tensorflow.org)

我们拿上面的网站进行测试:

通过实验可以看出来,当神经元的个数够多,它的分类效果越好,速度越快。

你们也可以去试试,它是完全免费的。

更大的神经网络通常能更好地逼近我们所求的函数。


《这就是ChatGPT》-读书笔记-1
https://yelelalearn.github.io/2024/04/28/4-28blog/
作者
Yelearn
发布于
2024年4月28日
更新于
2024年5月17日
许可协议