从爆火的 ChatGPT 讲起:它的前世今生和你想了解的一切
颇有些风水轮流转的感觉,如同年初大火特火的web3一样,AIGC是现在的当红炸子鸡,创业投资讨论里如果不带点 AIGC 就是妥妥的落伍。不久之前,备受关注的开源 AI 绘画模型 Stable Diuffusion 推出了2.0版,引起了更多关注和焦虑:「我连1.0的门道都还没摸清楚,怎么就2.0了啊?」没有跟上 AIGC 的步伐,仿佛就要被世界所抛弃。有趣的是,作者前面看到一些 AIGC 文章, 基本都是围绕着最近大热的AI绘画来讨论的。但是,必须指出的是,当下在 AI 绘画或者 AI 生成其他形式内容的大模型里,对自然语言的理解是一个首要的关键环节,而之所以 AI绘画能火爆出圈,有至少一半的功劳必须归结于,当下最新的 AI 绘画模型可以直接「理解」用户的语言输入,以及在模型内部里把语言内容理解和图像内容理解紧密结合起来。生成式 AI 就像人工智能皇冠上的一颗明珠,不是唯一的一颗,但绝对璀璨耀。尽管 AI 在信息分析处理等各个方面都发挥着重要作用,但「生成式 AI」的出现无疑影响更深远:生成即创造。生成式 AI 的突破,意味着 AI 开始走向了创造新内容世界的大道。罗马不是一天建成的,就让我们一起回顾和尝试理解,这激动人心的一切究竟是怎么发生的。在回顾历史前,首先要跟风提一下几天前发布的 ChatGPT,一个绝对神仙级别的自然语言生成式 AI。ChatGPT 诞生的重要意义恐怕不亚于 Stable Diffusion 等 AI 绘画生成模型的出现。有兴趣的朋友可以感受去 chat.openai.com 感受一下这个当今最牛逼没有之一的自然语言问答式 AI 的巨大威力。ChatGPT 是明星人工智能公司 OpenAI 的 GPT 自然语言生成式模型的最新衍生品。在这之前,坊间已经传闻 OpenAI 的下一代自然语言生成模型 GPT4 即将出现。而且,有一个让人震惊的江湖传言:GPT4 据称通过了图灵测试!图灵测试究竟是什么意思?简单的说,就是隔着一个小黑屋问各种话题,然后是否能分辨小黑屋里回答问题的究竟是机器还是人类。如果无法辨别,就就说明了机器具有和人一样等级的智能,通过了图灵测试。迄今为止,还没有 AI 模型能真正通过图灵测试。看来临界点已经到,笔者都迫不及待的期待 GPT4 的真正推出了。谁知道,还没等来 GPT4, 衍生自 GPT3.5 的 ChatGPT 却先来了。顾名思义,ChatGPT就是「聊天 GPT」,以对话的方式交互,用户问问题,它来回答。咋听起来,似乎也没有很新鲜。但情况是。ChatGPT 的智能化远远超出了那些它的聊天 AI前辈们。好比 Stable Diffusion/Midjourney 也就是 AI 绘画,但所能生成的 AI绘画质量甩了前辈无数条街。网上有越来越多的文章开始安利 ChatGPT,不过多是拿了外网英文问答的截图,其实 ChatGPT 可以直接上中文!问从希格玛大厦如何去天安门,开始有点难度了,回答非常正确!(要知道, 这可不是某个特地为了中文导航优化的 AI,ChatGPT 是从它通用的知识积累里得到的理解)对龙珠的剧情理解,回答中规中矩,80 分+,本来作者期望它能讲得更详细些:广东人真的喜欢吃甜的?这个问题很多中国人都不一定答得上:美帝问题来一问(看来 ChatGPT 果然经过了特别设置过滤了敏感问题):另外,可以直接问 ChatGPT 怎么写代码,比如写一个俄罗斯方块:而更有想象力的,是让 ChatGPT 来生成 AI 绘画的输入关键词!让 AI 自己来指导 AI 作画,多美妙的主意。这仅仅是一个开始,随着 ChatGPT 在全网的各种自来水安利,相信还有更多古灵精怪的玩法不断被网友们挖掘出来。ChatGPT 的回答给人的感觉是,这是一个特别靠谱的聊天 AI,真正的上知天文下知地理,最关键的是,它不胡说八道!正因为它回答的准确性,看起来 ChatGPT 有了替代通用搜索引擎 Google 的可能性。OpenAI 的 CEO 萨姆阿尔特曼(SamAltman)对 ChatGPT 的未来发展表示很有信心。他在推特上说,语言接口是未来的一个发展方向,OpenAI 只是一个先行者,相信很快大家就能用上真正智能的提供建议的 AI 助手了。测试版的 ChatGPT 仍有一些缺点,但这都只是战术级别的;在战略上,ChatGPT 的前景已经相当令人期待,特别是 OpenAI 下一代 GPT4 加持下的 ChatGPT,其能力恐怕更加突破天际。我们也许正在经历又一个 AI 突破的时刻,一如 2022 年初到年中 AI 绘画的势如破竹。而这次,则是人类通用信息生成的突破!喜欢刨根问底的读者们会问,AI 是如何走到这一步的?让我们远离现实的喧嚣,把目光投回到那有点遥远的过去吧。从某种意义上,语言表达是人类信息和思想交流的窗口。人类并没有第七感,也没有脑电波直达的交流(目前没有:P),信息沟通都通过口头语言和书面语言来传递。(当然, 可以说还有一些手势和肢体表达,但信息量基本可以忽略不计)针对语言信息的人工智能处理,或者学术一点,「自然语言处理 NLP」,是科学家们最早研究,人工智能最早发源的领域。远在 1956 年,美国的达特茅斯学院举行了一次具有传奇色彩的学术会议(DartmouthConference),计算机专家约翰·麦卡锡提出了「人工智能」一词。这被广泛认为是人工智能正式诞生的日子。
十位参与 1956 年的达特茅斯会议的科学家,AI 之父们这个会议很有意思,事后诸葛亮的我们,一起来看看这个会议 7 个特别有前瞻性的主要议题:1. Automatic Computer 自动计算机:「如果一台机器可以完成一项工作,那么就可以对一台自动计算器进行编程来模拟这台机器。目前计算机的速度和内存容量可能不足以模拟人脑的许多高级功能,但主要的障碍不是缺乏机器容量,而是我们无法编写充分利用我们所拥有的机能。」
现代第一台电子计算机 ENIAC 的发明日期是 1946 年 2 月 14 日,也就是说,当时距离第一台电子计算机的诞生仅仅过去了 10 年。先驱们的遗憾是当时高级程序技术还基本没有,无法充分发挥计算机的作用:)2. How can a Computer be Programmed to Use a Language?如何对计算机进行编程以使用一种语言:「可以推测,人类思想的很大一部分是根据推理规则和猜想规则来操纵词语的。从这个观点来看,形成泛化就是承认一个新词和一些规则,其中包含这个新词的句子暗示和被其他句子暗示。这个想法从来没有被非常精确地表述过,也没有例子。」
先驱们对语言文字的机器理解充满了预期,而直到现在,有了 GPT 这些当超大规模的自然语言 AI 模型,我们才堪堪敢说,先驱们的期望逐渐在实现,计算机开始真正理解了语言。「一组(假设的)神经元如何排列以形成概念。很多当下的计算机科学家等人已经就这个问题做了大量的理论和实验工作。已经获得了部分结果,但这个问题还需要更多的理论工作。」
神经网络! 在 AI 概念诞生之时,先驱们就意识到了,人工神经网络的概念将要在 AI 里发挥重要作用。4. Theory of the Size of a Calculation 计算规模理论:「如果给一个很好的问题(一个可以机械地测试所提出的答案是否是有效答案的问题),解决它的一种方法是按顺序尝试所有可能的答案。这种方法是有效的,要排除它,必须有一些计算效率的标准。一些考虑将表明,为了获得计算的效率的度量,必须手头有一种测量计算设备复杂性的方法,如果有函数复杂性理论,这反过来也可以做到。香农和麦卡锡已经获得了关于这个问题的一些部分结果。」
计算机科学里重要的计算复杂性理论,就是这个时间点被提出和发展起来的。5. Self-improvement 自我改进:「也许真正智能的机器会进行自我改进的活动。已经提出了一些这样做的方案,值得进一步研究。这个问题似乎也可以抽象地研究。」
这是一个很有挑战性的问题,用现在的观点可以换个说法:AI 是否能实现自我编程自我提升?或许很快就可以了。「许多类型的「抽象」可以被清晰地定义,而其他一些类型则不那么清晰。直接尝试对这些进行分类并描述从感官和其他数据中形成抽象的机器方法似乎是值得的。」
通过机器智能来对各种信息自动加以分类和抽象,这正是当今各种牛逼闪闪的AI大模型正在达成的成就。7. Randomness and Creativity 随机性和创造性:「一个相当吸引人但显然是不完整的猜想是,创造性思维和缺乏想象力的有效思维之间的区别在于注入了某种随机性。随机性必须由直觉引导才能有效。换句话说,受过教育的猜测或直觉在其他有序的思维中包括了受控的随机性。」
先驱们非常直观的理解,是否有随机性是创造性思维和非创造性的分析思维的重要区别。而随机性需要由一些「直觉」引导, 或者说真正的 AI 需要一种「受控的随机性」。其实, 当前 AI 绘画生成机制里很好践行了这个洞察:在每一幅 AI 绘画背后都是一个 AI模型(比如 Stable Diffusion)+ 一个确定的输入