ChatGPT:智能对话开创新时代

微信读书

感悟

1
2
周六 2023-06-17 16:34:19 结束,耗时52分钟。
迪卡侬第一次蹬车。

笔记

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
《ChatGPT:智能对话开创新时代》
成生辉
53个笔记

# 第一章 划时代的浪潮:ChatGPT

>> ChatGPT(全称:Chat Generative Pre-trained Transformer),美国OpenAI研发的聊天机器人程序,于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样聊天交流,甚至能完成撰写邮件、视频脚本、文案、代码,翻译、写论文等任务。
——百度百科

# 缔造传奇:OpenAI

>> 2015年,OpenAI成立,其创始人包括埃隆·马斯克、萨姆·阿尔特曼(Sam Altman)等知名人士,目标是推动AI的发展并让其造福全人类。

# 业务模式

>> OpenAI提供了一系列的API和工具,使开发者能够更快地将想法转换为可使用的应用程序和服务以帮助他们节约时间和开发成本。
OpenAI API支持多种应用场景,其中包括自然语言处理、计算机视觉、强化学习、增强学习和深度学习等。开发者可以使用OpenAI API来开发更加智能的应用程序,如语音识别、机器翻译、对话机器人、智能推荐等系统。此外,OpenAI API还提供了许多自定义应用程序,如智能家居、智能工厂、智能汽车等,帮助开发者快速实现自己的想法。

# 第二节 层层的突破

>> ChatGPT具有大量的预训练参数,能够涵盖广泛的知识领域,并可以通过自我学习和不断优化拓展自身的知识深度和广度。

# 逻辑性强的结构化写作

>> 使用ChatGPT生成的新闻稿件。在对ChatGPT发出“请写一篇关于ChatGPT的新闻播报”的命令后,它快速生成了一篇标准的新闻稿。整篇稿件的逻辑性较强,包含了引言、背景,表达了较为中立的观点并做了总结。

>> 使用ChatGPT撰写产品推广方案的示例。ChatGPT可以迅速从市场需求入手,抓住目标客户,强调产品卖点,引导客户消费,最终生成粉底液的推广文案。该文案结构清晰,但语言不太符合当下社交媒体的文案风格。

# 高效率的辅助性写作

>> 谷歌翻译与ChatGPT在翻译简单句子时没有太大的差异,但在长句、难句的翻译上,ChatGPT翻译得更通顺,语言表达更自然。

# 第三节 问题、引导与使用

>> ChatGPT回答问题的质量很大程度取决于用户问题的质量,这也催生出一个新的职业——提示工程师(Prompt Engineer)。

# 对话的艺术

>> 使用ChatGPT生成视频脚本的例子。在我们对视频内容和总时长提出了具体要求后,ChatGPT很快就生成了一个有分镜头的视频脚本。脚本包含了画面内容及与画面相匹配的文案。


>> 接着,在刚生成的视频脚本基础上,我们对ChatGPT提出进一步的要求。如图1.16所示,我们可以看出,ChatGPT能够联系上下文,针对上一轮的对话内容,按要求进一步细化脚本。

# 玩转ChatGPT

>> 它能够准确理解马致远这首小令所表述的意境。在它描述的画面中,几乎涵盖了这首小令所要传递的意象。

# 智能对话模型

>> GPT-1模型的核心是一个基于变换器的编码器—解码器框架,它可以自动学习语言的规则和模式,从而生成自然、连贯的文本。

>> 直到2019年,OpenAI团队发布了新版本——GPT-2模型,该模型具有更多的参数和更强的语言生成能力,可以生成更加自然、准确的输出文本。

# 第三节 智能技术之于ChatGPT

>> AI是ChatGPT依赖的核心技术之一。

# 深度学习

>> 深度学习是机器学习的一个分支

>> 数字序列:ChatGPT会对问题进行分词、词向量化和位置编码等处理,并转换为数字序列。例如,“今天天气如何?”可能被转换为[23, 56, 789, 23, 90]这样的数字序列。

# 强化学习

>> ChatGPT的强化学习模型由三部分组成,即状态、动作和奖励。在这个模型中,输入的问题会作为状态,ChatGPT的回答会作为动作,而用户的反馈会作为奖励。

>> 例如,当用户输入问题“法国的首都是什么”时,Chat-GPT的强化学习模型将生成一个回答,并将其输出给用户。如果用户对该回答满意,那么ChatGPT将接收到一个正奖励,表明其回答是正确的。如果用户对回答不满意,那么ChatGPT将接收到一个负奖励,表明其回答不够准确或不够完整。ChatGPT将使用这些奖励来调整其策略,从而提高其回答的质量。

# 算力的挑战

>> 再好的概念、架构,再优秀的产品,如果缺乏算力的支撑,那也打不通服务商和用户之间那条看似顺畅的路。可以说,互联网行业的商战,首先就是算力战。赢得这场挑战的关键,就蕴藏在我们下面要讲的概念中——云计算与边缘计算

# 第一节 前置自然语言处理技术

>> Transformer是一个采用注意力机制捕获上下文信息、以编码器和解码器为模型整体架构的端到端模型。它往往被用于各种转换任务,如将源语言转换成目标语言的翻译任务、将图片中的文本图像转换为文字的OCR(光学字符识别)任务等,故此得名Transformer

>> Transformer最重要的两个概念是“编码器和解码器构成的端到端模型”和“可以捕获上下文信息的注意力机制”

# 探秘编码器—解码器

>> 举例来说,“我爱你”和“你爱我”这两句话的语义是完全不同的。但是,传统的前馈神经网络(Feedforward Neural Network,FNN)和卷积神经网络(Convolutional Neural Networks,CNN)并不能将语序纳入模型的学习中,去理解文字语序带来的语义差别。于是,学者们就提出了循环神经网络(Recurrent Neural Network,RNN)概念,即在每一个时刻只向模型传送一个输入数据,并且按照序列前进的方向,递归地令模型进行学习。

# 支持图像信息

>> GPT-4支持图像识别任务,比如识别图中信息,甚至可以对图片做出评价。从技术角度来看,GPT-4理解图像的方法不是先将图片转化为结构化或非结构化的文本信息,进而将图像问题转化为文本问题,而是直接将图像作为预训练任务的输入,让模型理解图片。

# 医疗管理技术的精准化

>> (1)总结患者信息。

>> (3)帮助患者沟通。

>> (4)互联网医院。

# 搜索引擎的剧变

>> ChatGPT和搜索引擎运行的原理是不同的:ChatGPT不会像搜索引擎一样,在互联网上搜索信息来源,并进行整合;它生成答案时只是通过复杂的神经网络计算出最合适的下一个字,最终将若干个字拼接起来作为回答。

>> 在面对类似“生命的意义是什么?”这样的问题时,虽然ChatGPT无法提供具体的答案,但它仍会尝试给出一些解释,以便帮助用户更好地理解和探究这个问题。


# 编程新时代

>> 假设一名资深程序员想要了解哈希表的概念,他就可以向ChatGPT进行提问。

>> [插图]

# 不仅仅是咨询

>> [插图]

# 文案创作的新模式

>> 使用ChatGPT生成粉底液宣传文案的例子。只要给ChatGPT具体的风格及内容要求,它就能很快生成文案。


# 模型测评者

>> Github Copilot的横空出世极大提升了程序员的工作效率。它是由微软和OpenAI共同开发的一款AI辅助编程工具。和Chat-GPT一样,它同样是基于GPT开发的。

# 其他大语言模型

>> LaMDA全称为“Language Model for Dialogue Applications”,是一种自然语言处理技术,也是一种新型语言模型,旨在通过深度学习和自然语言处理,提供更加智能化和自然的对话交互体验。LaMDA与其他类ChatGPT相比,具有多轮对话、集成式处理和高度安全的优势。它能够处理复杂的多轮对话,提供智能化和自然的回答与解决方案。

# “文心一言”的发布

>> 百度为了抢占类ChatGPT市场先机,第一个站出来高调发布了类ChatGPT产品——文心一言。

# ChatYuan的解决方案

>> 杭州元语智能科技公司就已经发布了类ChatGPT产品——ChatYuan

# 华为PanGu模型的提出

>> PanGu(盘古)是由中国信息技术巨头华为公司开发的自然语言处理模型,它是目前公开的最大的中文预训练语言模型之一,其参数规模达到4000亿级别。该模型的名称来自中国古代神话中的创世之神——盘古。

# WeLM的尝试

>> WeLM是腾讯微信团队借鉴GPT-3模型结构开发的一款生成式大语言模型,但是其团队并没有继续基于此模型开发相应的智能对话应用。

# 第六章 ChatGPT的社会问题

>> 未来是什么样的?会不会就像科幻小说《沙丘》中描写的那样,在AI普及后,发生机器人和人类之间的战争,而人类在经过了艰苦卓绝的斗争取得胜利后,才得出“人不能被取代”这一绝对准则?

# 第一节 什么是AIGC

>> 2022年11月30日,ChatGPT的正式发布点燃了AIGC技术这把火。实际上,从20世纪末开始,AI技术的快速发展就催生了大量的新技术。AIGC技术的发展可以说是AI发展史上的又一个里程碑。

# 从诞生到发展

>> AIGC(AI Generated Contents):利用AI自动生成诸如文字、图片、视频、音频等内容,它被认为可能是当前新一代技术革命的代表之一。

# 英伟达的远大目标

>> 推动AIGC发展的另一个重要因素是计算硬件技术的发展。早期的AI算法是在CPU上运行的,无法满足训练大型深度学习模型的需要。面对这样的需要,GPU被开发出来,GPU通常用于广泛的图形处理和视频渲染,如帮助图形程序开发人员创建更逼真的场景。由此可见,在ChatGPT改变世界的新闻背后,是电脑硬件的默默发展。其中,制造GPU的典型代表是英伟达。

>> 最重要的H100 NVL,这是一款专门针对ChatGPT设计的显卡。它可以将英伟达的两个H100 GPU拼接在一起,用来训练大语言模型。

# 图像AIGC的多样

>> 图像AIGC

>> 现在的图像生成AI软件,往往只需要数分钟就可以生成人像、风景、抽象画,甚至可以模仿著名艺术家的风格作画。

# 音频AIGC的流行

>> 音频AIGC

>> 在可见的未来中,它将影响音乐领域的各个方面,包括音乐创作、音效制作和音乐流媒体等

# 视频AIGC的应用

>> 视频AIGC

# 元宇宙世界的新拼图

>> 作为语言类AI,ChatGPT在文本生成方面也会增加元宇宙世界内容的丰富程度。

图8.1 元宇宙世界的新拼图


# Web3.0建设的催化剂

>> 相较于Web1.0和Web2.0,ChatGPT代表了Web3.0的发展方向。Web3.0也被称为语义网,即机器能够理解人类语言且能明白语言及文本中的逻辑关系,它将开启一个能够实现更高效率的人机对话的时代。

# 认知的跨越

>> 夺走你工作的不是AI,而是那些懂得如何利用AI工具的人。

>> 在过去的一百年里,人类经历了三次超级工具的革新浪潮,包括互联网、智能手机和现在的ChatGPT。互联网是第一个浪潮,它利用虚拟的聚合跨越了现实空间。智能手机是第二个浪潮,它打破了人们使用互联网的空间限制,使工作、生活和娱乐转移到线上。现在,ChatGPT或许能够成为第三个浪潮,它及其背后的诸多生成式AI将改变互联网,改变人类的工作方式,成为新的、有力的效率工具。

>> 在ChatGPT出现之前,人类一直是孤独的思考者,面对几千年文明积累下来的巨量文本资料,只能努力提高检索效率。现在,ChatGPT好像是图书馆内资深的管理员。在无穷无尽的知识和信息中,它能够飞速回答问题,并综合所有已知的知识为用户解答问题,提供策略,生成方案。