ChatGPT这样的大规模语言模型建立了什么样的理论?24篇重要论文摘要
ChatGPT于2022年11月发布,短短一周用户突破100万后,谷歌的Bing AI Chat、微软的**Bard** 研究聊天 AI 的 Sebastian Laschka 总结了聊天 AI 投入实际应用之前的研究轨迹,重点介绍了 24 篇重要论文。了解大型语言模型 - 作者:Sebastian Raschka https://magazine.sebastianraschka.com/p/understanding-large-language-models目录主要架构和任务按预期方向扩展和提高效率语言模型 引导/人类强化学习反馈(RLHF)
・主要架构和任务
**◆1: Neural Machine Translation by Jointly Learning to Align and Translate (2014)**通过引入“注意力”, 即循环神经网络(RNN)
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/6858f6209ca19ed23351964abea60399_MD5.png]]
◆2:Attention Is All You Need (2017) 引入了由编码器部分和解码器部分组成的“变压器”模型。本文还介绍了一些现代基础概念,例如位置输入编码。
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/e3c6e960f46df96bfba6da0b6c4d93d2_MD5.png]]
◆3:关于 Transformer 架构中的层标准化(2020) 我展示了将 Transformer 模型的“Norm”层放在块前面会更有效。
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/3cdcc52e2fabec98ad96d0e7cacfc84b_MD5.png]]
◆4:学习控制快速权重记忆:动态循环神经网络的替代方案(1991) 1991 年,人们已经在考虑一种类似于 Transformers 的方法。拉什卡先生说:“推荐给那些对历史感兴趣的人。”
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/784af3059a8ac3809bbac30fd89d5960_MD5.png]]
◆ 5:文本分类的通用语言模型微调(2018) 我们表明,分预学习和微调两个阶段训练语言模型可以很好地执行任务。这篇论文是在 Transformers 论文一年后写的,但重点是常规 RNN 而不是 Transformers。
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/0cc7dc920fb6a0b91bcac9bc5ee7b53e_MD5.png]]
◆6:BERT:用于语言理解的深度双向变压器的预训练(2018) 根据变压器的结构,分为编码器和解码器,研究领域也集中在编码器型变压器的方向进行文本分类、翻译和摘要,分为两个方向,比如decoder类型transformer的方向。 BERT 论文引入了一种通过屏蔽部分句子来进行预测的技术,使语言模型能够理解上下文。
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/ca74ea9ff9a4dfc410eb4b3678368300_MD5.png]]
◆7: Improving Language Understanding by Generative Pre-Training (2018) 这是第一篇 GPT 论文。我们通过“预测下一个单词”来训练具有解码器类型结构的语言模型。
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/491e0aeb0f86bb75cac65ecf1038d176_MD5.png]]
◆8:BART:用于自然语言生成、翻译和理解的去噪序列到序列预训练(2019)将擅长 预测的编码器型变压器和擅长文本生成的解码器型变压器结合起来充分利用两者,我使之成为可能。
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/291476c80a4a29f9f8101f5c5d875546_MD5.png]]
◆9:在实践中利用法学硕士的力量:ChatGPT 及其他方面的调查(2023) 这 不是一篇研究论文,而是一篇总结各种架构如何演变的调查结果的论文。如右图蓝色分支所示,我们可以看到解码器类型的发展尤为显着。
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/886b3eeb1542dc6ab6c844bd71f42b75_MD5.png]]
・提高规模和效率
◆10:FlashAttention:Fast and Memory-Efficient Exact Attention with IO-Awareness (2022) 这是对一个精彩算法的评论,该算法允许高速计算注意力,同时还减少内存消耗。
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/b8dc53bc8a8b2df7125388cb24eceb9b_MD5.png]]
◆11:临时抱佛脚:一天在单GPU上训练语言模型(2022) 结果表明,小模型可以高速训练,但同时训练效率下降。相反,即使模型的大小增加,也可以在相似的时间内进行训练。
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/2d12cdcf9fa875eb28f5b0f104592df4_MD5.png]]
◆12:LoRA:大型语言模型的低秩适应(2021) 微调大型语言模型的方法有很多种,但其中“LoRA”是参数效率最高的方法。
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/3a3b441f7d71968ffc07d4af4cbcd48d_MD5.png]]
LoRA在下面的文章中间有解释。 出现了一种即使 GPU 内存很小也能训练大量参数的语言模型的方法“QLoRA”,它是什么样的方法呢?-吉加津
◆ 13:从规模缩小到规模扩大:参数高效微调指南(2022) 预训练的语言模型可以很好地执行各种任务,但如果要专门从事特定任务则需要微调。在本文中,回顾了许多有效微调的技术。
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/2156e94e8af68e888769a0a0c12f8d4e_MD5.png]]
◆ 14:缩放语言模型:训练 Gopher 的方法、分析和见解(2022) 检查增加语言模型中的参数数量时性能如何提高、句子理解、事实检查、有毒词我发现我变得擅长诸如此类的任务作为识别 另一方面,逻辑和数学推理任务的结果没有太大变化。
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/f5a9fd7bdd1b2001bedc009a321dd3bc_MD5.png]]
◆15:训练计算最优大型语言模型(2022) 展示了模型参数数量和训练数据数量之间的新关系,以提高生成任务的性能。他指出 GPT-3 和 Gopher 等模型训练不足。
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/a46ec17926f4effa27d9868d58e6e9aa_MD5.png]]
◆16:Pythia:跨训练和扩展分析大型语言模型的套件(2023) 我研究了语言模型如何在训练过程中获得能力。
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/b8731ec286ba7dec25ba3f47db61a05e_MD5.png]]
本文介绍了以下内容: ・对重复数据进行训练既没有好处也没有坏处 ・训练的顺序对记忆没有影响 ・预训练中多次使用的单词可以在相关任务上获得更好的性能 ・批量大小增加一倍,训练时间减半,但不影响收敛
・引导语言模型向预期方向发展
◆17:训练语言模型遵循人类反馈指令(2022) 引入了“人类反馈强化学习(RLHF)”,将人类纳入强化学习循环。它被称为 InstructGPT 论文,使用本文所使用的语言模型的名称。
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/7d6bd8d41ca756996b5c014722f84ba7_MD5.png]]
◆18:宪政人工智能:人工智能反馈的无害性(2022) 我们开发了一种基于规则的自我训练机制,以创建“无害”的人工智能。
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/bda2f47ac0866e84abe24e3f85350526_MD5.png]]
◆19:自指令:将语言模型与自生成指令对齐(2022) 在微调语言模型时,如果人类准备指令数据,则存在扩展困难的问题。本文描述了一种在语言模型中准备指令数据本身的机制。虽然性能优于原始语言模型和使用人类准备的数据训练的模型,但它输给了执行 RLHF 的模型。
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/f19754a3a92fffc7d6deae9d05200271_MD5.png]]
・基于人类反馈的强化学习(RLHF)
Raschka 表示,RLHF 被认为是截至 2023 年 5 月可用的最佳选择。Rashka先生预计未来RLHF的影响力会不断增加,因此他将为那些想要更多了解RLHF的人介绍更多的RLHF论文。 ◆20:深度强化学习的异步方法(2016) 本文介绍了策略梯度方法。 ◆21:近端策略优化算法(2017) 我们改进了策略梯度方法,开发了近端策略优化(PPO),提高了数据效率和扩展性。 ◆22:根据人类偏好微调语言模型(2020) 将 PPO 引入 RLHF。 ◆23:学习从人类反馈中总结(2022) 我们通过“预学习”→“微调”→“PPO”3步训练,创建了一个比普通监督学习效果更好的模型。
[![[_resources/ChatGPT这样的大规模语言模型建立了什么样的理论? 24 篇重要论文摘要/4d1702e2c38f659a9931d8754babd4e0_MD5.png]]
◆24:通过人类反馈训练语言模型以遵循指令(2022) 第17篇论文重新出现。训练与上述相同的三个步骤进行,但强调文本生成而不是文本摘要,并且增加了评估选项的数量。
复制本文标题和网址
相关文章“ Attention Viz”将Chat等交互式AI的基础“Attention”可视化GPT-GIGAZINE 对于大规模语言模型的开发者来说有用的各种数字-GIGAZINE GPT-4和PaLM Large-像这样的规模语言模型可能会随着规模的 增长突然绽放意想不到的能力是一种方法吗?-GIGAZINE 开源大型语言模型开发项目``RedPajama’‘发布首个模型``RedPajama-INCITE’’,免费商用 -GIGAZINE最新语言模型如``GPT-3’‘自然其他 人研究论文称它已经获得了“心灵理论”,即推断心灵的能力
