简介

介绍大模型相关概念、大模型能做什么及国内外大模型、AI助手总结

概念

机器学习

一种在没有明确编程的情况下，通过算法和统计模型使计算机从数据中自动学习和做出决策的技术

常见的算法包括：分类算法（如支持向量机）、回归算法（如线性回归）、神经网络（如卷积神经网络）

基本原则是：从数据中自动学习和做出决策

类比教狗子握手，你不会写下详细的指令，而是会通过反复示范和奖励（数据）来训练它

特点：机器学习包括监督学习、无监督学习和强化学习等不同类型。它依赖于从大量数据中提取模式和规律，以便在新数据上做出预测或决策。
用途：机器学习应用广泛，包括图像识别、语音识别、自然语言处理、推荐系统等领域。例如，推荐系统可以根据用户的历史行为推荐商品或电影。
优势：机器学习可以自动处理和分析大量数据，发现其中的隐藏模式和规律，从而提高决策的准确性和效率。
缺点：机器学习模型的性能依赖于数据的质量和数量，训练过程也可能耗费大量时间和资源。此外，机器学习模型的决策过程通常是“黑箱”，不易解释。

深度学习

一种通过深层神经网络使计算机从数据中自动学习和做出决策的技术

遵循机器学习的基本原则，属于机器学习的一种技术

特点：
1. 深层神经网络：通常包含多层（几十、几百、上千）神经网络
  
  神经网络：类似生物神经网络，通过神经元接收并处理数据，然后将结果传递给下一层
2. 自动特征提取：通过多层非线性变换，自动从原始数据中提取特征
  例如训练一个模型来区分图片中的猫和狗
  
  通过卷积神经网络（CNN），只需提供大量的猫和狗的图片以及它们的标签（猫或狗）
  1. 网络的前几层可能学习到简单的边缘和颜色特征
  2. 中间几层可能学习到如眼睛、鼻子等更复杂的特征
  3. 最后几层则会整合这些特征，学会识别整只猫或狗
  4. 最终，模型会输出一个预测，指示图片中是猫还是狗
3. 需要大规模数据和计算：需要大量的数据和计算资源来进行训练
优势：擅长处理图像、语音、文本等复杂的、高维度的数据
用途：广泛应用于图像识别、自然语言处理（如机器翻译、对话系统）、语音识别、推荐系统、自动驾驶等领域
缺点：需要大量数据和计算资源，尤其是 GPU（图形处理单元）来加速训练过程。模型越复杂，计算资源的需求就越高，训练时间也更长

常见模型/架构

深度学习模型是用于构建和训练神经网络的基础架构或算法，定义了如何设计和训练神经网络，提供各种处理和理解数据的方法。

这些模型本身并不直接执行特定任务，而是为任务提供了基础。

通常说的大模型是基于某个深度学习的基础架构，经过大量训练和优化，完成特定任务的应用模型

卷积神经网络（CNNs）

主要用于处理图像数据

循环神经网络（RNNs）

主要用于处理序列数据，如文本和时间序列。

生成对抗网络（GANs）

适用于生成数据（如图像、音乐）的任务。

Transformer

用于处理自然语言处理（NLP）任务，特别是序列到序列的任务。

GPT

Generative Pre-trained Transformer, 生成式预训练模型，是Transformer模型的一种变体

扩散模型 Diffusion

一种生成模型，通过模拟数据从噪声逐渐变得清晰的过程来生成新数据，适合图像生成、修复、编辑等任务

分两步，先增加噪声，再去除噪声

大模型 LM

Large Model

具有大量参数的深度学习模型

特点：包含数十亿甚至数千亿的参数

GPT-3拥有1750亿个参数
优势：由于参数量巨大，大模型可以在大量数据上进行训练，从而捕捉到细微的模式和知识，提高模型的精度和泛化能力
用途：可用于自然语言处理（NLP）、计算机视觉（CV）、语音识别、推荐系统等方面

例如基于Transformer架构，经过大量训练和优化，用于自然语言处理的的GPT3.5、Gemini等模型
缺点：训练和部署大模型需要大量数据、计算资源和时间

例如 llama3.1 8b（billion，十亿）参数，启动时需要占用4.7G显存，随着对话长度的增加而增加

参数

词汇对应的向量中的元素，表示一种语义特征，其数值表示模型在该语义特征上的信心，帮助模型更好的理解和处理语言

大语言模型会给所有的词语都映射到一个高纬向量，称为词嵌入 (word embedding)

假设词汇表包含 10,000 个单词，每个单词用一个 512 维的向量表示。这个嵌入矩阵的大小就是 10,000 x 512。在训练过程中，模型会为每个单词学习到一个特定的向量，比如：

“猫” → [0.21, -0.15, …, 0.75] (512维向量)

“狗” → [0.22, -0.12, …, 0.77]

模型的参数数量是衡量其大小和复杂性的一个重要指标，通常来说，参数越多的模型具有更高的表达能力和复杂度，但同时也需要更多的计算资源来训练和使用

模型的参数的多少取决于设计架构

GLM-4-9B中的“9B”指的是模型的大小，即模型的参数数量。B表示 billion（十亿），因此GLM-4-9B表示该模型有大约90亿个参数

压缩：一种技术，用于减少机器学习模型（尤其是大型神经网络模型）中使用的参数数量，以减小模型的存储空间和计算资源的消耗，同时尽量保持模型的性能不受到显著影响

多模态

指数据的类型，包括：文本、图像、音频、视频

大模型能做什么（大模型角度）

能落地的

1.跨专业领域完成任务

在不擅长的领域，满分100分，AI可以实现一个30分的答案。例如设计图标、编程、写作（公文）、画画、作曲等

2.评估指标清晰、目标明确的复杂任务

前提是你要清楚要做什么

涉及到任务的背景

任务目标明确、每一步的评估指标清晰的复杂任务。例如后端模块编程：任务逻辑清楚、每一步的实现效果可评估。反面例子：让AI翻译，我的网络“卡了”，卡了在不同的场景下有不同的解释，例如网络卡了指网络传输中断了，硬盘卡了指数据读取速度不够，CPU卡了指计算能力不足等。因此“卡了”翻译的目标不明确，AI并不能给出准确的翻译