你笑了

你的笑,是星星跳跃浪花的笑

0%

大模型简介

简介

介绍大模型相关概念、大模型能做什么及国内外大模型、AI助手总结

概念

机器学习

一种在没有明确编程的情况下,通过算法和统计模型使计算机从数据自动学习和做出决策技术

常见的算法包括:分类算法(如支持向量机)、回归算法(如线性回归)、神经网络(如卷积神经网络)

基本原则是:从数据中自动学习和做出决策

类比教狗子握手, 你不会写下详细的指令,而是会通过反复示范和奖励(数据)来训练它

  • 特点:机器学习包括监督学习、无监督学习和强化学习等不同类型。它依赖于从大量数据中提取模式和规律,以便在新数据上做出预测或决策。
  • 用途:机器学习应用广泛,包括图像识别、语音识别、自然语言处理、推荐系统等领域。例如,推荐系统可以根据用户的历史行为推荐商品或电影。
  • 优势:机器学习可以自动处理和分析大量数据,发现其中的隐藏模式和规律,从而提高决策的准确性和效率。
  • 缺点:机器学习模型的性能依赖于数据的质量和数量,训练过程也可能耗费大量时间和资源。此外,机器学习模型的决策过程通常是“黑箱”,不易解释。

深度学习

一种通过深层神经网络使计算机从数据自动学习和做出决策的技术

遵循机器学习的基本原则,属于机器学习的一种技术

  • 特点

    1. 深层神经网络:通常包含多层(几十、几百、上千)神经网络

      神经网络:类似生物神经网络,通过神经元接收并处理数据,然后将结果传递给下一层

    2. 自动特征提取:通过多层非线性变换,自动从原始数据中提取特征

      例如训练一个模型来区分图片中的猫和狗

      通过卷积神经网络(CNN),只需提供大量的猫和狗的图片以及它们的标签(猫或狗)

      1. 网络的前几层可能学习到简单的边缘和颜色特征
      2. 中间几层可能学习到如眼睛、鼻子等更复杂的特征
      3. 最后几层则会整合这些特征,学会识别整只猫或狗
      4. 最终,模型会输出一个预测,指示图片中是猫还是狗
    3. 需要大规模数据和计算:需要大量的数据和计算资源来进行训练

  • 优势:擅长处理图像、语音、文本等复杂的、高维度的数据

  • 用途:广泛应用于图像识别、自然语言处理(如机器翻译、对话系统)、语音识别、推荐系统、自动驾驶等领域

  • 缺点:需要大量数据和计算资源,尤其是 GPU(图形处理单元)来加速训练过程。模型越复杂,计算资源的需求就越高,训练时间也更长

常见模型/架构

深度学习模型是用于构建和训练神经网络的基础架构或算法,定义了如何设计和训练神经网络,提供各种处理和理解数据的方法。

这些模型本身并不直接执行特定任务,而是为任务提供了基础。

通常说的大模型是基于某个深度学习的基础架构,经过大量训练和优化,完成特定任务的应用模型

卷积神经网络(CNNs)

主要用于处理图像数据

循环神经网络(RNNs)

主要用于处理序列数据,如文本和时间序列。

生成对抗网络(GANs)

适用于生成数据(如图像、音乐)的任务。

Transformer

用于处理自然语言处理(NLP)任务,特别是序列到序列的任务。

GPT

Generative Pre-trained Transformer, 生成式预训练模型,是Transformer模型的一种变体

扩散模型 Diffusion

一种生成模型,通过模拟数据从噪声逐渐变得清晰的过程来生成新数据,适合图像生成、修复、编辑等任务

分两步,先增加噪声,再去除噪声

大模型 LM

Large Model

具有大量参数的深度学习模型

  • 特点:包含数十亿甚至数千亿的参数

    GPT-3拥有1750亿个参数

  • 优势:由于参数量巨大,大模型可以在大量数据上进行训练,从而捕捉到细微的模式和知识,提高模型的精度和泛化能力

  • 用途:可用于自然语言处理(NLP)、计算机视觉(CV)、语音识别、推荐系统等方面

    例如基于Transformer架构,经过大量训练和优化,用于自然语言处理的的GPT3.5、Gemini等模型

  • 缺点:训练和部署大模型需要大量数据、计算资源和时间

    例如 llama3.1 8b(billion,十亿)参数,启动时需要占用4.7G显存,随着对话长度的增加而增加

参数

词汇对应的向量中的元素,表示一种语义特征,其数值表示模型在该语义特征上的信心,帮助模型更好的理解和处理语言

大语言模型会给所有的词语都映射到一个高纬向量,称为词嵌入 (word embedding)

假设词汇表包含 10,000 个单词,每个单词用一个 512 维的向量表示。这个嵌入矩阵的大小就是 10,000 x 512。在训练过程中,模型会为每个单词学习到一个特定的向量,比如:

  • “猫” → [0.21, -0.15, …, 0.75] (512维向量)
  • “狗” → [0.22, -0.12, …, 0.77]

模型的参数数量是衡量其大小和复杂性的一个重要指标,通常来说,参数越多的模型具有更高的表达能力和复杂度,但同时也需要更多的计算资源来训练和使用

模型的参数的多少取决于设计架构

GLM-4-9B中的“9B”指的是模型的大小,即模型的参数数量。B表示 billion(十亿),因此GLM-4-9B表示该模型有大约90亿个参数

压缩:一种技术,用于减少机器学习模型(尤其是大型神经网络模型)中使用的参数数量,以减小模型的存储空间和计算资源的消耗,同时尽量保持模型的性能不受到显著影响

多模态

指数据的类型,包括:文本、图像、音频、视频

大模型能做什么(大模型角度)

能落地的

1.跨专业领域完成任务

在不擅长的领域,满分100分,AI可以实现一个30分的答案。例如设计图标、编程、写作(公文)、画画、作曲等

2.评估指标清晰、目标明确的复杂任务

前提是你要清楚要做什么

涉及到任务的背景

任务目标明确、每一步的评估指标清晰的复杂任务。例如后端模块编程:任务逻辑清楚、每一步的实现效果可评估。反面例子:让AI翻译,我的网络“卡了”,卡了在不同的场景下有不同的解释,例如网络卡了指网络传输中断了,硬盘卡了指数据读取速度不够,CPU卡了指计算能力不足等。因此“卡了”翻译的目标不明确,AI并不能给出准确的翻译

3.开个头,打个样

让大模型打个样,了解任务的最佳实践方案等

什么可以交给大模型做(任务的角度)

1.技术成熟度很高,对人的依赖越来越低的领域

  • 写作

    改错

  • 写代码

    运行代码和测试代码,多次迭代)

  • 绘画

    缺少物理常识,例如视角透视、光照。需要人去优化

  • 视频

    文字生成

    图片生成(效果好):由一张开始图片去推测

2.能够形成闭环的任务

  • 产品研发

    设计、研发、测试、上线、迭代

  • 教学

  • 戴明环

3.有数据的高频使用场景

通过独有的数据让大模型建立护城河,通过高频使用来让大模型改进

有哪些大模型

多模态模型

Large Multimodal Models, LMM

将大语言模型 (LLMs) 扩展到多种数据类型,

GPT-4V

视觉模型

Large Vision Models, LVM

百度-文心-CV大模型

基于领先的视觉技术,利用海量的图像、视频等数据,为企业和开发者提供强大的视觉基础模型,以及一整套视觉任务定制与应用能力。

阿里-通义-千问VL

通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能

生成模型

Stable Diffusion

大语言模型

Large Language Model, LLM

常见大语言模型

命名规则

  • -instruct 后缀

    指模型经过了指令微调(Instruction-tuning)

    例如:llama3-chinese-8b-instruct,专门优化了理解和执行中文指令的能力

  • code-chat- 前缀

    指模型有某些特定的场景功能

    例如 codellama

如何选择大模型

不同的大模型由于训练语料不同,在专业领域、回答风格等方面存在差异,需要结合自己当前的领域比较不同大语言模型的回答,挑选更适合自己的

  • 日常生活类

    国内大模型对中文的理解会更准确,尤其是贴近日常生活的文本,生成的回答更准确,例如清言、Kimi

  • 公文写作

    GPT-4,Kimi

  • 小红书文案

    GPT-4o

在线

  • 开发的角度:关注文档、费用、API-Key申请

本地

  • 关注计算机性能

参考:https://ollama.com/library,推荐 llama3、qianwen2

  • 注重数据安全,例如企业数据

本地大模型训练数据量比在线的少,智商只能达到在线的70%,一般是作为在线大模型的补充,提供本地数据

比较平台

在线大模型

比较本地大模型

  • ollama

==国外==

模型和对应的聊天机器人(AI助手)

OpenAI

GPT

  • GPT-3.5

  • GPT-4

    回答特点:比较正式、严谨,逻辑性强

    适合场景:公文写作

  • GPT-4o

    回答特点:比较接地气,以举例子的形式回答

    适合场景:小红书文案

ChatGPT

Google

Gemini

Gemini 1、Gemini 1.5

gemini

由Google开发的生成式人工智能聊天机器人。基于同名的Gemini系列大型语言模型

Gemma

[‘dʒemə] 拉丁语 Gemma,有“宝石”之意

新一代轻量级开放 AI 模型,比肩 Meta 的Llama 2 模型

比Gemini 更小、更轻的版本,可以在台式机或者笔记本电脑上本地运行

参考:https://36kr.com/p/2659425446313094

Meta

Llama

[ˈlɑmə] 羊驼 Large Language Model Meta AI

Llama 2、Llama 3

Llama 2开源协议从「仅研究可用」转向了「免费可商用」

Anthropic

claude

有一个交互界面(可以通过网页等方式交互),用户可以在上面输入文本等和它进行交互。本质是其背后的大语言模型

==国内==

百度

文心模型

一言

阿里

通义

千问

AI助手

腾讯

混元

元宝

字节

豆包

豆包

月之暗面

开放平台

moonshot

kimi

智谱AI

清华大学的自然语言处理实验室(THUNLP)

开放平台

GLM

通用大语言模型

GLM-130B、GLM2、GLM4

CodeGeeX

清言

如何使用AI助手

会话与上下文记忆

  • 新建聊天或在一个聊天中切换模型,会新建一个会话,不会继承之前会话的记忆
  • 在一次会话中,如果大模型对提示词理解有误,回答不准确,此时再继续补充信息去提问也会基于之前错误的理解和回答,应该新建一个会话
  • Web方式调用,一次会话中,有一定的上下文记忆能力
  • API方式调用,默认两次对话之间没有关联

上下文记忆的设定

  • coze、dify 等自己搭建的 Bot,可以通过记忆的轮数设定
  • 在线的Bot,由网站决定