简介
介绍大模型相关概念、大模型能做什么及国内外大模型、AI助手总结
概念
机器学习
一种在没有明确编程的情况下,通过算法和统计模型使计算机从数据中自动学习和做出决策的技术
常见的算法包括:分类算法(如支持向量机)、回归算法(如线性回归)、神经网络(如卷积神经网络)
基本原则是:从数据中自动学习和做出决策
类比教狗子握手, 你不会写下详细的指令,而是会通过反复示范和奖励(数据)来训练它
- 特点:机器学习包括监督学习、无监督学习和强化学习等不同类型。它依赖于从大量数据中提取模式和规律,以便在新数据上做出预测或决策。
- 用途:机器学习应用广泛,包括图像识别、语音识别、自然语言处理、推荐系统等领域。例如,推荐系统可以根据用户的历史行为推荐商品或电影。
- 优势:机器学习可以自动处理和分析大量数据,发现其中的隐藏模式和规律,从而提高决策的准确性和效率。
- 缺点:机器学习模型的性能依赖于数据的质量和数量,训练过程也可能耗费大量时间和资源。此外,机器学习模型的决策过程通常是“黑箱”,不易解释。
深度学习
一种通过深层神经网络使计算机从数据中自动学习和做出决策的技术
遵循机器学习的基本原则,属于机器学习的一种技术
特点:
深层神经网络:通常包含多层(几十、几百、上千)神经网络
神经网络:类似生物神经网络,通过神经元接收并处理数据,然后将结果传递给下一层
自动特征提取:通过多层非线性变换,自动从原始数据中提取特征
例如训练一个模型来区分图片中的猫和狗
通过卷积神经网络(CNN),只需提供大量的猫和狗的图片以及它们的标签(猫或狗)
- 网络的前几层可能学习到简单的边缘和颜色特征
- 中间几层可能学习到如眼睛、鼻子等更复杂的特征
- 最后几层则会整合这些特征,学会识别整只猫或狗
- 最终,模型会输出一个预测,指示图片中是猫还是狗
需要大规模数据和计算:需要大量的数据和计算资源来进行训练
优势:擅长处理图像、语音、文本等复杂的、高维度的数据
用途:广泛应用于图像识别、自然语言处理(如机器翻译、对话系统)、语音识别、推荐系统、自动驾驶等领域
缺点:需要大量数据和计算资源,尤其是 GPU(图形处理单元)来加速训练过程。模型越复杂,计算资源的需求就越高,训练时间也更长
常见模型/架构
深度学习模型是用于构建和训练神经网络的基础架构或算法,定义了如何设计和训练神经网络,提供各种处理和理解数据的方法。
这些模型本身并不直接执行特定任务,而是为任务提供了基础。
通常说的大模型是基于某个深度学习的基础架构,经过大量训练和优化,完成特定任务的应用模型
卷积神经网络(CNNs)
主要用于处理图像数据
循环神经网络(RNNs)
主要用于处理序列数据,如文本和时间序列。
生成对抗网络(GANs)
适用于生成数据(如图像、音乐)的任务。
Transformer
用于处理自然语言处理(NLP)任务,特别是序列到序列的任务。
GPT
Generative Pre-trained Transformer, 生成式预训练模型,是Transformer模型的一种变体
扩散模型 Diffusion
一种生成模型,通过模拟数据从噪声逐渐变得清晰的过程来生成新数据,适合图像生成、修复、编辑等任务
分两步,先增加噪声,再去除噪声
大模型 LM
Large Model
具有大量参数的深度学习模型
特点:包含数十亿甚至数千亿的参数
GPT-3拥有1750亿个参数
优势:由于参数量巨大,大模型可以在大量数据上进行训练,从而捕捉到细微的模式和知识,提高模型的精度和泛化能力
用途:可用于自然语言处理(NLP)、计算机视觉(CV)、语音识别、推荐系统等方面
例如基于Transformer架构,经过大量训练和优化,用于自然语言处理的的GPT3.5、Gemini等模型
缺点:训练和部署大模型需要大量数据、计算资源和时间
例如 llama3.1 8b(billion,十亿)参数,启动时需要占用4.7G显存,随着对话长度的增加而增加
参数
词汇对应的向量中的元素,表示一种语义特征,其数值表示模型在该语义特征上的信心,帮助模型更好的理解和处理语言
大语言模型会给所有的词语都映射到一个高纬向量,称为词嵌入 (word embedding)
假设词汇表包含 10,000 个单词,每个单词用一个 512 维的向量表示。这个嵌入矩阵的大小就是 10,000 x 512。在训练过程中,模型会为每个单词学习到一个特定的向量,比如:
- “猫” → [0.21, -0.15, …, 0.75] (512维向量)
- “狗” → [0.22, -0.12, …, 0.77]
模型的参数数量是衡量其大小和复杂性的一个重要指标,通常来说,参数越多的模型具有更高的表达能力和复杂度,但同时也需要更多的计算资源来训练和使用
模型的参数的多少取决于设计架构
GLM-4-9B中的“9B”指的是模型的大小,即模型的参数数量。B表示 billion(十亿),因此GLM-4-9B表示该模型有大约90亿个参数
压缩:一种技术,用于减少机器学习模型(尤其是大型神经网络模型)中使用的参数数量,以减小模型的存储空间和计算资源的消耗,同时尽量保持模型的性能不受到显著影响
多模态
指数据的类型,包括:文本、图像、音频、视频
大模型能做什么(大模型角度)
能落地的
1.跨专业领域完成任务
在不擅长的领域,满分100分,AI可以实现一个30分的答案。例如设计图标、编程、写作(公文)、画画、作曲等
2.评估指标清晰、目标明确的复杂任务
前提是你要清楚要做什么
涉及到任务的背景
任务目标明确、每一步的评估指标清晰的复杂任务。例如后端模块编程:任务逻辑清楚、每一步的实现效果可评估。反面例子:让AI翻译,我的网络“卡了”,卡了在不同的场景下有不同的解释,例如网络卡了指网络传输中断了,硬盘卡了指数据读取速度不够,CPU卡了指计算能力不足等。因此“卡了”翻译的目标不明确,AI并不能给出准确的翻译
3.开个头,打个样
让大模型打个样,了解任务的最佳实践方案等
什么可以交给大模型做(任务的角度)
1.技术成熟度很高,对人的依赖越来越低的领域
写作
改错
写代码
运行代码和测试代码,多次迭代)
绘画
缺少物理常识,例如视角透视、光照。需要人去优化
视频
文字生成
图片生成(效果好):由一张开始图片去推测
2.能够形成闭环的任务
产品研发
设计、研发、测试、上线、迭代
教学
戴明环
3.有数据的高频使用场景
通过独有的数据让大模型建立护城河,通过高频使用来让大模型改进
有哪些大模型
多模态模型
将大语言模型 (LLMs) 扩展到多种数据类型,
GPT-4V
视觉模型
Large Vision Models, LVM
百度-文心-CV大模型
基于领先的视觉技术,利用海量的图像、视频等数据,为企业和开发者提供强大的视觉基础模型,以及一整套视觉任务定制与应用能力。
阿里-通义-千问VL
通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能
生成模型
Stable Diffusion
大语言模型
Large Language Model, LLM
常见大语言模型
命名规则
-instruct
后缀指模型经过了指令微调(Instruction-tuning)
例如:llama3-chinese-8b-instruct,专门优化了理解和执行中文指令的能力
code-
、chat-
前缀指模型有某些特定的场景功能
例如 codellama
如何选择大模型
不同的大模型由于训练语料不同,在专业领域、回答风格等方面存在差异,需要结合自己当前的领域比较不同大语言模型的回答,挑选更适合自己的
日常生活类
国内大模型对中文的理解会更准确,尤其是贴近日常生活的文本,生成的回答更准确,例如清言、Kimi
公文写作
GPT-4,Kimi
小红书文案
GPT-4o
在线
- 开发的角度:关注文档、费用、API-Key申请
本地
- 关注计算机性能
参考:https://ollama.com/library,推荐 llama3、qianwen2
- 注重数据安全,例如企业数据
本地大模型训练数据量比在线的少,智商只能达到在线的70%,一般是作为在线大模型的补充,提供本地数据
比较平台
在线大模型
比较本地大模型
- ollama
==国外==
模型和对应的聊天机器人(AI助手)
OpenAI
GPT
GPT-3.5
GPT-4
回答特点:比较正式、严谨,逻辑性强
适合场景:公文写作
GPT-4o
回答特点:比较接地气,以举例子的形式回答
适合场景:小红书文案
ChatGPT
Gemini
Gemini 1、Gemini 1.5
gemini
由Google开发的生成式人工智能聊天机器人。基于同名的Gemini系列大型语言模型
Gemma
[‘dʒemə] 拉丁语 Gemma,有“宝石”之意
新一代轻量级开放 AI 模型,比肩 Meta 的Llama 2 模型
比Gemini 更小、更轻的版本,可以在台式机或者笔记本电脑上本地运行
Meta
Llama
[ˈlɑmə] 羊驼 Large Language Model Meta AI
Llama 2、Llama 3
Llama 2开源协议从「仅研究可用」转向了「免费可商用」
Anthropic
claude
有一个交互界面(可以通过网页等方式交互),用户可以在上面输入文本等和它进行交互。本质是其背后的大语言模型
==国内==
百度
文心模型
一言
阿里
通义
千问
AI助手
腾讯
混元
元宝
字节
豆包
豆包
月之暗面
开放平台
moonshot
kimi
智谱AI
清华大学的自然语言处理实验室(THUNLP)
开放平台
GLM
通用大语言模型
GLM-130B、GLM2、GLM4
CodeGeeX
清言
如何使用AI助手
会话与上下文记忆
- 新建聊天或在一个聊天中切换模型,会新建一个会话,不会继承之前会话的记忆
- 在一次会话中,如果大模型对提示词理解有误,回答不准确,此时再继续补充信息去提问也会基于之前错误的理解和回答,应该新建一个会话
- Web方式调用,一次会话中,有一定的上下文记忆能力
- API方式调用,默认两次对话之间没有关联
上下文记忆的设定
- coze、dify 等自己搭建的 Bot,可以通过记忆的轮数设定
- 在线的Bot,由网站决定