Mooreの小站

Moore的个人小站

首页 Python AI 敬请期待...

AI之大模型概论

2025-04-13

一、大模型概述与发展历程

1、定义与核心要素

大模型指参数量达到千亿级以上的 AI 模型，核心要素包括：
- 算力：训练需大量 GPU/TPU，例如 GPT-3 训练用了 2048 张 V100 显卡，耗时 55 天，成本超千万。
- 数据：万亿级 Token（文本单元），来源包括开源数据集（如魔塔社区）、网络爬虫、图书、用户生成内容（如聊天记录），需注意数据合规（如买卖数据需合法授权）。
- 算法：基于 Transformer 架构，引入自注意力机制（抓重点而非全记忆）、混合专家模型（MOE，按需分配算力，降低成本）。

2、发展历程

起源：1956 年达特茅斯会议提出 AI 概念，早期以符号主义为主，聚焦统计分析。
突破：2017 年 Transformer 架构问世，2020 年 GPT-3 开启千亿参数时代，2022 年 ChatGPT 爆火，推动生成式 AI 落地。
现状：2023 年起进入百花齐放期，国内如华为盘古、百度文心一言、科大讯飞星火等崛起，主打行业场景（如矿山、医疗）。

二、大模型核心特点

1.、参数量庞大

从百万级（小模型）跃升至千亿 / 万亿级（如 GPT-4 参数量超万亿，未公开具体数值）。
影响：数据处理能力暴涨，但训练成本极高（单卡 4090 约 2 万元，大型企业需千张卡集群）。

2、多模态融合

支持文本、图像、语音、视频等多种数据形态，例如：
- 输入文字生成图片（如 Stable Diffusion），或上传图片补全 / 修复。
- 华为手机端侧智能：根据时间、位置自动打开地铁扫码界面，结合地理位置 + 用户习惯（零提示学习）。

3、训练方式变革

小模型：全参训练（数据量小，如纺织图像 100 万张，直接全量训练）。
大模型：微调为主（基于预训练模型，用高质量行业数据优化，避免重复训练整个模型）。

4、涌现能力

定义：数据 / 参数达到阈值（百亿级以上）后，模型突然具备复杂能力（如逻辑推理、创新生成）。
表现：
- 语境学习：AI 通过少量提示或零提示，理解用户意图并生成内容，比如华为手机 “场景感知”（自动预判需求）。
- 思维链（COT）：推理过程可解释，如数学题分步计算、代码逻辑推导，类似人类思考步骤。
- 指定遵循：在幻觉（生成不存在信息）与准确性间平衡，例如按用户要求生成结构化内容（如简历、代码框架）。

5、同质化问题

原因：数据来源相似（公开数据集 + 互相借鉴），导致模型能力趋同。
应对：企业需在行业数据（如医疗病历、金融财报）和场景优化（如智能客服对话流程）上差异化。

三、大模型分类

1、按技术框架

Transformer 分支：
- Encoding-only（编码为主，如 BERT，擅长文本分类、实体识别）。
- Decoding-only（解码为主，如 GPT，擅长生成文本、对话）。
- Encoding-Decoding（编解码结合，如 T5、DeepSeek，支持翻译、推理）。
混合专家模型（MOE）：动态分配算力，如 DeepSeek 用 MOE 榨干 GPU 利用率（达 45%），降低训练成本。

2、按应用层级

基础模型：大厂通用模型（如 GPT、Llama），具备基础能力（文本、语音处理），但需二次开发。
行业模型：垂直领域优化，如华为盘古（矿山安全、气象预测）、金蝶（财务）、质检一（物流）。
场景模型：具体业务场景，如电商 AI 做图（根据文本生成商品图）、智能农业（大棚灌溉预测）。

3、按部署方式

端侧：手机、摄像头等设备本地运行，优势是数据安全、低延迟，缺点是算力有限（如华为手机端侧 AI）。
云侧：服务器集群部署，优势是算力强、可处理大规模数据，缺点是依赖网络、数据安全需保障（如 ChatGPT、文心一言）。

四、算力与成本计算

1、关键公式

训练时间 = 8 × 训练 Token 数 × 模型参数 /（卡数 × 单卡算力）

示例：训练 100B Token、175B 参数模型，用 2048 张单卡算力 330T 的 4090，耗时约 5.5 天（需根据实际算力单位换算）。
单位注意：B = 十亿（10^9），T = 万亿（10^12），算力精度影响成本（FP32 精度高但贵，BF16 精度低但性价比高）。

2、成本控制

量化技术：降低模型精度（如从 32 位到 16 位），压缩模型大小，减少算力消耗。
混合专家模型（MOE）：按需激活部分参数，而非全量计算，成本可降 70% 以上。

五、主流模型案例

1、国际代表

GPT 系列：对话生成强，闭源，付费使用（如 ChatGPT 支持多模态，文本生成图片 / 视频）。
Llama 系列：Meta 开源模型，社区活跃，适合二次开发（如国内 GLM 基于 Llama 优化中文场景）。

2、国内代表

华为盘古：闭源，聚焦行业（矿山、气象），精度超传统模型 10 倍（如 10 秒预测 7 天天气）。
科大讯飞星火：语音识别起家，自然语言理解（NLU）优势，推出 “数字人” 播报工具（年费用约 1000 元）。
DeepSeek：开源推理大模型，擅长数学计算、代码生成，靠优化算力利用率（45%）出圈。

3、多模态工具

Stable Diffusion（SD）：文本生成图片，电商常用（如批量生成商品图，替代 PS）。
OpenSora：视频生成工具，支持 10 秒到 60 秒视频，部分企业用于广告制作。

六、应用场景与未来方向

1、典型场景

办公提效：自动写代码（补全、优化）、生成 PPT、会议纪要总结。
智能设备：手机端侧 AI（场景感知）、车载 AI（语音交互、路况预测）。
内容创作：AI 绘图、写小说、生成视频，降低创意门槛（如电商用 SD 做图，成本降 90%）。

2、挑战与方向

数据合规：训练数据需避免侵权（如爬取网页需授权），行业数据（如医疗）需脱敏。
模型安全：防止幻觉（生成错误信息），需引入人类反馈强化学习（如人工标注纠正）。
端云协同：复杂任务云端处理，简单任务端侧完成，平衡效率与成本（如手机本地处理简单对话，复杂推理联网）。