AI之大模型概论
2025-04-13
一、大模型概述与发展历程
1、定义与核心要素
大模型指参数量达到千亿级以上的 AI 模型,核心要素包括:
算力:训练需大量 GPU/TPU,例如 GPT-3 训练用了 2048 张 V100 显卡,耗时 55 天,成本超千万。
数据:万亿级 Token(文本单元),来源包括开源数据集(如魔塔社区)、网络爬虫、图书、用户生成内容(如聊天记录),需注意数据合规(如买卖数据需合法授权)。
算法:基于 Transformer 架构,引入自注意力机制(抓重点而非全记忆)、混合专家模型(MOE,按需分配算力,降低成本)。
2、发展历程
起源:1956 年达特茅斯会议提出 AI 概念,早期以符号主义为主,聚焦统计分析。
突破:2017 年 Transformer 架构问世,2020 年 GPT-3 开启千亿参数时代,2022 年 ChatGPT 爆火,推动生成式 AI 落地。
现状:2023 年起进入百花齐放期,国内如华为盘古、百度文心一言、科大讯飞星火等崛起,主打行业场景(如矿山、医疗)。
二、大模型核心特点
1.、参数量庞大
从百万级(小模型)跃升至千亿 / 万亿级(如 GPT-4 参数量超万亿,未公开具体数值)。
影响:数据处理能力暴涨,但训练成本极高(单卡 4090 约 2 万元,大型企业需千张卡集群)。
2、多模态融合
支持文本、图像、语音、视频等多种数据形态,例如:
输入文字生成图片(如 Stable Diffusion),或上传图片补全 / 修复。
华为手机端侧智能:根据时间、位置自动打开地铁扫码界面,结合地理位置 + 用户习惯(零提示学习)。
3、训练方式变革
小模型:全参训练(数据量小,如纺织图像 100 万张,直接全量训练)。
大模型:微调为主(基于预训练模型,用高质量行业数据优化,避免重复训练整个模型)。
4、涌现能力
定义:数据 / 参数达到阈值(百亿级以上)后,模型突然具备复杂能力(如逻辑推理、创新生成)。
表现:
语境学习:AI 通过少量提示或零提示,理解用户意图并生成内容,比如华为手机 “场景感知”(自动预判需求)。
思维链(COT):推理过程可解释,如数学题分步计算、代码逻辑推导,类似人类思考步骤。
指定遵循:在幻觉(生成不存在信息)与准确性间平衡,例如按用户要求生成结构化内容(如简历、代码框架)。
5、同质化问题
原因:数据来源相似(公开数据集 + 互相借鉴),导致模型能力趋同。
应对:企业需在行业数据(如医疗病历、金融财报)和场景优化(如智能客服对话流程)上差异化。
三、大模型分类
1、按技术框架
Transformer 分支:
Encoding-only(编码为主,如 BERT,擅长文本分类、实体识别)。
Decoding-only(解码为主,如 GPT,擅长生成文本、对话)。
Encoding-Decoding(编解码结合,如 T5、DeepSeek,支持翻译、推理)。
混合专家模型(MOE):动态分配算力,如 DeepSeek 用 MOE 榨干 GPU 利用率(达 45%),降低训练成本。
2、按应用层级
基础模型:大厂通用模型(如 GPT、Llama),具备基础能力(文本、语音处理),但需二次开发。
行业模型:垂直领域优化,如华为盘古(矿山安全、气象预测)、金蝶(财务)、质检一(物流)。
场景模型:具体业务场景,如电商 AI 做图(根据文本生成商品图)、智能农业(大棚灌溉预测)。
3、按部署方式
端侧:手机、摄像头等设备本地运行,优势是数据安全、低延迟,缺点是算力有限(如华为手机端侧 AI)。
云侧:服务器集群部署,优势是算力强、可处理大规模数据,缺点是依赖网络、数据安全需保障(如 ChatGPT、文心一言)。
四、算力与成本计算
1、关键公式
训练时间 = 8 × 训练 Token 数 × 模型参数 /(卡数 × 单卡算力)
示例:训练 100B Token、175B 参数模型,用 2048 张单卡算力 330T 的 4090,耗时约 5.5 天(需根据实际算力单位换算)。
单位注意:B = 十亿(10^9),T = 万亿(10^12),算力精度影响成本(FP32 精度高但贵,BF16 精度低但性价比高)。
2、成本控制
量化技术:降低模型精度(如从 32 位到 16 位),压缩模型大小,减少算力消耗。
混合专家模型(MOE):按需激活部分参数,而非全量计算,成本可降 70% 以上。
五、主流模型案例
1、国际代表
GPT 系列:对话生成强,闭源,付费使用(如 ChatGPT 支持多模态,文本生成图片 / 视频)。
Llama 系列:Meta 开源模型,社区活跃,适合二次开发(如国内 GLM 基于 Llama 优化中文场景)。
2、国内代表
华为盘古:闭源,聚焦行业(矿山、气象),精度超传统模型 10 倍(如 10 秒预测 7 天天气)。
科大讯飞星火:语音识别起家,自然语言理解(NLU)优势,推出 “数字人” 播报工具(年费用约 1000 元)。
DeepSeek:开源推理大模型,擅长数学计算、代码生成,靠优化算力利用率(45%)出圈。
3、多模态工具
Stable Diffusion(SD):文本生成图片,电商常用(如批量生成商品图,替代 PS)。
OpenSora:视频生成工具,支持 10 秒到 60 秒视频,部分企业用于广告制作。
六、应用场景与未来方向
1、典型场景
办公提效:自动写代码(补全、优化)、生成 PPT、会议纪要总结。
智能设备:手机端侧 AI(场景感知)、车载 AI(语音交互、路况预测)。
内容创作:AI 绘图、写小说、生成视频,降低创意门槛(如电商用 SD 做图,成本降 90%)。
2、挑战与方向
数据合规:训练数据需避免侵权(如爬取网页需授权),行业数据(如医疗)需脱敏。
模型安全:防止幻觉(生成错误信息),需引入人类反馈强化学习(如人工标注纠正)。
端云协同:复杂任务云端处理,简单任务端侧完成,平衡效率与成本(如手机本地处理简单对话,复杂推理联网)。