Mooreの小站

Moore的个人小站

AI之大模型概论

2025-04-13

一、大模型概述与发展历程

1、定义与核心要素

  • 大模型指参数量达到千亿级以上的 AI 模型,核心要素包括:

    • 算力:训练需大量 GPU/TPU,例如 GPT-3 训练用了 2048 张 V100 显卡,耗时 55 天,成本超千万。

    • 数据:万亿级 Token(文本单元),来源包括开源数据集(如魔塔社区)、网络爬虫、图书、用户生成内容(如聊天记录),需注意数据合规(如买卖数据需合法授权)。

    • 算法:基于 Transformer 架构,引入自注意力机制(抓重点而非全记忆)、混合专家模型(MOE,按需分配算力,降低成本)。

2、发展历程

  • 起源:1956 年达特茅斯会议提出 AI 概念,早期以符号主义为主,聚焦统计分析。

  • 突破:2017 年 Transformer 架构问世,2020 年 GPT-3 开启千亿参数时代,2022 年 ChatGPT 爆火,推动生成式 AI 落地。

  • 现状:2023 年起进入百花齐放期,国内如华为盘古、百度文心一言、科大讯飞星火等崛起,主打行业场景(如矿山、医疗)。

二、大模型核心特点

1.、参数量庞大

  • 从百万级(小模型)跃升至千亿 / 万亿级(如 GPT-4 参数量超万亿,未公开具体数值)。

  • 影响:数据处理能力暴涨,但训练成本极高(单卡 4090 约 2 万元,大型企业需千张卡集群)。

2、多模态融合

  • 支持文本、图像、语音、视频等多种数据形态,例如:

    • 输入文字生成图片(如 Stable Diffusion),或上传图片补全 / 修复。

    • 华为手机端侧智能:根据时间、位置自动打开地铁扫码界面,结合地理位置 + 用户习惯(零提示学习)。

3、训练方式变革

  • 小模型:全参训练(数据量小,如纺织图像 100 万张,直接全量训练)。

  • 大模型:微调为主(基于预训练模型,用高质量行业数据优化,避免重复训练整个模型)。

4、涌现能力

  • 定义:数据 / 参数达到阈值(百亿级以上)后,模型突然具备复杂能力(如逻辑推理、创新生成)。

  • 表现

    • 语境学习:AI 通过少量提示或零提示,理解用户意图并生成内容,比如华为手机 “场景感知”(自动预判需求)。

    • 思维链(COT):推理过程可解释,如数学题分步计算、代码逻辑推导,类似人类思考步骤。

    • 指定遵循:在幻觉(生成不存在信息)与准确性间平衡,例如按用户要求生成结构化内容(如简历、代码框架)。

5、同质化问题

  • 原因:数据来源相似(公开数据集 + 互相借鉴),导致模型能力趋同。

  • 应对:企业需在行业数据(如医疗病历、金融财报)和场景优化(如智能客服对话流程)上差异化。

三、大模型分类

1、按技术框架

  • Transformer 分支

    • Encoding-only(编码为主,如 BERT,擅长文本分类、实体识别)。

    • Decoding-only(解码为主,如 GPT,擅长生成文本、对话)。

    • Encoding-Decoding(编解码结合,如 T5、DeepSeek,支持翻译、推理)。

  • 混合专家模型(MOE):动态分配算力,如 DeepSeek 用 MOE 榨干 GPU 利用率(达 45%),降低训练成本。

2、按应用层级

  • 基础模型:大厂通用模型(如 GPT、Llama),具备基础能力(文本、语音处理),但需二次开发。

  • 行业模型:垂直领域优化,如华为盘古(矿山安全、气象预测)、金蝶(财务)、质检一(物流)。

  • 场景模型:具体业务场景,如电商 AI 做图(根据文本生成商品图)、智能农业(大棚灌溉预测)。

3、按部署方式

  • 端侧:手机、摄像头等设备本地运行,优势是数据安全、低延迟,缺点是算力有限(如华为手机端侧 AI)。

  • 云侧:服务器集群部署,优势是算力强、可处理大规模数据,缺点是依赖网络、数据安全需保障(如 ChatGPT、文心一言)。

四、算力与成本计算

1、关键公式

训练时间 = 8 × 训练 Token 数 × 模型参数 /(卡数 × 单卡算力)

  • 示例:训练 100B Token、175B 参数模型,用 2048 张单卡算力 330T 的 4090,耗时约 5.5 天(需根据实际算力单位换算)。

  • 单位注意:B = 十亿(10^9),T = 万亿(10^12),算力精度影响成本(FP32 精度高但贵,BF16 精度低但性价比高)。

2、成本控制

  • 量化技术:降低模型精度(如从 32 位到 16 位),压缩模型大小,减少算力消耗。

  • 混合专家模型(MOE):按需激活部分参数,而非全量计算,成本可降 70% 以上。

五、主流模型案例

1、国际代表

  • GPT 系列:对话生成强,闭源,付费使用(如 ChatGPT 支持多模态,文本生成图片 / 视频)。

  • Llama 系列:Meta 开源模型,社区活跃,适合二次开发(如国内 GLM 基于 Llama 优化中文场景)。

2、国内代表

  • 华为盘古:闭源,聚焦行业(矿山、气象),精度超传统模型 10 倍(如 10 秒预测 7 天天气)。

  • 科大讯飞星火:语音识别起家,自然语言理解(NLU)优势,推出 “数字人” 播报工具(年费用约 1000 元)。

  • DeepSeek:开源推理大模型,擅长数学计算、代码生成,靠优化算力利用率(45%)出圈。

3、多模态工具

  • Stable Diffusion(SD):文本生成图片,电商常用(如批量生成商品图,替代 PS)。

  • OpenSora:视频生成工具,支持 10 秒到 60 秒视频,部分企业用于广告制作。

六、应用场景与未来方向

1、典型场景

  • 办公提效:自动写代码(补全、优化)、生成 PPT、会议纪要总结。

  • 智能设备:手机端侧 AI(场景感知)、车载 AI(语音交互、路况预测)。

  • 内容创作:AI 绘图、写小说、生成视频,降低创意门槛(如电商用 SD 做图,成本降 90%)。

2、挑战与方向

  • 数据合规:训练数据需避免侵权(如爬取网页需授权),行业数据(如医疗)需脱敏。

  • 模型安全:防止幻觉(生成错误信息),需引入人类反馈强化学习(如人工标注纠正)。

  • 端云协同:复杂任务云端处理,简单任务端侧完成,平衡效率与成本(如手机本地处理简单对话,复杂推理联网)。