1. 大模型概述与发展历程
大模型概述与发展历程
欢迎来到《Go Agent 进阶之路》的第一篇。在正式动手写 Agent 代码之前,我们需要先搞清楚一件事:**大模型到底是什么?它是怎么一步步走到今天的?**要开发 AI Agent 应用,你首先得理解它的"发动机"——大语言模型(Large Language Model,简称 LLM)。
1. 为什么要了解大模型?
你可能会问:我是 Go 语言开发者,直接学怎么调 API、怎么写 Agent 不就行了?为什么还要了解大模型本身?
答案其实很简单——因为大模型就是 Agent 的大脑。
Agent 的所有智能行为——理解用户意图、规划执行步骤、选择合适的工具、生成最终回答——全都依赖大模型来完成。如果你不了解大模型的能力边界和工作原理,写出来的 Agent 应用就容易出各种问题。比如明明是个简单任务,你却用了最贵的旗舰模型,成本蹭蹭往上涨;或者一个需要复杂推理的场景,你用了个小模型,效果惨不忍睹。再比如 Temperature 该设多少、上下文窗口够不够用,这些参数如果你对模型没有基本认知,根本调不好。更头疼的是,当 Agent 返回了不靠谱的结果时,你分不清到底是 Prompt 写得不好、模型能力不够,还是工具调用环节出了问题。
所以,磨刀不误砍柴工。先花一点时间建立对大模型的整体认知,后面的学习会事半功倍。
【建议配图1 —— Agent与大模型的关系】
图片描述:白色背景。画面中央偏下是一个大号蓝色大脑图标,内部有电路纹路,标注"大语言模型(LLM)"。从大脑向上辐射出四条不同颜色的粗实线箭头,形成扇形展开的结构。左一箭头(蓝色)连接到一个眼睛图标,标注"理解意图";左二箭头(绿色)连接到一个棋盘/路线图标,标注"规划步骤";右二箭头(橙色)连接到一个扳手+齿轮组合图标,标注"调用工具";右一箭头(紫色)连接到一个对话气泡图标,标注"生成回答"。四个能力图标上方有一条弧线将它们圈住,弧线上方标注"AI Agent",并画一个小型机器人头像。大脑图标下方用小字标注"核心引擎"。整体构图呈金字塔形——LLM是基座,Agent能力是上层建筑。
整体目的:帮助读者直观理解大模型和Agent的关系——大模型是Agent的核心驱动力。
2. 大模型的前世今生
大模型不是凭空出现的,它的诞生经历了几十年的技术积累。我们来简单回顾这段历程,了解它是如何一步步走到今天这个"无所不能"的地步。
2.1 早期探索:从规则到统计(1950s-2010s)
最早的自然语言处理(NLP)是基于规则的——人工编写语法规则,让机器按规则理解语言。你可以想象成教一个老外说中文,你给他一本厚厚的语法书,让他逐条查阅。效果嘛……你懂的,语言太灵活了,规则根本写不完。
后来,统计方法登场了。研究者们开始用大量文本数据训练模型,让机器从数据中自动"学习"语言的规律。这就像那个老外不��语法书了,而是天天泡在中国人堆里,听多了自然就会说了。
这一时期有两个代表性技术值得一提。一个是 2013 年 Google 提出的 Word2Vec,它是第一个让机器能够理解词与词之间语义关系的模型——比如它能理解"国王 - 男人 + 女人 ≈ 女王"这样的关系,这在当时是非常惊艳的。另一个是 RNN/LSTM(循环神经网络),它擅长处理序列数据,但有个致命问题——处理长文本时,前面的信息容易被"遗忘"。
这些技术虽然有进步,但离真正的"智能"还差得很远。直到 2017 年,一篇改变历史的论文出现了。
2.2 Transformer:改变一切的架构(2017年)
2017 年,Google 的研究团队发表了那篇著名的论文——《Attention Is All You Need》。这篇论文提出了 Transformer 架构,从此彻底改变了 NLP 甚至整个 AI 领域的走向。
Transformer 的核心创新是 自注意力机制(Self-Attention)。
用一个通俗的例子来解释:假设你在读一段话——"小明去了北京,他觉得那里的烤鸭特别好吃"。当你读到"那里"的时候,你的大脑会自动把注意力回溯到"北京",而不是"小明"。这就是注意力机制做的事情——让模型在处理每个词的时候,能够"关注"到句子中最相关的其他词。
【建议配图2 —— 自注意力机制示意图】
图片描述:白色背景。上下两层结构。上层是一排9个圆角矩形,每个矩形内写一个词:"小明"、"去了"、"北京"、"他"、"觉得"、"那里"、"的"、"烤鸭"、"特别好吃"。"那里"这个词的矩形用橙色高亮突出。下层是注意力权重的可视化:从"那里"向所有其他词画出连接线,线的粗细和颜色深浅代表注意力权重——到"北京"的连线最粗最深(深蓝色),旁边标注"0.72";到"去了"的连线中等(浅蓝色),标注"0.15";到"小明"的连线较细(淡蓝色),标注"0.08";到其他词的连线最细(灰色虚线)。"北京"的矩形用蓝色边框标注,表示它被注意力重点关注。右下角有一个简洁的���例:粗线=高权重、细线=低权重。
整体目的:让读者直观理解自注意力机制是怎么工作的——模型能自动找到句子中最相关的词。
为什么 Transformer 这么厉害? 相比之前的 RNN/LSTM,它有三个关键优势。
首先是并行计算。RNN 必须逐词处理,像排队过安检一样一个一个来;而 Transformer 可以同时处理所有词,像高铁站多通道安检,速度快了几个数量级。其次是长距离依赖,RNN 处理长文本时,前面的信息容易"忘掉";Transformer 通过注意力机制,即使相隔很远的词也能直接建立联系。最后是可扩展性,Transformer 的结构天然适合"堆参数"——模型越大,效果越好,这直接催生了后来的"大力出奇迹"路线。
Transformer 本身包含两个核心部分:编码器(Encoder) 和 解码器(Decoder)。后来的大模型基本都是在这个架构上做变体:
| 架构类型 | 代表模型 | 适用场景 |
|---|---|---|
| 仅编码器(Encoder-only) | BERT | 文本理解、分类、信息提取 |
| 仅解码器(Decoder-only) | GPT系列、Claude、Gemini | 文本生成、对话、代码编写 |
| 编码器-解码器(Encoder-Decoder) | T5、BART | 翻译、摘要、问答 |
目前主流的大语言模型基本都采用 Decoder-only 架构,因为它在文本生成任务上表现最好,而 Agent 应用恰恰是以生成为核心的。
【建议配图3 —— Transformer三种架构变体对比】
图片描述:白色背景。横向三栏布局,栏间用细竖线分隔。左栏标题"Encoder-only"(蓝色字),中央画3个蓝色堆叠方块代表编码器层,上方是一个放大镜+文档图标,标注"文本理解",下方灰色小字列出代表模型"BERT",典型场景"分类、信息提取"。中栏标题"Decoder-only"(绿色字),中央画3个绿色堆叠方块代表解码器层,上方是一个笔+纸张图标,标注"文本生成",下方列出"GPT / Claude / Gemini"。整个中栏外围有一圈金色虚线边框,右上角有一个星形标记"当前主流"。右栏标题"Encoder-Decoder"(紫色字),中央画蓝色方块通过粗箭头连接到绿色方块,上方是两面旗帜交叉图标,标注"翻译/摘要",下方列出"T5 / BART"。三栏底部有一条从左到右的渐变色带(蓝→绿),标注"Agent开发主要使用Decoder-only架构",用箭头指向中栏。
整体目的:帮助读者快速理解Transformer的三种变体,以及当前Agent开发主要使用的是Decoder-only架构。
2.3 GPT 系列:从"能用"到"震撼"(2018-2024)
Transformer 提出之后,OpenAI 率先在这个架构上押下重注,走出了一条"大力出奇迹"的路线。
GPT-1(2018年6月)——第一个试水的版本。1.17 亿参数,在无监督文本上预训练,然后在下游任务上微调。当时的效果还比较一般,但证明了一个关键思路:先在大规模文本上预训练,再在特定任务上微调,这条路是走得通的。
GPT-2(2019年2月)——参数量提升到 15 亿,模型开始展现出令人惊讶的文本生成能力。OpenAI 当时以"担心被滥用"为由,没有立即发布完整模型,这反而让 GPT-2 获得了巨大的媒体关注。不过说实话,GPT-2 的实际能力还是比较有限的。
GPT-3(2020年6月)——这是一个真正的里程碑。参数量暴涨到 1750 亿,比 GPT-2 大了 100 多倍。更重要的是,GPT-3 展现出了一种全新的能力——In-Context Learning(上下文学习)。你不需要微调模型,只需要在 Prompt 里给几个例子,模型就能理解你想让它做什么。这个能力直接催生了后来的 Prompt Engineering。
GPT-3.5 / ChatGPT(2022年11月)——在 GPT-3 的基础上,通过 RLHF(基于人类反馈的强化学习) 技术进行对齐训练,让模型的回答更符合人类期望。ChatGPT 的发布直接引爆了全球的 AI 热潮——两个月内用户突破 1 亿,创造了互联网产品增长的历史记录。
GPT-4(2023年3月)——多模态模型,不仅能处理文本,还能理解图片。推理能力大幅提升,在各种专业考试中都能达到人类前 10% 的水平。GPT-4 的出现让很多人第一次真正感受到:AI 可能真的要改变世界了。
GPT-4o / GPT-4o mini(2024年)——"o"代表"omni"(全能),进一步增强了多模态能力,支持文本、图像、音频的统一理解和生成,同时大幅降低了使用成本和延迟。
【建议配图4 —— GPT系列演进时间线】
图片描述:白色背景。主体是一条水平时间轴,轴线用蓝色渐变从左到右加粗加深。时间轴上分布6个节点,每个节点上方竖起一个"卡片",卡片大小递增代表参数规模增长。GPT-1(2018):最小卡片,顶部一个小芯片图标,卡片内写"1.17亿参数",底部标签"预训练+微调"。GPT-2(2019):稍大卡片,顶部一个文档图标,卡片内写"15亿参数",底部标签"生成能力初现"。GPT-3(2020):明显更大的卡片,橙色边框高亮,顶部一个灯泡图标,卡片内写"1750亿参数",底部标签"上下文学习",右上角有一个星形"里程碑"标记。ChatGPT(2022):大卡片,顶部一个火箭图标,卡片内写"RLHF对齐",底部标签"2月破亿用户"。GPT-4(2023):更大卡片,顶部一个眼睛图标代表多模态,卡片内写"多模态",底部标签"图文理解"。GPT-4o(2024):最大卡片,顶部一个闪电图标,卡片内写"全模态+低成本",底部标签"高效普惠"。时间轴上方用一条灰色虚线曲线描绘参数量的指数增长趋势。
整体目的:让读者一眼看清GPT系列的演进脉络和每一代的核心突破。
3. 百花齐放:主流大模型全景
GPT 点燃了大模型的军备竞赛之后,各大科技巨头纷纷入场。让我们来看看目前的主要玩家:
3.1 Anthropic Claude 系列
Claude 是由 Anthropic 公司开发的大模型,Anthropic 的创始团队很多来自 OpenAI。Claude 系列的特点是特别强调 安全性和可靠性,在长文本处理和代码生成方面表现出色。目前主要有几个版本:Claude 3.5 Sonnet 性价比极高,速度快效果好,是很多开发者的首选;Claude 3.5 Opus 是旗舰级模型,复杂推理能力更强;到了 2025 年推出的 Claude 4 系列,推理能力和工具使用能力又有了大幅提升。
Claude 系列还有一个很大的优势——上下文窗口可以达到 200K Token,这意味着你可以一次性给它几十万字的文档让它处理,这在 RAG 和长文档分析场景下非常有用。
3.2 Google Gemini 系列
Gemini 是 Google DeepMind 推出的多模态大模型,从设计之初就是面向多模态的——不是在文本模型上"加装"图片能力,而是原生支持文本、图像、音频、视频的联合理解。目前 Gemini 2.0 Flash 主打速度快、成本低,适合大规模应用;而 Gemini 2.5 Pro 是旗舰级模型,推理能力强大,上下文窗口更是高达 1M Token。
Gemini 对我们这个系列特别重要,因为 Google ADK(Agent Development Kit)默认使用 Gemini 作为���层模型。后续的实战代码中,我们会大量使用 Gemini API。
3.3 国内大模型生态
国内的大模型发展也非常迅速:
| 模型 | 公司 | 特点 |
|---|---|---|
| 文心一言(ERNIE) | 百度 | 中文理解能力强,生态完善 |
| 通义千问(Qwen) | 阿里 | 开源版本表现出色,支持多语言 |
| DeepSeek | DeepSeek | 代码和推理能力突出,性价比极高 |
| 豆包(Doubao) | 字节跳动 | 多模态能力强,接入场景丰富 |
| GLM | 智谱AI | 中英双语,开源生态活跃 |
对于国内开发者来说,这些模型各有优势,在实际项目中可以根据需求灵活选择。好消息是,大多数模型的 API 接口都兼容 OpenAI 的格式,切换模型的成本很低。
【建议配图5 —— 主流大模型全景图】
图片描述:白色背景。采用"版图/阵营"可视化布局。画面分为左右两大阵营板块,中间底部有一个独立的开源区。左侧板块标题"北美",用淡蓝色底色区分,内部纵向排列四行:第一行 OpenAI 图标(简笔小圆环)+ "GPT-4 / GPT-4o" 标签(蓝色);第二行 Anthropic 图标(简笔盾牌)+ "Claude 3.5 / 4" 标签(蓝色);第三行 Google 图标(简笔四色点)+ "Gemini 2.0 / 2.5" 标签(蓝色);第四行 Meta 图标 + "LLaMA 3" 标签,用绿色虚线边框标注"开源"。右侧板块标题"中国",用淡红色底色区分,内部纵向排列:百度+"文心一言"、阿里+"通义千问"(绿色虚线框标"开源")、字节+"豆包"、DeepSeek+"DeepSeek"(绿色虚线框标"开源")、智谱+"GLM"。两个板块之间用双向虚线箭头连接,标注"技术竞争 & API兼容"。底部中央是一个绿色条带,标题"开源生态",内部用小图标列出 LLaMA、Qwen、Mistral、DeepSeek 等,用一个地球+握手图标表示"社区共建"。
整体目的:让读者对当前大模型的全球格局有一个宏观认知,知道主要玩家有哪些。
4. 开源 vs 闭源:两条路线之争
在大模型领域,有一个绕不开的话题:开源还是闭源?
4.1 闭源模型(Proprietary Models)
以 GPT-4、Claude、Gemini 为代表,这些模型不公开权重和训练细节,用户只能通过 API 调用。
闭源模型最大的优势在于能力天花板高——背后有最充裕的资金和算力投入,模型效果通常是业界最强的。而且使用起来非常省心,调个 API 就能用,不需要自己操心部署和运维的事,模型提供商还会持续迭代更新,用户自动就能享受到最新的能力提升。
但闭源模型的问题也很现实。首先是数据安全,你的所有请求数据都要发送到外部服务器,这在金融、医疗、政府这类对数据隐私要求极高的场景中是一个硬伤。其次是你完全受制于 API 提供商——它涨价你就得多掏钱,它限流你就得排队,它停服你就得趴窝。最后,闭源模型是个"黑盒子",你没法根据自己的特定业务需求对模型做深度定制。
4.2 开源模型(Open-Source Models)
以 Meta 的 LLaMA 系列、阿里的 Qwen 系列、Mistral 为代表,这些模型公开了权重,你可以自由下载、部署、甚至修改。
开源模型走的是另一条路。最吸引人的一点是数据完全不出本地,隐私安全有保障,这对很多企业来说是刚需。同时你可以根据自己的业务场景对模型做微调定制,让它在你的垂直领域表现得更专业。再加上社区生态非常活跃,各种工具链和最佳实践应有尽有,遇到问题也容易找到解决方案。
不过开源模型也有它的门槛。一方面,顶级能力目前还是不如最强的闭源模型,虽然差距在快速缩小,但在一些需要极致推理能力的场景下还是有感知的。另一方面,你得自己准备 GPU 资源来部署,运维和性能优化也需要一定的技术功底——不是所有团队都有这个人力和经验。简单来说,闭源模型是"花钱买省心",开源模型是"多花精力换自由度"。
4.3 实际开发中怎么选?
对于 Agent 开发者来说,不需要非此即彼。实际项目中,很多团队采用的是 混合策略:在开发调试阶段,用闭源模型(如 Gemini、GPT-4)快速验证想法,因为效果好、接入快;到了生产部署阶段,再根据实际情况做选择——如果数据涉及隐私,就用开源模型做私有化部署;如果对效果要求极高,就继续用闭源模型的 API;如果追求性价比,DeepSeek 和 Gemini Flash 这类方案会是不错的选择。
【建议配图6 —— 开源vs闭源选型决策树】
图片描述:白色背景。自上而下的决策流程图,用圆角矩形和菱形交替。顶部是一个蓝色圆角矩形,内有问号+机器人图标,标注"如何选择模型?"。向下实线箭头连接到第一个菱形判断框(橙色边框),内写"数据涉及敏感信息?"。左分支标注"是"(红色箭头),连接到左侧绿色圆角矩形,内有开锁图标,标注"开源私有化部署",右下角小字"医疗/金融/政府"。右分支标注"否",向下连接第二个菱形(橙色边框),内写"预算充裕?"。右分支标注"是",连接到右侧蓝色圆角矩形,内有锁+皇冠图标,标注"闭源旗舰模型",右下角小字"GPT-4 / Claude"。左分支标注"否",向下连接第三个菱形(橙色边框),内写"需要深度定制?"。左分支标注"是",连接到绿色圆角矩形,内有齿轮+扳手图标,标注"开源+微调",右下角小字"垂直领域场景"。右分支标注"否",连接到蓝色圆角矩形,内有闪电图标,标注"高性价比API",右下角小字"Gemini Flash / DeepSeek"。
整体目的:帮助读者在实际项目中快速做出模型选型决策。
5. 大模型的核心能力
了解了大模型的历史和格局之后,我们来看看大模型到底能做什么。对于 Agent 开发者来说,理解模型的核心能力非常关键,因为 Agent 的能力上限本质上取决于底层模型的能力。
5.1 文本理解与生成
这是大模型最基础也是最核心的能力。模型能够理解你输入的自然语言,并生成连贯、有逻辑的回答。这个能力是所有 Agent 应用的基石。
5.2 推理与逻辑分析
现代大模型具备了相当强的推理能力,能够进行逻辑推导、数学计算、因果分析。特别是 GPT-4、Claude 3.5、Gemini 2.5 Pro 等旗舰模型,在复杂推理任务上已经达到了很高的水平。
这种推理能力对 Agent 至关重要——Agent 需要理解用户意图、拆解复杂任务、规划执行步骤,这些都依赖模型的推理能力。
5.3 代码理解与生成
大模型在代码领域的能力已经非常强大,能够理解代码逻辑、生成功能代码、Debug 排错、解释代码含义。对于我们 Go 开发者来说,这意味着大模型不仅是我们要集成的对象,也是我们开发过程中的得力助手。
5.4 工具调用(Function Calling)
这是大模型近年来最重要的能力突破之一。模型不仅能生成文本,还能 识别何时需要调用外部工具,并生成正确的调用参数。
举个例子:用户问"北京今天天气怎么样?",模型知道自己没有实时天气数据,于是生成一个工具调用请求:get_weather(city="北京")。系统执行这个调用,拿到实时天气数据,再交给模型组织成自然语言回复。
这个能力是 Agent 区别于普通 ChatBot 的关键所在,我们会在后续的 Agent 认知篇中深入讲解。
5.5 多模态理解
最新一代的大模型已经不局限于处理文本,还能理解图片、音频甚至视频。这为 Agent 的应用场景打开了更广阔的空间——比如一个客服 Agent 可以直接看用户上传的产品故障图片来判断问题。
【建议配图7 —— 大模型核心能力全景】
图片描述:白色背景。中央是一个大号的AI芯片图标(蓝色,内有电路纹路),标注"LLM"。围绕芯片呈放射状分布5个能力卡片,每个卡片是一个圆角矩形,内含独特图标和标题。上方卡片:书本+笔图标,标题"文本理解与生成",副标题"对话/写作/翻译"。右上卡片:灯泡+齿轮图标,标题"推理与逻辑",副标题"数学/因果/规划"。右下卡片:代码符号</>图标,标题"代码能力",副标题"生成/审查/Debug"。左下卡片:扳手+API图标,标题"工具调用",副标题"Function Calling",此卡片用橙色边框+星形标记高亮,旁边标注"Agent关键能力"。左上卡片:相机+麦克风+视频图标组合,标题"多模态理解",副标题"图/音/视频"。每个卡片与中央芯片之间用实线连接。整幅图右下角有一个小型对比标注:两个不同大小的圆,蓝色小圆标"2023",绿色大圆标"2025",表示能力持续增强。
整体目的:帮助读者全面了解大模型的核心能力维度,特别是标注出对Agent开发最重要的工具调用能力。
6. 从大模型到 Agent:一个关键的跃迁
讲到这里,你可能已经发现了——大模型虽然很强,但它本质上还是一个 "输入文本 → 输出文本" 的系统。它不能主动获取信息,不能执行操作,不能记住上一次对话的内容(除非你把历史记录塞进去)。
而 Agent,就是要解决这些问题。
Agent = 大模型 + 工具调用 + 记忆系统 + 规划能力
简单来说,大模型是 Agent 的"大脑",而 Agent 在大脑的基础上,给它装上了"手"(工具调用)、"记忆"(短期/长期记忆)和"规划能力"(任务分解与执行策略)。
这就是为什么我们要先学大模型基础——因为大脑是一切能力的起点。在下一篇中,我们将深入学习大模型的核心概念:Token、Prompt、Temperature 等,理解和模型交互时的每一个关键参数。
【建议配图8 —— 从大模型到Agent的跃迁】
图片描述:白色背景。左右两部分对比,中间用一个大号绿色右箭头连接,箭头上标注"进化升级"。左侧标题"ChatBot"(灰色字),用灰色调表示基础模式:上方一个用户头像,向下实线箭头指向一个灰色大脑图标(标注"LLM"),大脑下方实线箭头指向一个对话气泡。整体是简单的"输入→处理→输出"单线结构,旁边小字标注"只能对话,能力有限"。右侧标题"AI Agent"(蓝色字,加粗),用彩色调表示升级版:中央同样是大脑图标(蓝色,标注"LLM"),但大脑周围环绕三个新模块——上方是一个芯片/内存条图标(紫色,标注"记忆系统",小字"短期+长期"),大脑与之间双向箭头连接;左侧是一个打开的工具箱图标(橙色,标注"工具调用",工具箱中露出搜索放大镜、数据库圆柱、API闪电三个小图标),双向箭头连接;右侧是一个棋盘/策略图标(绿色,标注"规划能力",小字"分解+执行"),双向箭头连接。右侧整体用蓝色虚线大框圈住。
整体目的:让读者清晰看到Agent相比普通ChatBot增加了什么,理解Agent的核心组成。
7. 小结
大模型并不神秘,它本质上就是一个在海量文本上训练出来的超大规模神经网络。Transformer 架构赋予了它理解语言和生成文本的能力,而随着参数规模的增长和训练方法的演进,这种能力已经强大到可以进行复杂推理、编写代码、甚至主动调用外部工具——这些能力叠加在一起,就构成了 AI Agent 最核心的"大脑"。
对于我们 Go 开发者来说,理解大模型就像理解数据库一样——你不需要自己去实现一个 MySQL,但你得知道索引怎么工作、事务怎么回事,这样才能写出高效的数据库应用。同样的道理,你不需要自己训练大模型,但你得知道它能做什么、不能做什么、不同模型之间有什么差异,这样才能在构建 Agent 应用时做出正确的技术决策。
关注秀才公众号:IT杨秀才,领取精品学习资料
- 公众号后台回复:Go面试,领取Go面试题库PDF
- 公众号后台回复:Go学习,领取Go必��书籍
- 公众号后台回复:大模型,领取大模型学习资料
- 公众号后台回复:111,领取架构学习资料
- 公众号后台回复:26届秋招,领取26届秋招企业汇总表

