随着人工智能技术的迅猛进步,大型模型如ChatGPT等已成为该领域的焦点。然而,这些看似充满灵性的创造过程,实际上隐藏着复杂的技术逻辑和精密的架构。本文将深入探讨AI大型模型的内在机制,包括Chat的含义、LLM(大型语言模型)的定义、Token的计算方法及蒸馏模型的作用,供读者参考与学习。
当人工智能开始发声时,机器究竟在思考什么呢?
凌晨三点的服务器机房,成千上万的显卡在黑暗中闪烁着微弱的蓝光,神经网络正在进行每秒数万亿次的复杂计算。当ChatGPT为你创作出一首精致的俳句,或是Comfy UI的工作流生成令人惊叹的数字艺术时,这些看似充满“智慧”的创作背后,实际上运行着一套如同钟表般精准的机械逻辑。
经过细致的研究,我们会发现大型模型的复杂程度远超一般人的想象。
例如,当我们使用「Deepseek」充值API时,会看到明确标明“每百万token输入xx元”,或者在本地部署时常听到的“满血版”“32B”等术语。这些究竟是什么呢?
接下来,就让我这个自认为站在大型模型前沿的作者,带您揭开大型模型的神秘面纱,深入探讨其背后的秘密。
Chat的含义
自2023年起,随着AI技术的爆炸性增长,市场上涌现出数不胜数的大型模型。仅在国内,已有超过一百家相关企业,但细心的朋友会注意到一个问题,就是许多大型模型的网址域名中都出现了一个单词「Chat」
而在大型模型中,“Chat” 实际上代表着模型的对话能力,即能够与人类进行自然流畅的交流。
1)Chat=对话在大型模型中,“Chat” 表示模型具备与用户进行多轮对话交互的能力。
这种对话不仅限于简单的问答,而是能够理解上下文与记忆对话历史,并做出自然且连贯的回应。
2)Chat 也象征着模型的应用场景
以 ChatGPT 为例,“Chat” 强调其主要功能是聊天和对话,而 GPT 则代表“Generative Pre-trained Transformer”(生成式预训练变换模型)。
例如,ChatGPT是一个对话机器人,真正的核心技术是大型模型,也就是GPT,技术本身不具备对话能力,而Chat则具备对话能力,Chat与GPT是两个不同的概念。
LLM又是什么?
LLM是Large Language Model的缩写,意即大型语言模型。在日常生活中,大家习惯性地称其为“LLM”。
1)核心特点
- 超大规模:拥有数十亿到数万亿个参数。
- 训练数据庞大:通常依赖于互联网上的海量文本数据进行训练,包括书籍、文章和网页等。
- 多功能性:能够执行文本生成、翻译、总结、问答、对话和编程等多项任务。
- 自监督学习:通过“预测下一个词”这一简单方式进行自我学习,逐步掌握语言规律。
2)工作原理
- 输入:用户提供一段文字,称为“Prompt”。
- Token 处理:LLM将文本拆分为Token。
- 预测:模型基于已有Token,推测下一个最合理的Token。
- 输出:逐步生成完整的文本内容。
上述步骤就是用户向大型模型提问时,模型回答问题的流程,也是大型模型的工作机制。
3)代表模型
Token的定义与重要性解析
当谈到"Token"时,许多人并不陌生。以使用「Deepseek」进行API充值为例,系统会明确标示“每百万Token输入费用为xx元,每百万输出Token费用为xxx元”。那么,Token究竟是什么?为何在使用大型模型时,费用要依托Token进行计算呢?
下面是「Deepseek」的Token计费标准。
1)Token的定义
在大型模型的语境下,Token(标记)是文本处理时的基础单元。当模型进行训练和推理时,不是一次性处理整段文本,而是将文字拆分成多个Token进行分析与生成。
Token究竟是什么?
Token与字符不同,它可以是一个字、一个词,甚至是词语的一部分。
Token的拆分方法取决于模型所采用的分词算法,常见的有以下两种:
- 字节对编码(BPE):主要用于英语,将单词分解为子词。
- SentencePiece:支持多种语言,能更智能地进行拆分。
2)Token的计算标准是什么?
实际上,Token并没有固定的字数限制,两个字、三个字或四个字都可能构成一个Token。
此外,英文和中文的Token计算方式也有所不同。
例如:
英文句子
句子:“ChatGPT is amazing!”
Token拆分(按照BPE算法):[‘Chat’, ‘G’, ‘PT’, ‘ is’, ‘ amazing’, ‘!’]
在英语中,“ChatGPT”被分为‘Chat’、‘G’和‘PT’,而“is”和“amazing”也分别成为独立的Token。
中文句子
句子:“大模型很厉害。”
Token拆分(中文通常按字进行拆分):[‘大’, ‘模型’, ‘很’, ‘厉害’, ‘。’]
在中文中,“模型”和“厉害”可能会被视为整体Token,也可能会被分开,这取决于模型的训练数据。
如果想了解一段文本的Token数量,可以使用OpenAI提供的Tokenizer工具进行测试。网址为:
https://platform.openai.com/tokenizer
经过我调研及与身边AI从业者的交流,发现普通人提问时,大约在10到30个字之间。一个汉字约等于0.6 Token,具体取决于汉字的复杂程度,最多一个汉字对应一个Token。上下文聊天记录同样计算Token,输出部分也会计入其中。
Token的重要性为何?
- 计费:像ChatGPT这样的模型,通常是根据Token数量进行收费。
- 模型限制:每个模型都有最大Token长度限制,例如GPT-4的上下文长度为128k Token。
- 输出预测:每次生成的内容基于已有Token预测下一个Token。
大型模型是如何计算Token的呢?
如上所述,大型模型将问题的字数细分为不同Token,那么它是如何进行这种划分的呢?
答案是分词器。
提到Token,分词器是不可或缺的工具。
分词器(Tokenizer):它的作用是将自然语言文本拆分为Token,并将其映射为模型可识别的数字ID。
分词器与Token的关系:
- 分词器负责生成Token,并将其转换为数值,供模型使用。
- 在模型的训练和推理过程中,输入和输出的基本单位都是Token。
总结:分词器是将文本转化为Token的工具,而Token则是模型理解与处理的基本单元。分词器的效率和准确性直接影响着模型的性能和效果。
蒸馏模型的概念与重要性
蒸馏模型(Knowledge Distillation Model)被视为一种模型压缩方法,其核心在于将大型模型(即教师模型,Teacher Model)的知识转移至一个更小、更轻便的模型(称为学生模型,Student Model),这样可在提升小模型性能的同时,降低其所需的计算资源。
简单来说,蒸馏模型就是在原有大型模型的基础上,提取出一个更为精简的小模型。其“蒸馏”一词,正是强调了这种提取出更小、清晰且便捷的信息的过程。
为何需要蒸馏模型?
- 大型模型(Teacher Model):尽管其准确率很高,但通常体积巨大,推理速度较慢,且部署成本相对较高。
- 小型模型(Student Model):虽然相对轻量,但准确率往往不足。
- 模型蒸馏:通过从大型模型中提取“知识”,传授给小模型,使其在体积更小的情况下,性能接近大型模型。
示例:本地部署Deepseek-R1-(满血)671B → Deepseek-R1-Distil-70B
就像Lora模型通常是在一个基础模型上进行提炼,可能是58亿或120亿参数的大型模型,这在中小企业中往往难以应用。因此,有必要在大型模型的基础上提炼出一个小模型,适用于特定领域,如医疗、出海等。
参数的定义与作用
在大型模型(例如大型语言模型,LLM)中,参数(Parameters)是模型学习的权重值,决定了模型如何处理和理解输入数据。
其主要功能包括:
- 权重与偏置:每个神经网络层的神经元都有对应的权重(Weight)和偏置(Bias),这些参数在训练阶段被不断优化,以减少模型预测与实际结果之间的误差。
- 知识学习:模型通过对大量数据的训练,将数据中的模式和规律“铭刻”在这些参数中。参数数量越多,模型捕捉数据细节的能力通常越强。
- 规模与能力:一般而言,参数越多,模型的表达能力越强,从而能够应对更复杂的语言和任务。
- 计算资源与成本:参数数量较多意味着模型体积较大,训练和推理过程需要更多的计算资源和时间。
大模型的参数是其关键学习要素,决定了模型的能力边界、表现及计算成本。通常,参数数量越多,模型的能力越强,但同时也要求更高的硬件资源及优化策略。
举例说明
探索思维链:为何其应用如此复杂?
思维链(Chain of Thought,简称CoT)是一种旨在提升大型模型推理能力的技术,它要求模型在处理复杂问题时,逐步展示其推理过程,而不仅仅停留于给出最终的答案。
技术的重要性
在传统推理模式中,模型往往直接给出答案。然而,当面对逻辑推理、数学问题或复杂问答时,这种单步回答方式易导致错误。
通过引导模型进行分步思考,思维链能够:
- 提高准确性:逐步推理帮助避免遗漏关键环节,使结果更加精确。
- 增强可解释性:推理过程透明化,便于进行验证与优化。
- 降低计算成本:简化推理流程,减少错误和重复计算。
例子:
问题:小明有 3 个苹果,他又买了 5 个苹果,然后吃掉了 2 个。他现在有多少个苹果?
普通回答:6 个。
思维链回答:
- 小明最开始有 3 个苹果。
- 他又购买了 5 个苹果,因此他现在拥有 3 + 5 = 8 个苹果。
- 他吃掉了 2 个苹果,所以他剩下 8 – 2 = 6 个苹果。
最终答案:6 个。
目前支持思维链的模型有哪些?
原生支持:例如GPT-4、Claude 3、Gemini 1.5、DeepSeek-R1、通义千问等模型,能够高效地进行思维链推理,无需额外优化。
部分支持:如Llama 2、Mistral,这些模型需要通过特定提示优化或额外训练,才能实现有效的思维链推理。
值得一提的是,许多大型模型是在DeepSeek开源之后逐渐具备思维链能力的。
总结
以上是我对大型模型相关知识的理解。在这个人工智能迅猛发展的时代,了解更多AI技术是十分必要的。
我们下期再见!
本文由 @A ad钙 原创发布于人人都是产品经理,未经授权,禁止转载。
题图来自Unsplash,依据CC0协议。
本文所表达的观点仅代表作者个人,人人都是产品经理平台仅提供信息存储空间服务。
Please specify source if reproduced揭开AI大模型的神秘面纱:技术深度解析 | AI工具导航





