语言模型的分类

基本概念

语言模型是一种用数学方法对人类语言规律进行抽象、建模，并用于预测和生成语言的工具。语言是研究对象，模型是对复杂系统或现象的简化抽象。简单而言就是对人类的语言使用数学的方式计算出语言中的规律然后进行存储。

模型训练的本质是通过数据学习语言规律，并将规律转化为神经网络的参数；推理时，模型基于这些参数对输入进行动态计算，生成符合规律的新内容。它既不编码存储原始数据，也不通过 “查找编码” 生成内容，而是更像一个 “基于规律的计算器”—— 用参数定义的规律，计算出对输入最合理的延续。

一，按建模方式（核心技术）划分
_{最经典的分类，反映了语言模型技术的发展脉络}

基于统计的语言模型（Statistical Language Model, SLM）
核心原理：基于统计学和概率论，通过计算 “词序列出现的概率” 建模语言规律。例如，“今天天气____” 中，“很好” 出现的概率高于 “吃饭”，模型通过统计训练数据中词与词的共现频率来判断。
典型代表：n-gram 模型（如 bigram、trigram），隐马尔可夫模型（HMM）
缺点：依赖词的局部共现，无法捕捉长距离语义关联，数据稀疏问题严重（低频词组合难以统计）
结论：统计模型就像一个 “记账本”，靠数次数说话

基于学习的语言模型（Neural Language Model, NLM）
核心原理：用神经网络（如全连接网络、循环神经网络、Transformer 等）替代统计方法，将词转化为低维向量（词嵌入，Word Embedding），通过网络学习词与词的深层关联。例如，小朋友读了很多故事后，看到 “小猫爱吃____”，会根据读过的内容猜到大概率填 “鱼”—— 基于学习的语言模型核心原理就是：从大量文本中 “记住” 文字搭配的规律，再用这些规律推测接下来该出现什么。
典型代表：早期：Word2Vec（CBOW、Skip-gram）、GloVe（通过全局词共现统计生成词向量）；进阶：基于循环神经网络（RNN/LSTM/GRU）的模型（处理序列数据，捕捉上下文依赖）；当前主流：基于 Transformer 的模型（如 BERT、GPT 系列），通过 “自注意力机制” 高效捕捉长距离依赖，是大语言模型（LLM）的核心架构
优势：能处理长文本、捕捉语义和语境关联，是当前大语言模型的基础。
结论：神经网络模型是 “理解者”，靠语义关联推理

二，按输出目标（任务导向）划分
_{根据模型的核心功能进行分类}

生成式语言模型（Generative Language Model）
核心能力：从无到有生成符合语言规律的文本，输出是完整的语言序列。
典型任务：文本生成（如写作文、写诗）、对话系统（如 ChatGPT）、机器翻译（生成目标语言文本）。
特点：通常采用 “自回归” 方式，逐词生成（预测下一个词），注重输出的流畅性和连贯性。
代表模型：GPT 系列、LLaMA等

判别式语言模型（Discriminative Language Model）
核心能力：对输入的语言序列进行 “判断” 或 “分类”，不直接生成文本，而是输出对文本的分析结果。
典型任务：文本分类（如情感分析、垃圾邮件识别）、命名实体识别（识别 “人名”“地名”）、语义相似度判断等。
特点：聚焦于 “判别输入文本的属性”，而非生成新文本
代表模型：BERT（预训练阶段是双向编码，微调后可用于判别任务）、RoBERTa 等

补充：生成式与判别式的关联
许多预训练模型（如 BERT）本质是 “双向编码模型”，可通过微调同时支持判别和生成任务；大语言模型（如 GPT）以生成为核心，但也可通过提示词（Prompt）实现判别任务（如让模型判断 “这句话是否积极”）。

三，按输入输出的 “上下文范围” 划分
_{根据模型处理文本时对上下文的依赖方式进行划分}

单向语言模型（Unidirectional Language Model）
特点：仅基于 “前文” 预测后文，或仅基于 “后文” 预测前文，不同时利用双向上下文。
典型场景：文本生成（如写故事时，只能从开头往后推进）。

双向语言模型（Bidirectional Language Model）
特点：同时利用 “前文” 和 “后文” 的信息，更适合理解文本的完整语义。
典型场景：文本理解（如 “他喜欢苹果” 中，“苹果” 是水果还是品牌，需要结合前后文判断）

四，按模型规模与能力划分
_{按参数规模和能力强弱可分为}

传统语言模型（小规模模型）
参数规模：通常在百万级到千万级（如早期的 Word2Vec、基础 LSTM 模型）
能力：仅能处理简单任务（如词向量生成、短文本分类），缺乏复杂推理和长文本理解能力。

大语言模型（Large Language Model, LLM）
参数规模：通常在十亿级以上（如 GPT-3 有 1750 亿参数，PaLM 有 5400 亿参数）
能力：通过大规模数据（万亿级 tokens）和参数，支持长文本生成、逻辑推理、多轮对话、跨领域知识应用等复杂任务，具备 “涌现能力”（如小模型做不到的推理、创意生成）。
代表：GPT 系列、LLaMA 系列、DeepSeek、Gemini、豆包等