见过的论文里的专有名词

整理一下目前为止见过的论文里的专有名词，虽然可以见到再查，但是为了方便自己看，还是整理一下，持续更新。

1、ML基础

名词 (Term)	定义 / 描述	分类标签
机器学习 (Machine Learning)	让系统从数据中自动学习模式并做出预测或决策，无需显式编程。	ML
监督学习 (Supervised Learning)	使用带标签的数据训练模型，学习输入到输出的映射。	ML
无监督学习 (Unsupervised Learning)	从未标记数据中发现结构、聚类或分布。	ML
半监督学习 (Semi-supervised Learning)	结合少量标签数据与大量无标签数据进行训练。	ML
自监督学习 (Self-supervised Learning)	利用数据自身构造监督信号（如掩码预测）。	ML
在线学习 (Online Learning)	模型在数据流中逐样本更新，适应动态环境。	ML
离线学习 (Offline Learning)	在固定数据集上训练，不与环境交互。	ML
迁移学习 (Transfer Learning)	将在源任务上学到的知识迁移到目标任务。	ML
元学习 (Meta-Learning)	学习如何学习，使模型能快速适应新任务。	ML
少样本学习 (Few-shot Learning)	仅用少量示例即可泛化到新类别。	ML
零样本学习 (Zero-shot Learning)	在未见过类别上完成任务，依赖语义描述。	ML
主动学习 (Active Learning)	模型主动选择最有价值的样本请求标注。	ML
对比学习 (Contrastive Learning)	通过拉近正样本、推开负样本来学习表示。	ML
表示学习 (Representation Learning)	自动发现数据的有效特征表示。	ML
特征工程 (Feature Engineering)	人工设计输入特征以提升模型性能。	ML
过拟合 (Overfitting)	模型在训练集上表现好，但在新数据上泛化差。	ML
欠拟合 (Underfitting)	模型无法捕捉数据基本模式。	ML
偏差-方差权衡 (Bias-Variance Tradeoff)	模型误差由偏差（欠拟合）和方差（过拟合）共同决定。	ML
交叉验证 (Cross-Validation)	评估模型泛化能力的重采样技术。	ML
正则化 (Regularization)	通过约束模型复杂度防止过拟合（如L1/L2）。	ML
损失函数 (Loss Function)	衡量预测与真实值差异的目标函数。	ML
优化器 (Optimizer)	用于更新模型参数以最小化损失的算法。	ML
梯度下降 (Gradient Descent)	沿损失函数负梯度方向迭代更新参数。	ML
随机梯度下降 (SGD)	每次用单个样本估计梯度，加速训练。	ML
动量 (Momentum)	在梯度更新中引入历史速度，加速收敛。	ML
Adam 优化器	结合动量与自适应学习率的高效优化算法。	ML
学习率 (Learning Rate)	控制参数更新步长的超参数。	ML
批量大小 (Batch Size)	每次参数更新所用样本数量。	ML
早停 (Early Stopping)	在验证性能不再提升时终止训练，防过拟合。	ML
准确率 (Accuracy)	分类正确的样本比例。	评估
精确率/召回率/F1 (Precision/Recall/F1)	衡量分类性能，尤其在不平衡数据中。	评估
ROC-AUC	衡量二分类器在不同阈值下的整体性能。	评估
混淆矩阵 (Confusion Matrix)	展示分类结果的详细统计。	评估
均方误差 (MSE)	回归任务中预测与真实值平方差的平均。	评估
KL散度 (Kullback-Leibler Divergence)	衡量两个概率分布的差异。	信息论
交叉熵 (Cross-Entropy)	分类任务常用损失函数，衡量预测分布与真实分布差异。	ML
最大似然估计 (MLE)	选择使观测数据概率最大的模型参数。	统计
贝叶斯推断 (Bayesian Inference)	基于先验和似然计算后验分布。	统计
集成学习 (Ensemble Learning)	结合多个模型提升性能（如Bagging, Boosting）。	ML
随机森林 (Random Forest)	基于决策树的Bagging集成方法。	ML
梯度提升机 (GBM / XGBoost)	通过逐步拟合残差构建强模型。	ML

2、DL

名词 (Term)	定义 / 描述	分类标签
神经网络 (Neural Network)	由互连节点（神经元）组成的计算模型，模拟人脑信息处理。	DL
感知机 (Perceptron)	最简单的线性分类神经网络。	DL
多层感知机 (MLP)	含一个或多个隐藏层的前馈神经网络。	DL
激活函数 (Activation Function)	引入非线性（如 ReLU、Sigmoid、Tanh）。	DL
反向传播 (Backpropagation)	通过链式法则计算梯度的算法。	DL
权重初始化 (Weight Initialization)	合理设置初始参数以促进训练（如 Xavier、He）。	DL
批归一化 (Batch Normalization)	对每批数据标准化，加速训练并稳定收敛。	DL
层归一化 (Layer Normalization)	对单个样本的特征归一化，适用于 RNN / Transformer。	DL
Dropout	训练时随机屏蔽部分神经元，防止过拟合。	DL
全连接层 (Fully Connected Layer)	每个神经元与前一层所有神经元相连。	DL
残差连接 (Residual Connection)	跳跃连接，缓解深层网络中的梯度消失问题。	DL
自编码器 (Autoencoder)	学习数据压缩表示并进行重建。	DL
去噪自编码器 (Denoising AE)	从加噪输入中恢复原始数据。	DL
稀疏自编码器 (Sparse AE)	通过稀疏约束学习更有效的特征表示。	DL
受限玻尔兹曼机 (RBM)	两层无向图模型，用于特征学习。	经典DL
深度置信网络 (DBN)	由多层 RBM 堆叠构成的生成模型。	经典DL
卷积神经网络 (CNN)	使用卷积核提取局部空间特征，常用于图像任务。	CV/DL
卷积 (Convolution)	通过滑动滤波器提取局部特征的操作。	CV
池化 (Pooling)	下采样操作（如 Max Pooling），降低维度并增强不变性。	CV
残差网络 (ResNet)	基于残差连接的深度卷积网络架构。	CV
Inception 模块	并行多尺度卷积核提取特征。	CV
U-Net	编码器-解码器结构，常用于医学图像分割。	CV
胶囊网络 (Capsule Network)	使用向量表示特征，保留空间层级信息。	CV
Vision Transformer (ViT)	将图像分块后输入 Transformer 进行建模。	CV
Swin Transformer	基于滑动窗口的层次化视觉 Transformer。	CV
ConvNeXt	现代化 CNN 架构，性能接近 Transformer。	CV
神经辐射场 (NeRF)	使用神经网络表示 3D 场景，实现新视角合成。	3D视觉
循环神经网络 (RNN)	通过隐藏状态建模序列数据依赖。	NLP/DL
长短期记忆 (LSTM)	带门控机制的 RNN，解决长期依赖问题。	NLP
门控循环单元 (GRU)	LSTM 的简化版本，计算更高效。	NLP
Transformer	基于自注意力机制的序列建模架构。	NLP/DL
注意力机制 (Attention Mechanism)	动态关注重要信息，提高建模能力。	NLP/CV
自注意力 (Self-Attention)	建模序列内部元素之间的依赖关系。	NLP
多头注意力 (Multi-Head Attention)	并行多个注意力头捕获不同特征。	NLP
交叉注意力 (Cross-Attention)	在不同序列之间建立关联（如编码器-解码器）。	NLP
位置编码 (Positional Encoding)	为序列引入位置信息。	NLP
编码器-解码器 (Encoder-Decoder)	将输入编码后再解码生成输出序列。	NLP/CV
Mamba	基于状态空间模型的高效序列建模架构。	NLP
状态空间模型 (SSM)	用连续动态系统建模长序列依赖。	NLP
图神经网络 (GNN)	用于处理图结构数据的神经网络。	图学习
图卷积网络 (GCN)	基于图结构的卷积操作进行信息聚合。	图学习
消息传递神经网络 (MPNN)	统一 GNN 框架（消息、聚合、更新）。	图学习
时空图神经网络 (ST-GNN)	同时建模时间与空间依赖关系。	图学习
生成对抗网络 (GAN)	通过生成器与判别器对抗训练生成数据。	生成式AI
Wasserstein GAN (WGAN)	使用 Wasserstein 距离提升训练稳定性。	生成式AI
变分自编码器 (VAE)	基于概率潜变量生成数据。	生成式AI
扩散模型 (Diffusion Models)	通过逐步去噪生成数据。	生成式AI
潜在扩散模型 (LDM)	在潜在空间进行扩散以降低计算成本。	生成式AI
自回归模型 (Autoregressive Models)	按序列逐步生成数据。	生成式AI
流模型 (Normalizing Flows)	通过可逆变换建模复杂分布。	生成式AI
能量基模型 (EBM)	使用能量函数定义概率分布。	生成式AI
对比散度 (Contrastive Divergence)	训练 EBM 或 RBM 的近似方法。	生成式AI
混合专家 (MoE)	由多个专家网络组成，动态选择激活。	大模型
门控网络 (Gating Network)	在 MoE 中决定激活哪些专家。	大模型
稀疏激活 (Sparse Activation)	每次仅激活部分参数，提高效率。	大模型
知识蒸馏 (Knowledge Distillation)	用大模型指导小模型训练。	模型压缩
模型剪枝 (Pruning)	移除冗余参数以压缩模型。	模型压缩
量化 (Quantization)	降低数值精度以减少计算与存储成本。	部署

3、NLP

名词 (Term)	定义 / 描述	分类标签
自然语言处理 (NLP)	让计算机理解和生成人类语言的技术。	NLP
分词 (Tokenization)	将文本切分为词或子词单元。	NLP
分词器 (Tokenizer)	执行文本切分并建立 token 与 id 映射的组件。	NLP
Byte Pair Encoding (BPE)	通过频繁子串合并构建子词词表的方法。	NLP
WordPiece	常用于 BERT 系列的子词切分方法。	NLP
SentencePiece	面向原始文本训练子词词表的分词工具。	NLP
词干提取 (Stemming)	去除词缀得到词干（如 running → run）。	NLP
词形还原 (Lemmatization)	将词还原为词典形式。	NLP
词嵌入 (Word Embedding)	将词映射为稠密向量（如 Word2Vec）。	NLP
上下文词嵌入 (Contextual Embedding)	根据上下文动态生成词向量（如 BERT）。	NLP
词性标注 (POS Tagging)	标注词的语法类别。	NLP
命名实体识别 (NER)	识别人名、地名、组织等实体。	NLP
实体链接 (Entity Linking)	将文本实体映射到知识库。	NLP
关系抽取 (Relation Extraction)	识别实体之间的关系。	NLP
事件抽取 (Event Extraction)	提取事件及其参与要素。	NLP
开放信息抽取 (Open IE)	无需预定义关系直接抽取三元组。	NLP
共指消解 (Coreference Resolution)	判断不同指代是否为同一实体。	NLP
语义角色标注 (SRL)	标注句子中的语义角色关系。	NLP
依存句法分析 (Dependency Parsing)	构建词语依赖关系树。	NLP
成分句法分析 (Constituency Parsing)	构建句子短语结构树。	NLP
文本分类 (Text Classification)	将文本划分到类别。	NLP
情感分析 (Sentiment Analysis)	判断文本情感倾向。	NLP
文本蕴含 (NLI)	判断句子间逻辑关系。	NLP
语义相似度 (Semantic Similarity)	衡量文本语义接近程度。	NLP
机器翻译 (Machine Translation)	自动翻译不同语言。	NLP
神经机器翻译 (NMT)	基于神经网络的翻译方法。	NLP
束搜索 (Beam Search)	近似最优解码策略。	NLP
文本摘要 (Text Summarization)	生成文本简要概括。	NLP
抽取式摘要	从原文提取关键句。	NLP
生成式摘要	生成新的摘要文本。	NLP
问答系统 (QA)	根据上下文回答问题。	NLP
开放域问答 (Open QA)	从大规模知识中回答问题。	NLP
机器阅读理解 (MRC)	从给定文本中定位答案。	NLP
对话系统 (Dialogue System)	与用户进行多轮交互。	NLP
任务型对话	完成具体任务（如订票）。	NLP
闲聊对话	开放域自然对话。	NLP
对话状态跟踪 (DST)	跟踪用户意图与状态。	NLP
信息检索 (IR)	从文档集合中查找相关内容。	IR
倒排索引 (Inverted Index)	支持高效检索的数据结构。	IR
TF-IDF	衡量词的重要性（用于检索与表示）。	IR/NLP
BM25	改进 TF-IDF 的排序算法。	IR
词袋模型 (Bag-of-Words)	忽略词序，仅统计词频。	NLP
TF-IDF 向量	基于 TF-IDF 的文本表示。	NLP
语言模型 (Language Model)	建模词序列概率分布。	NLP
n-gram 模型	基于马尔可夫假设的语言模型。	NLP
困惑度 (Perplexity)	衡量语言模型不确定性。	评估
主题模型 (Topic Modeling)	发现文本中的潜在主题。	NLP
潜在狄利克雷分配 (LDA)	经典概率主题模型。	NLP
Word2Vec	基于预测任务学习词向量。	NLP
GloVe	基于共现统计学习词向量。	NLP
FastText	基于子词建模词向量。	NLP
ELMo	基于双向 LSTM 的上下文表示。	NLP
BERT	双向 Transformer 预训练模型。	NLP
RoBERTa	优化版 BERT。	NLP
ALBERT	参数共享的轻量 BERT。	NLP
DistilBERT	蒸馏版 BERT。	NLP
T5	统一为文本到文本任务框架。	NLP
GPT	自回归语言模型架构。	NLP
GPT-2 / GPT-3	大规模预训练语言模型。	NLP
大语言模型 (LLM)	超大规模通用语言模型。	NLP
FLAN	基于指令微调的模型。	NLP
指令微调 (Instruction Tuning)	用指令数据优化模型行为。	NLP
提示工程 (Prompt Engineering)	设计输入以引导模型输出。	NLP
上下文学习 (In-Context Learning)	利用示例完成任务，无需训练。	NLP
链式思维 (CoT)	生成中间推理步骤。	NLP
自洽性 (Self-Consistency)	多路径推理投票选择答案。	NLP
程序辅助语言模型 (PAL)	将推理转为程序执行。	NLP
思维树 (Tree of Thoughts)	树状结构搜索推理路径。	NLP
反思 (Reflexion)	自我反馈优化推理过程。	NLP
检索增强生成 (RAG)	结合检索与生成提升准确性。	NLP
LangChain	LLM 应用开发框架。	工具
LlamaIndex	面向 RAG 的数据框架。	工具
知识图谱 (Knowledge Graph)	结构化实体关系网络。	KG
知识图谱补全 (KGC)	预测缺失关系。	KG
BLEU	基于 n-gram 的翻译评估指标。	评估
ROUGE	摘要任务评估指标。	评估
METEOR	考虑语义匹配的评估指标。	评估
BERTScore	基于语义嵌入的评估指标。	评估
MAUVE	衡量生成分布差异。	评估
SuperGLUE / GLUE	综合 NLP 基准测试。	评估
MMLU	多学科知识评估数据集。	评估
GSM8K	数学推理数据集。	评估
TruthfulQA	测试事实性与幻觉。	评估
BIG-bench	多任务评估集合。	评估
HELM	全面评估框架。	评估
幻觉 (Hallucination)	生成内容与事实不符。	问题
偏见 (Bias)	模型中的不公平倾向。	伦理
公平性 (Fairness)	确保不同群体公平对待。	伦理
可解释性 (Explainability)	理解模型决策过程。	可信AI
LIME / SHAP	模型解释方法。	可信AI

4、CV

名词 (Term)	定义 / 描述	分类标签
计算机视觉 (Computer Vision)	让机器理解和分析图像与视频内容。	CV
图像分类 (Image Classification)	为整张图像分配类别标签。	CV
目标检测 (Object Detection)	定位并识别图像中的多个物体。	CV
边界框 (Bounding Box)	用矩形框标注目标位置。	CV
实例分割 (Instance Segmentation)	对每个目标实例进行像素级分割。	CV
语义分割 (Semantic Segmentation)	为每个像素分配类别标签。	CV
全景分割 (Panoptic Segmentation)	统一实例分割与语义分割。	CV
关键点检测 (Keypoint Detection)	定位物体关键点（如人体关节）。	CV
姿态估计 (Pose Estimation)	估计人体或物体姿态结构。	CV
光流 (Optical Flow)	估计像素在时间上的运动。	CV
立体视觉 (Stereo Vision)	从双目图像恢复深度信息。	CV
深度估计 (Depth Estimation)	从单目或视频预测深度。	CV
图像去噪 (Image Denoising)	去除图像中的噪声。	CV
超分辨率 (Super-Resolution)	提升图像分辨率。	CV
图像修复 (Image Inpainting)	填补图像缺失区域。	CV
风格迁移 (Style Transfer)	将图像风格迁移到另一图像。	CV
图像配准 (Image Registration)	对齐不同来源图像。	CV
特征点检测 (Feature Detection)	提取稳定关键点（如 SIFT）。	CV
特征描述子 (Feature Descriptor)	描述关键点局部特征。	CV
边缘检测 (Edge Detection)	提取图像边界（如 Canny）。	CV
霍夫变换 (Hough Transform)	检测直线、圆等几何结构。	CV
图像金字塔 (Image Pyramid)	多尺度图像表示方法。	CV
非极大值抑制 (NMS)	去除重复检测框。	CV
交并比 (IoU)	衡量两个框的重叠程度。	评估
mAP	目标检测综合评估指标。	评估
PSNR / SSIM	图像质量评估指标。	评估
YOLO	单阶段实时目标检测模型。	CV
Faster R-CNN	两阶段目标检测模型。	CV
Mask R-CNN	增加实例分割分支的检测模型。	CV
EfficientDet	基于 EfficientNet 的检测模型。	CV
DETR	基于 Transformer 的检测模型。	CV
SAM	通用图像分割模型。	CV
Grounded-SAM	结合检测与分割的开放词汇模型。	CV
CLIP	对齐图像与文本表示的模型。	多模态
BLIP / BLIP-2	图文理解与生成模型。	多模态
Flamingo	支持交错图文输入的模型。	多模态
KOSMOS-1/2	微软多模态大模型。	多模态
LLaVA	视觉+语言对话模型。	多模态
多模态大语言模型 (MLLM)	处理多模态输入的语言模型。	多模态
视觉问答 (VQA)	回答关于图像的问题。	多模态
图像描述生成 (Image Captioning)	为图像生成文本描述。	多模态
跨模态检索 (Cross-modal Retrieval)	图文互相检索。	多模态
视频分类 (Video Classification)	对视频进行类别分类。	视频
动作识别 (Action Recognition)	识别视频中的动作。	视频
视频目标检测	在视频中检测目标。	视频
视频跟踪 (Video Tracking)	持续跟踪目标位置。	视频
多目标跟踪 (MOT)	同时跟踪多个目标。	视频
SORT / DeepSORT	基于卡尔曼滤波的跟踪算法。	视频
光度立体视觉 (Photometric Stereo)	从多光照恢复表面法线。	3D
结构光 (Structured Light)	通过投影图案获取深度。	3D
ToF (Time-of-Flight)	基于飞行时间测距。	3D
点云 (Point Cloud)	三维空间中的点集合。	3D
PointNet / PointNet++	点云处理模型。	3D
体素 (Voxel)	三维网格表示单位。	3D
Mesh	基于顶点与面的3D表示。	3D
3D Gaussian Splatting	基于高斯分布的3D表示方法。	3D
SLAM	同步定位与建图技术。	机器人
ORB-SLAM	基于 ORB 特征的 SLAM 系统。	机器人
医学图像分割	医学图像中的结构分割任务。	医疗CV
nnU-Net	自动化医学分割框架。	医疗CV
遥感图像分析	分析卫星或航拍图像。	遥感
变化检测	检测不同时相图像差异。	遥感
ImageNet	大规模图像分类数据集。	数据集
COCO	检测、分割等多任务数据集。	数据集
PASCAL VOC	经典目标检测数据集。	数据集
Cityscapes	城市场景分割数据集。	数据集
KITTI	自动驾驶数据集。	数据集
ActivityNet	视频理解数据集。	数据集
Kinetics	视频动作分类数据集。	数据集
ADE20K	场景解析数据集。	数据集
Open Images	大规模多任务视觉数据集。	数据集

5、RL

名词 (Term)	定义 / 描述	分类标签
马尔可夫决策过程 (MDP)	强化学习的标准数学建模框架。	RL
部分可观测MDP (POMDP)	状态不可完全观测的扩展MDP。	RL
状态 (State)	环境在某一时刻的表示。	RL
动作 (Action)	智能体可执行的操作。	RL
奖励 (Reward)	环境对动作的即时反馈信号。	RL
策略 (Policy)	从状态到动作的映射函数。	RL
价值函数 (Value Function)	衡量状态或状态-动作的长期回报。	RL
Q函数 (Action-Value Function)	Q(s,a) 表示在状态 s 下执行动作 a 的期望回报。	RL
贝尔曼方程 (Bellman Equation)	描述价值函数的递归关系。	RL
贝尔曼最优方程	描述最优策略的价值函数关系。	RL
探索 vs 利用 (Exploration vs Exploitation)	在探索新策略与利用已有策略之间权衡。	RL
ε-贪婪策略 (ε-Greedy)	以 ε 概率随机探索，否则选择最优动作。	RL
蒙特卡洛方法 (Monte Carlo)	基于完整轨迹估计回报。	RL
时序差分学习 (TD Learning)	基于一步估计更新价值函数。	RL
SARSA	基于 on-policy 的 TD 控制算法。	RL
Q-learning	基于 off-policy 的 TD 控制算法。	RL
深度Q网络 (DQN)	用神经网络近似 Q 函数。	深度RL
经验回放 (Experience Replay)	重用历史经验以提高样本效率。	深度RL
目标网络 (Target Network)	延迟更新目标值以稳定训练。	深度RL
Double DQN	缓解 Q 值过估问题。	深度RL
Dueling DQN	分离状态价值与优势函数。	深度RL
优先经验回放 (PER)	按 TD 误差优先采样经验。	深度RL
Rainbow	集成多种 DQN 改进的算法。	深度RL
策略梯度 (Policy Gradient)	直接优化策略参数的方法。	RL
REINFORCE	基于蒙特卡洛的策略梯度算法。	RL
Actor-Critic	同时学习策略（Actor）与价值（Critic）。	深度RL
A3C / A2C	异步/同步的 Actor-Critic 方法。	深度RL
PPO	通过裁剪策略更新提高稳定性。	深度RL
TRPO	通过 KL 约束限制策略更新幅度。	深度RL
DDPG	连续动作空间的确定性策略梯度算法。	深度RL
TD3	改进 DDPG，降低过估问题。	深度RL
SAC	基于最大熵的强化学习方法。	深度RL
IMPALA	分布式 Actor-Learner 框架。	深度RL
Dreamer / DreamerV2 / V3	基于世界模型的强化学习方法。	深度RL
世界模型 (World Model)	学习环境动态用于规划与决策。	深度RL
模型基RL (Model-Based RL)	显式学习环境模型进行决策。	RL
无模型RL (Model-Free RL)	不建模环境，直接学习策略或价值。	RL
离线强化学习 (Offline RL)	在固定数据集上训练策略。	RL
BCQ	限制策略分布的离线 RL 方法。	离线RL
CQL	保守 Q 学习，避免过高估计。	离线RL
Decision Transformer	将 RL 建模为序列预测问题。	离线RL
IQL	无需显式策略网络的离线 RL 方法。	离线RL
多智能体强化学习 (MARL)	多个智能体共同学习与交互。	RL
博弈论 (Game Theory)	多智能体决策的理论基础。	MARL
纳什均衡 (Nash Equilibrium)	各方策略稳定的博弈解。	MARL
逆强化学习 (Inverse RL)	从专家行为中推断奖励函数。	IL
模仿学习 (Imitation Learning)	模仿专家策略进行学习。	IL
行为克隆 (Behavior Cloning)	将模仿学习转化为监督学习。	IL
DAgger	通过交互数据缓解分布偏移。	IL
课程学习 (Curriculum Learning)	从简单任务逐步学习复杂任务。	RL/ML
奖励塑形 (Reward Shaping)	设计辅助奖励加速学习。	RL
稀疏奖励 (Sparse Reward)	仅在少数状态提供奖励。	RL
内在动机 (Intrinsic Motivation)	基于好奇心驱动探索。	RL
ICM	基于预测误差的内在动机模块。	RL
HER	重标记目标以提高样本利用率。	RL
多任务RL (Multi-task RL)	同时学习多个任务。	RL
元强化学习 (Meta-RL)	快速适应新任务的 RL 方法。	RL
安全强化学习 (Safe RL)	在约束条件下学习策略。	安全RL
约束MDP (CMDP)	带约束条件的 MDP 扩展。	安全RL

6、LLM

名词 (Term)	定义 / 描述	分类标签
基础模型 (Foundation Model)	在大规模数据上预训练的通用模型。	大模型
预训练 (Pretraining)	在通用语料上学习通用能力。	大模型
监督微调 (SFT)	在高质量数据上优化模型表现。	大模型
参数高效微调 (PEFT)	仅训练少量新增或选定参数完成微调。	大模型
LoRA	通过低秩适配器高效微调大模型。	大模型
QLoRA	结合量化与 LoRA 的低成本微调方法。	大模型
Prefix Tuning	通过学习前缀向量引导模型完成任务。	大模型
P-Tuning	用可学习提示向量替代人工离散提示。	大模型
人类反馈强化学习 (RLHF)	使用人类偏好优化模型输出。	对齐
奖励模型 (Reward Model)	评估输出质量的模型。	对齐
直接偏好优化 (DPO)	不使用RL直接优化偏好。	对齐
ORPO	将偏好优化与监督目标结合的对齐方法。	对齐
KTO	基于 Kahneman-Tversky 理论的偏好优化方法。	对齐
宪法AI (Constitutional AI)	基于规则进行自我对齐。	对齐
Self-Alignment	模型自生成数据进行对齐。	对齐
拒绝采样 (Rejection Sampling)	从候选中选择高质量输出。	推理
KV Cache	缓存历史键值张量以加速自回归解码。	推理优化
对齐税 (Alignment Tax)	对齐带来的性能损失。	对齐
奖励黑客 (Reward Hacking)	利用奖励漏洞而非完成任务。	风险
欺骗性对齐 (Deceptive Alignment)	模型伪装为对齐状态。	风险
潜伏代理 (Sleeper Agents)	在特定触发下执行隐藏行为。	风险
红队测试 (Red Teaming)	主动攻击模型发现问题。	安全
AI安全 (AI Safety)	确保AI行为可控与安全。	安全
AI治理 (AI Governance)	规范AI开发与使用的制度。	治理
AI审计 (AI Auditing)	对AI系统进行合规检查。	治理
差分隐私 (Differential Privacy)	通过噪声保护数据隐私。	隐私
水印 (Watermarking)	在生成内容中嵌入标识。	版权
绿色AI (Green AI)	优化能耗与碳排放。	可持续
模型崩溃 (Model Collapse)	在合成数据上训练导致退化。	风险
涌现能力 (Emergent Abilities)	大模型规模带来的新能力。	大模型
Agent	能自主规划与行动的系统。	Agent
具身智能 (Embodied AI)	在物理环境中交互的AI。	机器人
Speculative Decoding	用小模型加速大模型生成。	推理优化
Continuous Batching	动态合批多个请求以提升推理吞吐。	推理优化
FlashAttention	优化注意力计算效率。	系统
PagedAttention	通过分页管理 KV Cache 提升推理内存效率。	系统
RoPE	旋转位置编码方法。	架构
ALiBi	线性偏置位置编码。	架构
RMSNorm	不减均值的归一化方法，常见于大模型。	架构
SwiGLU	常用于 Transformer 前馈层的激活结构。	架构
分组查询注意力 (GQA)	多个查询头共享较少键值头的注意力机制。	架构
多查询注意力 (MQA)	所有查询头共享同一组键值头以降低缓存开销。	架构
RWKV	RNN与Transformer混合架构。	架构
DeepSpeed	大模型训练优化框架。	系统
ZeRO	分布式内存优化策略。	系统
FSDP	PyTorch分布式训练方法。	系统
Megatron-LM	NVIDIA大模型训练框架。	系统
张量并行 (Tensor Parallelism)	将计算拆分到多个设备。	系统
流水线并行 (Pipeline Parallelism)	按层分布执行模型。	系统
混合精度训练	使用低精度加速训练。	训练
学习率预热	初期逐步增大学习率。	训练
余弦退火	学习率周期性衰减。	训练
梯度检查点	用计算换显存。	训练
数据增强	提升数据多样性。	训练
对抗样本 (Adversarial Example)	微小扰动导致错误预测。	安全
对抗训练	提升模型鲁棒性。	安全
OOD检测	识别分布外数据。	可信AI
不确定性估计	衡量预测置信度。	可信AI
校准 (Calibration)	概率与真实准确率一致。	可信AI
模型卡片 (Model Cards)	描述模型行为与风险。	治理
数据卡片 (Data Cards)	描述数据来源与偏见。	治理
系统卡片 (System Cards)	描述完整AI系统行为。	治理
FLOPs	浮点运算量。	评估
延迟 (Latency)	单次推理耗时。	评估
吞吐量 (Throughput)	单位时间处理能力。	评估
显存占用 (VRAM Usage)	GPU内存消耗。	评估
碳足迹 (Carbon Footprint)	AI运行的环境影响。	评估
提示注入 (Prompt Injection)	利用输入操控模型行为。	安全
越狱 (Jailbreaking)	绕过模型安全限制。	安全
数据投毒 (Data Poisoning)	恶意污染训练数据。	安全
模型窃取 (Model Stealing)	复制模型能力。	安全
成员推断攻击	判断数据是否参与训练。	隐私
模型反演	从输出恢复训练数据。	隐私