BERT研究进展—从传统架构到ModernBERT的演进（截至2025年初）

方小达收录于类别技术研究机器学习

2025-02-13 2025-02-13 约 1130 字预计阅读 5 分钟次阅读

目录

作为一名前ChatGPT时代的NLP算法工程师，可以毫不夸张的说，我的职业生涯都是靠BERT活下来的。在面对标注数据稀缺的场景，它的性能足够好，训练足够简单，结果足够可控，改起来也足够简单。ChatGPT出现之后，以GPT架构为基础的各种大模型层出不穷，BERT的声音似乎越来越小了。不过，ModernBERT的出现，让我又看到了世界上还是有那么一群人，依旧在发掘它的潜力和价值。

这篇文章主要记录ModernBERT和ModerBERT-Large-Instruct两个模型的研究成果，由于这两个模型对应的论文和博客内容已经非常详尽，我这里只会摘出比较重要的一些结论和我觉得存在的问题。

ModerBERT

官方博客文章：

Finally, a Replacement for BERT: Introducing ModernBERT – Answer.AI

介绍视频（油管链接）：

ModernBert: time for a new BERT

模型链接：

ModernBERT-large

中文模型链接：neavo/modern_bert_multilingual （注：该模型的作者正在开发ACG内容自动翻译工具，使用ModernBERT模型进行NER任务）

要点总结：

高性能，低资源消耗
支持8k上下文长度
模型预训练过程中，混合了代码数据

不足之处：

中文支持（尚未有组织或者机构进行ModernBERT的训练）
论文中只描述了输出处理过程，没有任何实际处理代码或者处理后的数据释出，无法复现

ModerBERT-Large-Instruct

介绍的博客文章：TIL: Masked Language Models Are Surprisingly Capable Zero-Shot Learners

模型链接：answerdotai/ModernBERT-Large-Instruct

中文模型链接：暂无

要点总结：

直接使用[MASK]做分类任务的目标，抛弃了传统的[CLS]头，模型性能得到了一定的提升

2. Zero-Shot 能力出色（使用的测试集为MMLU-Pro），相当于3~4倍参数量的GPT架构的模型（从这里可以看到Qwen模型是真的强）

针对20亿以下模型的MMLU-Pro排行榜

3. 进行微调后，准确率和普通的CLS方案基本一致，在更细粒度的分类上有一些优势

4. 模型预训练的过程中，使用了80%的真[MASK]和20%的假[MASK]的混合，假的[MASK]标签就是对应的目标就是一个[MASK]标签，这种方法让模型的能力得到了提升，作者认为这个相当于起到了一个正则化的效果。

5. 还有许多可以探索的空间：

探索更好的、更具多样性的模板生成
对训练机制进行更深入的分析，以及虚拟示例的效果
在更近期的指令数据集中进行测试，具有更好的构建质量
调查少样本学习能力
扩展到更大的模型规模

不足之处：

巨大的提升主要针对于Zero-Shot场景，在实际的应用中可能意义不大
没有中文支持

以上就是最近的两篇BERT相关的论文的汇总，希望我的文章能够让更多人认识到BERT模型的潜力，在低资源高性价比的方案中，更多的尝试使用BERT来解决问题。