pos机怎么拼写(NLP 模型评测方法 CHECKLIST)

快鱼网 27 0

目前大部分 NLP 模型都是通过划分训练、测试集进行性能的评估,在训练集训练,用测试集评估,但是这种方式往往会高估了模型的性能。本文介绍 ACL 2020 年的 Best Paper,论文作者提出了一种新的 NLP 模型评测方法 CHECKLIST。CHECKLIST 借鉴了传统软件工程的测试准则,通过模板快速生成大量样例,全面测试模型的各种能力,可以用于几乎所有 NLP 任务。

1.背景

训练 NLP 模型的一个主要目标是获得良好的泛化能力,即训练得到的模型可以很好地用于真实场景。目前一般是采用划分数据集的方式评估模型的泛化能力,把模型划分为训练、验证、测试集,通过测试集评估模型性能,但是这种方式存在一些缺陷:

测试数据集通常不够全面,并且和训练数据集有相似的分布,和真实场景有偏差,因此通常会高估模型的性能。传统的评测方法通常会得到一个单一的统计值,例如 accuracy 和 F1,不能指出模型效果不理想的具体地方,不容易修复。

针对这些问题,论文《Beyond Accuracy: Behavioral Testing of NLP Models with CheckList》的作者们提出了 CHECKLIST 测试方法,这篇论文是 ACL 2020 年的最佳论文。CHECKLIST 总结了 NLP 模型应该具备的多项能力,对于每一项能力均采用三种不同类型的测试方法进行评估,全面地得到模型各项能力水平。

对于 CHECKLIST 的每一项测试,可以采用模板快速生成大量测试样例,几乎适用于所有 NLP 任务。作者提供了开源工具用于生成测试样例,代码地址: 。

作者利用 CHECKLIST 对商用模型和一些 state-of-art 模型进行评估,发现了这些模型一些致命的缺陷。在用户研究过程中发现,NLP 从业者使用 CHECKLIST 可以进行两倍多的测试,并且发现 bug 的数量是不使用 CHECKLIST 人员的三倍。

2.CHECKLIST

2.1 NLP 模型的各种能力

作者认为传统的软件工程测试时会把功能划分为几个独立模块,对每一个独立的模块分别进行测试,验证每个模块功能是否正确,但是 NLP 模型通常不能明确划分为几个模块。

因此 CHECKLIST 列出了常见 NLP 模型应该具备的几种能力 (Capabilities),针对这些具体的能力,分别进行测试。NLP 模型应该具备的能力包括:

Vocabulary+POS:词汇和词性,评估模型是否掌握了常见的单词,是否可以恰当地处理不同词性单词对任务的影响。Taxonomy:近义词和反义词,把句子中的一个单词替换成近义词,语义应该保持一致。Robustness:稳健性,句子中某个单词拼写错误或者对句子进行一些不重要的改动,模型应该保持预测结果一致。NER:命名实体,模型要正确理解命名实体。Fairness:公平性,模型不应该带有某种歧视,例如对待女性和男性,黄种人和白种人应该保持一致。Temporal:时序,模型要具备识别事件先后的能力。Negation:否定,在句子中加入否定词,模型能正确预测的句子的情感极性。

2.2 测试方法

CHECKLIST 中主要用了三种测试方法:最小功能测试 (MFT)、不变性测试 (INV) 和方向期望测试 (DIR)。作者建议对于 NLP 模型的每一种能力,都尽量采用这三种测试方法测试一遍。下面以情感分类任务为例,介绍三种不同的测试方法。

最小功能测试 Minimum Functionality test (MFT) 主要是受到单元测试的启发,用模板生成大量的针对某一任务和能力的简单测试用例,用这些测试用例测试模型性能。对于情感分类任务,如果要用 MFT 测试模型的 Negation 能力,则可以用下面的模板生成测试用例。

MFT 生成模板

不变性测试 Invariance (INV) 是指对原始句子进行一些不影响预测结果的变化,这是模型的预测应该保持和原始句子一致,否则说明模型有问题。对于句子的不同成分进行改变,可以测试模型的不同能力,例如改变句子中的地名,可以测试模型的 NER 能力,如下所示。

INV 生成模板

方向期望测试 Directional Expectation test (DIR),对原始句子进行修改,并且保证修改后结果往期望的方向变化。例如在情感分类中,在一个负情感的句子后面增加一个负情感的短语,预测结果应该保持负的。如下图所示。

DIR 生成模板

作者提供了开源代码,可以很容易的根据各种模板生成对应的测试样例。

2.3 CHECKLIST

用 CHECKLIST 测试的小例子

上图是用 CHECKLIST 测试 Google 商用情感分析模型的例子。通过 MFT 生成了很多带否定短语的简单句子,这些句子正确标签均是 Neg,但是模型和容易预测为 Pos 和 Neutral,错误率高达 76.4%。对于 INV 测试,作者修改了句子中的一些地点名称,也会影响到模型的预测结果。

3.实验效果

CHECKLIST 对五个出名的商业模型和 state-of-art 模型中进行评测,包括微软、谷歌、亚马逊的商业模型以及 BERT 和 RoBERTa。下面是 CHECKLIST 对于这五个模型在情感分析任务上的评测。

情感分析 CHECKLIST 评测结果

可以看到这些模型对于很多简单的测试样本都预测错误了,例如 BERT 和 RoBERTa 对于 MFT 生成的 neural 句子有 94.6% 和 81.8% 的概率会预测错误。对于CHECKLIST 生成的带双重否定的句子 (Negation),这五个模型效果均不理想。

这些测试样例都不是很复杂的句子,但是却可以比较容易地发现模型的缺陷,对于我们评估模型的性能有很大启发。

4.参考文献

Beyond Accuracy: Behavioral Testing of NLP Models with CheckList

标签: 模型

抱歉,评论功能暂时关闭!