9项GLUE任务 General Language Understanding Evaluation 包含了很多自然语言理解的任务。
MNLI
Multi-Genre Natural Language Inference是一个众包大规模的文本蕴含任务。
给2个句子,判断第二个句子与第一个句子之间的关系。蕴含、矛盾、中立的
QQP
Quora Question Pairs
给2个问题,判断是否语义相同
QNLI
Question Natural Language Inference 是一个二分类任务,由SQuAD数据变成。
给1个(问题,句子)对,判断句子是否包含正确答案
SST-2
Stanford Sentiment Treebank,二分类任务,从电影评论中提取。
给1个评论句子,判断情感
CoLA
The Corpus of Linguistic Acceptablity,二分类任务,判断一个英语句子是否符合语法的
给1个英语句子,判断是否符合语法
STS-B
The Semantic Textual Similarity Benchmark,多分类任务,判断两个句子的相似性,0-5。由新闻标题和其他组成
给2个句子,看相似性
MRPC
Microsoft Research Paraphrase Corpus,2分类任务,判断两个句子是否语义相等,由网上新闻组成。05年的,3600条训练数据。
给1个句子对,判断2个句子语义是否相同
RTE
Recognizing Textual Entailment,二分类任务,类似于MNLI,但是只是蕴含或者不蕴含。训练数据更少
WNLI
Winograd NLI一个小数据集的NLI。据说官网评测有问题。所以评测后面的评测没有加入这个