9项GLUE任务 General Language Understanding Evaluation 包含了很多自然语言理解的任务。

MNLI

Multi-Genre Natural Language Inference是一个众包大规模的文本蕴含任务。

给2个句子，判断第二个句子与第一个句子之间的关系。蕴含、矛盾、中立的

QQP

Quora Question Pairs

给2个问题，判断是否语义相同

Question Natural Language Inference 是一个二分类任务，由SQuAD数据变成。

给1个(问题，句子)对，判断句子是否包含正确答案

Stanford Sentiment Treebank，二分类任务，从电影评论中提取。

给1个评论句子，判断情感

The Corpus of Linguistic Acceptablity，二分类任务，判断一个英语句子是否符合语法的

给1个英语句子，判断是否符合语法

The Semantic Textual Similarity Benchmark，多分类任务，判断两个句子的相似性，0-5。由新闻标题和其他组成

给2个句子，看相似性

Microsoft Research Paraphrase Corpus，2分类任务，判断两个句子是否语义相等，由网上新闻组成。05年的，3600条训练数据。

给1个句子对，判断2个句子语义是否相同

Recognizing Textual Entailment，二分类任务，类似于MNLI，但是只是蕴含或者不蕴含。训练数据更少

Winograd NLI一个小数据集的NLI。据说官网评测有问题。所以评测后面的评测没有加入这个