KBQA 常用的问答数据集之 GrailQA
KBQA 数据集之常用数据集 GrailQA论文相关内容介绍数据统计模型间的性能对比
目录
1. 论文相关
GrailQA [Gu et al., 2021]
源自论文:Beyond I.I.D.: Three Levels of Generalization for Question Answering on Knowledge Bases
数据集:Strongly Generalizable Question Answering Dataset
2. 数据集概述
GrailQA 是 Generalizable Question Answering 的缩写。
2.1 内容介绍
GrailQA是一个新的大规模、高质量的KBQA数据集,其知识库是Freebase。它主要用来评估KBQA模型的泛化能力,支持三个泛化级别的评估:i.i.d, compositional, zero-shot。
i.i.d setting: training distribution over questions is the same as the test distribution.
composition setting: generalize to novel compositions of the seen constructs.
zero-shot setting: model should also handle novel schema items or even entire domains not covered by the limited training data, which also includes compositions of novel constructs.

GrailQA数据集中问题的详细格式如下:
| qid | 问题id |
| question | 自然语言问题(小写) |
| answer |
答案集(提供了人类可读的答案和Freebase具体的形式(比如 mid))。包含三个小字段: answer_type: 答案的类型,"Entity" or "Value"; answer_argument: mid; entity_name:实体名。 |
| function | 问题中的函数:["count", "max", "min", "argmax", "argmin", ">", ">=", "<", "<=", "none"]. (一个问题中至少含有一个函数) |
| level | 问题的泛化级别(i.i.d. ,compositional and zero-shot)。 |
| num_node | 问题对应的 graph query 中的结点数。 |
| num_edge | 问题对应的 graph query 中的边数。 |
| graph_query |
与问题相对应的 graph query。 包含的小字段如下: -- nodes:结点。 -nid: 结点id。 -node_type: ["class", "entity", "literal"] (其中,class结点要么是问题结点,要么是ungrounded结点,entity 和 literal 结点是grounded结点) -id: freebase中结点的唯一id。 -friendly_name:这个节点的标准名称来自Freebase,只是为了便于阅读。 -question_node:判断结点是不是问题结点,[1,0]。(由于只有一个问题,所以都为0) -function: 应用到结点上的函数。 --edges: 边。 -start:开始结点的结点id。 -end:终止结点的结点id。 -relation:边上所含的关系在 Freebase中 的id。 -friendly_name: Freebase关系的规范名称,仅供人类阅读。 |
| sparql_query | 用于生成答案的SPARQL查询。(注意,所提供的查询将只获得答案在Freebase 中的 id,需要将其转换为前面描述的人类可读的格式) |
| s_expression | S-expression 中的逻辑表达形式。(s-expression提供了比sparql_query更简洁的语法,可以很容易地与现代的encoder-decoder模型一起使用。) |
注:对于公共测试集,我们屏蔽了除了自然语言问题(即问题字段)之外的所有字段。
2.2 数据统计
GrailQA数据集相关的统计情况如下:
| Questions | 64,331 |
| Canonical LF | 4,969 |
| Domains | 86 |
| Relations | 3,720 |
| Classes | 1,534 |
| Entities | 32,585 |
| Literals | 3,239 |
| Generalization Assumption | i.i.d.+ comp.+ zero-shot |
注: The number of distinct canonical logical forms (LFs) provides a view into the diversity of logical structures.
来自GrailQA的示例问题如下:

GrailQA 数据集中的复杂问题最多4-hop,具体分布如下:

3. 模型性能比较
可参考链接:GrailQA Dataset | Papers With Code
| 模型(年份) |
F1 |
论文 | 代码链接 |
| I.I.D.(2021) | 67.3 | Beyond I.I.D.: Three Levels of Generalization for Question Answering on Knowledge Bases | GitHub - dki-lab/GrailQA |
| RNG-KBQA(2021) | 74.4 | RNG-KBQA: Generation Augmented Iterative Ranking for Knowledge Base Question Answering | GitHub - salesforce/rng-kbqa |
|
NMSER/ ReTrack(2021) |
65.3 | ReTraCk: A Flexible and Efficient Framework for Knowledge Base Question Answering | KC/papers/ReTraCk at main · microsoft/KC · GitHub |
| ArcaneQA(2022) | 73.7 | ArcaneQA: Dynamic Program Induction and Contextualized Encoding for Knowledge Base Question Answering | https://github.com/dki-lab/ArcaneQA |
后续内容将持续更新,欢迎大家评论和补充~
更多推荐




所有评论(0)