目录

1. 论文相关

2. 数据集概述

2.1  内容介绍

2.2  数据统计

3. 模型性能比较


1. 论文相关

 GrailQA [Gu et al., 2021]

源自论文:Beyond I.I.D.: Three Levels of Generalization for Question Answering on Knowledge Bases

数据集:Strongly Generalizable Question Answering Dataset

2. 数据集概述

GrailQA 是 Generalizable Question Answering 的缩写。

2.1  内容介绍

GrailQA是一个新的大规模、高质量的KBQA数据集,其知识库是Freebase。它主要用来评估KBQA模型的泛化能力,支持三个泛化级别的评估:i.i.d, compositional, zero-shot。

 i.i.d setting: training distribution over questions is the same as the test distribution.

composition setting: generalize to novel compositions of the seen constructs.

zero-shot setting: model should also handle novel schema items or even entire domains not covered by the limited training data, which also includes compositions of novel constructs.

GrailQA数据集中问题的详细格式如下:

GrailQA数据集中所有字段的含义
qid 问题id
question 自然语言问题(小写)
answer

答案集(提供了人类可读的答案和Freebase具体的形式(比如 mid))。包含三个小字段:

answer_type: 答案的类型,"Entity" or "Value";

answer_argument: mid;

entity_name:实体名。

function 问题中的函数:["count", "max", "min", "argmax", "argmin", ">", ">=", "<", "<=", "none"].  (一个问题中至少含有一个函数)
level 问题的泛化级别(i.i.d. ,compositional and zero-shot)。
num_node 问题对应的 graph query 中的结点数。
num_edge 问题对应的 graph query 中的边数。
graph_query

与问题相对应的 graph query。

包含的小字段如下:

-- nodes:结点。

         -nid: 结点id。

         -node_type: ["class", "entity", "literal"] (其中,class结点要么是问题结点,要么是ungrounded结点,entity 和 literal 结点是grounded结点)

         -id: freebase中结点的唯一id。

         -friendly_name:这个节点的标准名称来自Freebase,只是为了便于阅读。

         -question_node:判断结点是不是问题结点,[1,0]。(由于只有一个问题,所以都为0)

         -function: 应用到结点上的函数。

--edges: 边。

         -start:开始结点的结点id。

         -end:终止结点的结点id。

         -relation:边上所含的关系在 Freebase中 的id。

         -friendly_name: Freebase关系的规范名称,仅供人类阅读。

sparql_query 用于生成答案的SPARQL查询。(注意,所提供的查询将只获得答案在Freebase 中的 id,需要将其转换为前面描述的人类可读的格式)
s_expression S-expression 中的逻辑表达形式。(s-expression提供了比sparql_query更简洁的语法,可以很容易地与现代的encoder-decoder模型一起使用。)

注:对于公共测试集,我们屏蔽了除了自然语言问题(即问题字段)之外的所有字段。

2.2  数据统计

GrailQA数据集相关的统计情况如下:

GrailQA数据集相关统计情况
Questions 64,331
Canonical LF 4,969
Domains 86
Relations 3,720
Classes 1,534
Entities 32,585
Literals 3,239
Generalization Assumption i.i.d.+ comp.+ zero-shot

 The number of distinct canonical logical forms (LFs) provides a view into the diversity of logical structures.

来自GrailQA的示例问题如下:

GrailQA 数据集中的复杂问题最多4-hop,具体分布如下:

3. 模型性能比较

可参考链接:GrailQA Dataset | Papers With Code 

各模型在数据集GrailQA上的表现
模型(年份)

F1

论文 代码链接
I.I.D.(2021) 67.3 Beyond I.I.D.: Three Levels of Generalization for Question Answering on Knowledge Bases GitHub - dki-lab/GrailQA
RNG-KBQA(2021) 74.4 RNG-KBQA: Generation Augmented Iterative Ranking for Knowledge Base Question Answering GitHub - salesforce/rng-kbqa

NMSER/

ReTrack(2021)

65.3 ReTraCk: A Flexible and Efficient Framework for Knowledge Base Question Answering KC/papers/ReTraCk at main · microsoft/KC · GitHub
ArcaneQA(2022) 73.7 ArcaneQA: Dynamic Program Induction and Contextualized Encoding for Knowledge Base Question Answering https://github.com/dki-lab/ArcaneQA

后续内容将持续更新,欢迎大家评论和补充~

Logo

一站式 AI 云服务平台

更多推荐