Attending self-attention: A case study of visually grounded supervision in vision-and-language transformers

Aug 1, 2021·

Jules Samaran

Noa Garcia

Mayu Otani

Chenhui Chu

Yuta Nakashima

· 0 min read

Cite DOI

Type

Conference paper

Publication

Proc. Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: Student Research Workshop

Last updated on Aug 1, 2021

← PoseRN: A 2D pose refinement network for bias-free multi-view 3D human pose estimation Sep 1, 2021

A comparative study of language Transformers for video question answering Jul 1, 2021 →