Textless Vision-Language Transformer

TVLT: Textless Vision-Language Transformer

Vision-and-Language modeling without text, by using a transformer which takes only raw visual and audio inputs - NeurIPS 2022 (Oral)

Zineng Tang*, Jaemin Cho*, Yixin Nie*, Mohit Bansal