Publications

Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models
Mahtab Bigverdi, Linjie Li, Weikai Huang, Yiming Liu, Jaemin Cho, Jieyu Zhang, Tuhin Kundu, Chris Dongjoo Kim, Zelun Luo, Ranjay Krishna, Linda Shapiro
In ECCV, 2026

AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories
Zun Wang, Han Lin, Jaehong Yoon, Jaemin Cho, Yue Zhang, Mohit Bansal
In ECCV, 2026

V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising
Han Lin, Xichen Pan, Zun Wang, Yue Zhang, Chu Wang, Jaemin Cho, Mohit Bansal
In ECCV, 2026

Preprint Cite Code

Physics Question Scene Graph: Fine-grained Evaluation of Physical Plausibility in Text-to-Video Generation
Atin Pothiraj, Jaemin Cho, Yue Zhang, Elias Stengel-Eskin, Mohit Bansal
In ECCV, 2026

EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance
Zun Wang, Jaemin Cho, Jialu Li, Han Lin, Jaehong Yoon, Yue Zhang, Mohit Bansal
In ICML, 2026

Preprint Cite Project

SeeTraceAct: Visibility-Aware Latent Planning from Cross-Embodiment Demonstration Videos
Jaehyeon Son, Junhyun Kim, Kyle Kam, Jeremiah Coholich, Seok Joon Kim, Jinhoo Kim, Chris Dongjoo Kim, Jaemin Cho, Dieter Fox, Zsolt Kira
arXiv preprint, 2026

GPU Forecasters: Language Models as Selective Surrogates for Kernel Runtime Optimization
Zaid Khan, Justin Chih-Yao Chen, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal
arXiv preprint, 2026

PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation
Yidong Huang, Zun Wang, Han Lin, Dong-Ki Kim, Shayegan Omidshafiei, Jaehong Yoon, Jaemin Cho, Yue Zhang, Mohit Bansal
arXiv preprint, 2026

MolmoAct 2: An open foundation for robots that work in the real world
Haoquan Fang, Jiafei Duan, Donovan Clay, Sam Wang, Shuo Liu, Weikai Huang, Xiang Fan, Wei-Chuan Tsai, Shirui Chen, Yi Ru Wang, Shanli Xing, Jaemin Cho, Jae Sung Park, Ainaz Eftekhar, Peter Sushko, Karen Farley, Angad Wadhwa, Cole Harrison, Winson Han, Ying-Chun Lee, Eli VanderBilt, Rose Hendrix, Suveen Ellawela, Lucas Ngoo, Joyce Chai, Zhongzheng Ren, Ali Farhadi, Dieter Fox, Ranjay Krishna
arXiv preprint, 2026

Preprint Cite Code Dataset Project

WildDet3D: Scaling Promptable 3D Detection in the Wild
Weikai Huang, Jieyu Zhang, Sijun Li, Taoyang Jia, Jiafei Duan, Yunqian Cheng, Jaemin Cho, Matthew Wallingford, Rustin Soraki, Chris Dongjoo Kim, Shuo Liu, Donovan Clay, Taira Anderson, Winson Han, Ali Farhadi, Bharath Hariharan, Zhongzheng Ren, Ranjay Krishna
arXiv preprint, 2026

Preprint Cite Code Dataset Project

VideoRepair: Improving Text-to-Video Generation via Misalignment Detection and Localized Refinement
Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
In Findings of ACL, 2026

Preprint Cite Code Project

VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models
Qijia He, Xunmei Liu, Hammaad Memon, Ziang Li, Zixian Ma, Jaemin Cho, Jason Ren, Daniel S Weld, Ranjay Krishna
arXiv preprint, 2026

Preprint Cite Code Dataset Project

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions
Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen, Subhojyoti Mukherjee, Yang Zhou, Gang Wu, Viet Dac Lai, Seunghyun Yoon, Ryan Rossi, Abdullah Rashwan, Puneet Mathur, Varun Manjunatha, Daksh Dangi, Chien Nguyen, Nedim Lipka, Trung Bui, Krishna Kumar Singh, Ruiyi Zhang, Xiaolei Huang, Jaemin Cho, Yu Wang, Namyong Park, Zhengzhong Tu, Hongjie Chen, Hoda Eldardiry, Nesreen Ahmed, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt
arXiv preprint, 2026

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration
Zaid Khan, Archiki Prasad, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
In ICLR, 2026

Preprint Cite Project

RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation
Tianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal
In EACL, 2026

Preprint Cite Code

Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents
Han Lin, Jaemin Cho, Amir Zadeh, Chuan Li, Mohit Bansal
In NeurIPS, 2025

Preprint Cite Code Project

Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning
Daeun Lee*, Jaehong Yoon*, Jaemin Cho, Mohit Bansal
In Findings in EMNLP, 2025

Preprint Cite Code Project

A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality
Mohamed Elmoghany, Ryan Rossi, Seunghyun Yoon, Subhojyoti Mukherjee, Eslam Bakr, Puneet Mathur, Gang Wu, Viet Dac Lai, Nedim Lipka, Ruiyi Zhang, Varun Manjunatha, Chien Nguyen, Daksh Dangi, Abel Salinas, Mohammad Taesiri, Hongjie Chen, Xiaolei Huang, Joe Barrow, Nesreen Ahmed, Hoda Eldardiry, Namyong Park, Yu Wang, Jaemin Cho, Anh Totti Nguyen, Zhengzhong Tu, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt
arXiv preprint, 2025

CLaMR: Contextualized Late-Interaction for Multimodal Content Retrieval
David Wan, Han Wang, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
arXiv preprint, 2025

CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting
Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
In ICCV, 2025

Preprint Cite Code

Executable Functional Abstractions: Inferring Generative Programs for Advanced Math Problems
Zaid Khan, Elias Stengel-Eskin, Archiki Prasad, Jaemin Cho, Mohit Bansal
arXiv preprint, 2025

Preprint Cite Dataset Project

Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
Jialu Li*, Shoubin Yu*, Han Lin*, Jaemin Cho, Jaehong Yoon, Mohit Bansal
arXiv preprint, 2025

Preprint Cite Code Project

DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback
Zaid Khan, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
In ICLR (Spotlight), 2025

Preprint Cite Code Project

Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model
Han Lin*, Jaemin Cho*, Abhay Zala, Mohit Bansal
In ICLR (Oral), 2025

Preprint Cite Code Project

M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding
Jaemin Cho, Debanjan Mahata, Ozan İrsoy, Yujie He, Mohit Bansal
In ICCV Workshop, 2024

Preprint Cite Code Project

SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data
Jialu Li*, Jaemin Cho*, Yi-Lin Sung, Jaehong Yoon, Mohit Bansal
In NeurIPS, 2024

Preprint Cite Code Project

VideoDirectorGPT: Consistent Multi-Scene Video Generation via LLM-Guided Planning
Han Lin, Abhay Zala, Jaemin Cho, Mohit Bansal
In COLM, 2024

Preprint Cite Code Project

EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents
Abhay Zala*, Jaemin Cho*, Han Lin, Jaehong Yoon, Mohit Bansal
In COLM, 2024

Preprint Cite Code Project

DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning
Abhay Zala, Han Lin, Jaemin Cho, Mohit Bansal
In COLM, 2024

Preprint Cite Code Project

DOCCI: Descriptions of Connected and Contrasting Images
Yasumasa Onoe, Sunayana Rane, Zachary Berger, Yonatan Bitton, Jaemin Cho, Roopal Garg, Alexander Ku, Zarana Parekh, Jordi Pont-Tuset, Garrett Tanzer, Su Wang, Jason Baldridge
In ECCV, 2024

Preprint Cite Dataset Project

Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training
David Wan, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal
In ECCV, 2024

Preprint Cite Code Project

An Assessment of Reported Biases and Harms of Large Language Models
Heesoo Jang, Jaemin Cho
In ICA (Top Paper Award), 2024

Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation
Jaemin Cho, Linjie Li, Zhengyuan Yang, Zhe Gan, Lijuan Wang, Mohit Bansal
In CVPR Workshop (Oral), 2024

Preprint Cite Code Dataset Project

Rethinking Interactive Image Segmentation with Low Latency, High Quality, and Diverse Prompts
Qin Liu, Jaemin Cho, Mohit Bansal, Marc Niethammer
In CVPR, 2024

Preprint Cite Code Project

Davidsonian Scene Graph: Improving Reliability in Fine-Grained Evaluation for Text-to-Image Generation
Jaemin Cho, Yushi Hu, Roopal Garg, Peter Anderson, Ranjay Krishna, Jason Baldridge, Mohit Bansal, Jordi Pont-Tuset, Su Wang
In ICLR, 2024

Preprint Cite Code Project

Visual Programming for Text-to-Image Generation and Evaluation
Jaemin Cho, Abhay Zala, Mohit Bansal
In NeurIPS, 2023

Preprint Cite Code Project

Self-Chained Image-Language Model for Video Localization and Question Answering
Shoubin Yu, Jaemin Cho, Prateek Yadav, Mohit Bansal
In NeurIPS, 2023

Preprint Cite Code

Paxion: Patching Action Knowledge in Video-Language Foundation Models
Zhenhailong Wang, Ansel Blume, Sha Li, Genglin Liu, Jaemin Cho, Zineng Tang, Mohit Bansal, Heng Ji
In NeurIPS, 2023

Preprint Cite Code

DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generation Models
Jaemin Cho, Abhay Zala, Mohit Bansal
In ICCV, 2023

Preprint Cite Code

Hierarchical Video-Moment Retrieval and Step-Captioning
Abhay Zala*, Jaemin Cho*, Satwik Kottur, Xilun Chen, Barlas Oğuz, Yasahar Mehdad, Mohit Bansal
In CVPR, 2023

Preprint Cite Code Project

Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative Latent Attention
Zineng Tang*, Jaemin Cho*, Jie Lei, Mohit Bansal
In WACV, 2023

Preprint Cite Code

TVLT: Textless Vision-Language Transformer
Zineng Tang*, Jaemin Cho*, Yixin Nie*, Mohit Bansal
In NeurIPS (Oral), 2022

Preprint Cite Code

LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning
Yi-Lin Sung, Jaemin Cho, Mohit Bansal
In NeurIPS, 2022

Preprint Cite Code

Fine-grained Image Captioning with CLIP Reward
Jaemin Cho, Seunghyun Yoon, Ajinkya Kale, Franck Dernoncourt, Trung Bui, Mohit Bansal
In Findings of NAACL, 2022

Preprint Cite Code

VL-Adapter: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks
Yi-Lin Sung, Jaemin Cho, Mohit Bansal
In CVPR, 2022

Preprint Cite Code

MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding
Revanth Gangi Reddy, Xilin Rui, Manling Li, Xudong Lin, Haoyang Wen, Jaemin Cho, Lifu Huang, Mohit Bansal, Avi Sil, Shih-Fu Chang, Alexander Schiwing, Heng Ji
In AAAI, 2021

VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer
Zineng Tang, Jaemin Cho, Hao Tan, Mohit Bansal
In NeurIPS, 2021

Preprint Cite Code

Unifying Vision-and-Language Tasks via Text Generation
Jaemin Cho, Jie Lei, Hao Tan, Mohit Bansal
In ICML, 2021

Preprint Cite Code

X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers
Jaemin Cho, Jiasen Lu, Dustin Schwenk, Hannaneh Hajishirzi, Aniruddha Kembhavi
In EMNLP, 2020

Preprint Cite Code Project

Mixture Content Selection for Diverse Sequence Generation
Jaemin Cho, Minjoon Seo, Hannaneh Hajishirzi
In EMNLP, 2019

Preprint Cite Code

A Hierarchical Latent Structure for Variational Conversation Modeling
Yookoon Park, Jaemin Cho, Gunhee Kim
In NAACL (Oral), 2018

Preprint Cite Code Video