3

VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models

VLMs for high-fidelity raster-to-SVG with VFIG-Data, curriculum SFT+RL, and VFIG-Bench

Qijia He, Xunmei Liu, Hammaad Memon, Ziang Li, Zixian Ma, Jaemin Cho, Jason Ren, Daniel S Weld, Ranjay Krishna

V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising

A systematic study of visual co-denoising for representation-aligned pixel-space diffusion

Han Lin, Xichen Pan, Zun Wang, Yue Zhang, Chu Wang, Jaemin Cho, Mohit Bansal

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

Long-form video generation with world consistency, multi-subject shot transitions, and a 10K transition dataset

Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen, Subhojyoti Mukherjee, Yang Zhou, Gang Wu, Viet Dac Lai, Seunghyun Yoon, Ryan Rossi, Abdullah Rashwan, Puneet Mathur, Varun Manjunatha, Daksh Dangi, Chien Nguyen, Nedim Lipka, Trung Bui, Krishna Kumar Singh, Ruiyi Zhang, Xiaolei Huang, Jaemin Cho, Yu Wang, Namyong Park, Zhengzhong Tu, Hongjie Chen, Hoda Eldardiry, Nesreen Ahmed, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt

AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories

Camera-controllable video generation with retrieved local geometric memories instead of a single global 3D reconstruction

Zun Wang, Han Lin, Jaehong Yoon, Jaemin Cho, Yue Zhang, Mohit Bansal

A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality

a survey on long-video storytelling generation

Mohamed Elmoghany, Ryan Rossi, Seunghyun Yoon, Subhojyoti Mukherjee, Eslam Bakr, Puneet Mathur, Gang Wu, Viet Dac Lai, Nedim Lipka, Ruiyi Zhang, Varun Manjunatha, Chien Nguyen, Daksh Dangi, Abel Salinas, Mohammad Taesiri, Hongjie Chen, Xiaolei Huang, Joe Barrow, Nesreen Ahmed, Hoda Eldardiry, Namyong Park, Yu Wang, Jaemin Cho, Anh Totti Nguyen, Zhengzhong Tu, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt

Executable Functional Abstractions: Inferring Generative Programs for Advanced Math Problems

EFA is a new way to generate diverse math problems for LLMs, by inferring generative programs from seed problems

Zaid Khan, Elias Stengel-Eskin, Archiki Prasad, Jaemin Cho, Mohit Bansal

Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization

Video sketch as a new training-free guidance method for T2V diffusion models

Jialu Li*, Shoubin Yu*, Han Lin*, Jaemin Cho, Jaehong Yoon, Mohit Bansal

Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization