Vision-Language Models

VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models

VLMs for high-fidelity raster-to-SVG with VFIG-Data, curriculum SFT+RL, and VFIG-Bench

Qijia He, Xunmei Liu, Hammaad Memon, Ziang Li, Zixian Ma, Jaemin Cho, Jason Ren, Daniel S Weld, Ranjay Krishna

RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation

a benchmark evaluating MLLMs’ ability to identify image rotation

Tianyi Niu, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal

RotBench: Evaluating Multimodal Large Language Models on Identifying Image Rotation

Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

a unified framework that bridges multimodal LLMs and diffusion models with patch-level CLIP latents

Han Lin, Jaemin Cho, Amir Zadeh, Chuan Li, Mohit Bansal

CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting

a VLM benchmark testing spatial reasoning by making the models count objects under occlusion

Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal