Nate True YOU? Author Swipe

Last 10y

FastVLM: Efficient Vision Encoding for Vision Language Models Open

Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chunliang Li, Cem Koc, Nate True , et al. · 2024

Scaling the input image resolution is essential for enhancing the performance of Vision Language Models (VLMs), particularly in text-rich image understanding tasks. However, popular visual encoders such as ViTs become inefficient at high r…