conftrace_

Artificial Intelligence › Core AI ›

Foundation Models

4,845 papers

Papers per year

Papers

EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI CVPR 2024

ProTeCt: Prompt Tuning for Taxonomic Open Set Classification CVPR 2024

Mirasol3B: A Multimodal Autoregressive Model for Time-Aligned and Contextual Modalities CVPR 2024

Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning CVPR 2024

Making Visual Sense of Oracle Bones for You and Me CVPR 2024

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI CVPR 2024

TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model CVPR 2024

Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild CVPR 2024

Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models CVPR 2024

DRESS: Instructing Large Vision-Language Models to Align and Interact with Humans via Natural Language Feedback CVPR 2024

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks CVPR 2024

Low-Resource Vision Challenges for Foundation Models CVPR 2024

GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields CVPR 2024

SplattingAvatar: Realistic Real-Time Human Avatars with Mesh-Embedded Gaussian Splatting CVPR 2024

Towards a Simultaneous and Granular Identity-Expression Control in Personalized Face Generation CVPR 2024

VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation CVPR 2024

Active Prompt Learning in Vision Language Models CVPR 2024

GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation CVPR 2024

Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding CVPR 2024

How to Configure Good In-Context Sequence for Visual Question Answering CVPR 2024

X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model CVPR 2024

CADTalk: An Algorithm and Benchmark for Semantic Commenting of CAD Programs CVPR 2024

SonicVisionLM: Playing Sound with Vision Language Models CVPR 2024

HumanRef: Single Image to 3D Human Generation via Reference-Guided Diffusion CVPR 2024

Tune-An-Ellipse: CLIP Has Potential to Find What You Want CVPR 2024