Computer Vision › Generation ›

Video Generation

1433 directly classified papers

Papers per year

Papers

NIFTY: Neural Object Interaction Fields for Guided Human Motion Synthesis CVPR 2024

MultiTalk: Enhancing 3D Talking Head Generation Across Languages with Multilingual Video Dataset INTERSPEECH 2024

Enhancing Motion in Text-to-Video Generation with Decomposed Encoding and Conditioning NIPS 2024

FIFO-Diffusion: Generating Infinite Videos from Text without Training NIPS 2024

Enhancing Speech-Driven 3D Facial Animation with Audio-Visual Guidance from Lip Reading Expert INTERSPEECH 2024

Scalable Motion Style Transfer with Constrained Diffusion Generation AAAI 2024

EVE: Efficient Zero-Shot Text-Based Video Editing With Depth Map Guidance and Temporal Consistency Constraints IJCAI 2024

LDMVFI: Video Frame Interpolation with Latent Diffusion Models AAAI 2024

Vript: A Video Is Worth Thousands of Words NIPS 2024

Speaking in Wavelet Domain: A Simple and Efficient Approach to Speed up Speech Diffusion Model EMNLP 2024

VIMI: Grounding Video Generation through Multi-modal Instruction EMNLP 2024

Word-Conditioned 3D American Sign Language Motion Generation EMNLP 2024

MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model CVPR 2024

HOIAnimator: Generating Text-prompt Human-object Animations using Novel Perceptive Diffusion Models CVPR 2024

Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer CVPR 2024

DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and View-Change Human-Centric Video Editing CVPR 2024

Diffutoon: High-Resolution Editable Toon Shading via Diffusion Models IJCAI 2024

Efficient Event Stream Super-Resolution with Recursive Multi-Branch Fusion IJCAI 2024

Multi-Channel Spatio-Temporal Transformer for Sign Language Production COLING 2024

Kandinsky 3: Text-to-Image Synthesis for Multifunctional Generative Framework EMNLP 2024

DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos NIPS 2024

Streaming Dense Video Captioning CVPR 2024

Implicit Motion Function CVPR 2024

Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners CVPR 2024

BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models CVPR 2024