Papers

8,761 papers found

Linear-Complexity Self-Supervised Learning for Speech Processing

Shucong Zhang, Titouan Parcollet, Rogier van Dalen et al.

2024 INTERSPEECH

LingWav2Vec2: Linguistic-augmented wav2vec 2.0 for Vietnamese Mispronunciation Detection

Tuan Nguyen, Huy Dat Tran

2024 INTERSPEECH

LipGER: Visually-Conditioned Generative Error Correction for Robust Automatic Speech Recognition

Sreyan Ghosh, Sonal Kumar, Ashish Seth et al.

2024 INTERSPEECH

Listeners' F0 preferences in quiet and stationary noise

Olympia Simantiraki, Martin Cooke

2024 INTERSPEECH

LiteFocus: Accelerated Diffusion Inference for Long Audio Synthesis

Zhenxiong Tan, Xinyin Ma, Gongfan Fang et al.

2024 INTERSPEECH

LI-TTA: Language Informed Test-Time Adaptation for Automatic Speech Recognition

Eunseop Yoon, Hee Suk Yoon, John Harvill et al.

2024 INTERSPEECH

LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes

Trung Dang, David Aponte, Dung Tran et al.

2024 INTERSPEECH

LLM-Driven Multimodal Opinion Expression Identification

Bonian Jia, Huiyao Chen, Yueheng Sun et al.

2024 INTERSPEECH

Locally Aligned Rectified Flow Model for Speech Enhancement Towards Single-Step Diffusion

Zhengxiao Li, Nakamasa Inoue

2024 INTERSPEECH

LoRA-MER: Low-Rank Adaptation of Pre-Trained Speech Models for Multimodal Emotion Recognition Using Mutual Information

Yunrui Cai, Zhiyong Wu, Jia Jia et al.

2024 INTERSPEECH

LoRA-Whisper: Parameter-Efficient and Extensible Multilingual ASR

Zheshu Song, Jianheng Zhuo, Yifan Yang et al.

2024 INTERSPEECH

Low Bitrate High-Quality RVQGAN-based Discrete Speech Tokenizer

Slava Shechtman, Avihu Dekel

2024 INTERSPEECH

Low-Complexity Acoustic Scene Classification Using Parallel Attention-Convolution Network

Yanxiong Li, Jiaxin Tan, Guoqing Chen et al.

2024 INTERSPEECH

Low Complexity Echo Delay Estimator Based on Binarized Feature Matching

Yi Gao, Xiang Su

2024 INTERSPEECH

Low-dimensional Style Token Control for Hyperarticulated Speech Synthesis

Miku Nishihara, Dan Wells, Korin Richmond et al.

2024 INTERSPEECH

LungAdapter: Efficient Adapting Audio Spectrogram Transformer for Lung Sound Classification

Li Xiao, Lucheng Fang, Yuhong Yang et al.

2024 INTERSPEECH

LUPET: Incorporating Hierarchical Information Path into Multilingual ASR

Wei Liu, Jingyong Hou, Dong Yang et al.

2024 INTERSPEECH

M2ASR: Multilingual Multi-task Automatic Speech Recognition via Multi-objective Optimization

A F M Saif, Lisha Chen, Xiaodong Cui et al.

2024 INTERSPEECH

M2D-CLAP: Masked Modeling Duo Meets CLAP for Learning General-purpose Audio-Language Representation

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi et al.

2024 INTERSPEECH

Macro-descriptors for Alzheimer's disease detection using large language models

Catarina Botelho, John Mendonça, Anna Pompili et al.

2024 INTERSPEECH

Magnitude and timing of acceleration peaks in stressed and unstressed syllables

Malin Svensson Lundmark

2024 INTERSPEECH

MakeSinger: A Semi-Supervised Training Method for Data-Efficient Singing Voice Synthesis via Classifier-free Diffusion Guidance

Semin Kim, Myeonghun Jeong, Hyeonseung Lee et al.

2024 INTERSPEECH

MaLa-ASR: Multimedia-Assisted LLM-Based ASR

Guanrou Yang, Ziyang Ma, Fan Yu et al.

2024 INTERSPEECH

Mandarin T3 Production by Chinese and Japanese Native Speakers

Qi Wu

2024 INTERSPEECH

MaskSR: Masked Language Model for Full-band Speech Restoration

Xu Li, Qirui Wang, Xiaoyu Liu

2024 INTERSPEECH