Research Explorer

Retrieval Augmented Generation in Prompt-based Text-to-Speech Synthesis with Context-Aware Contrastive Language-Audio Pretraining

Jinlong Xue, Yayue Deng, Yingming Gao et al.

2024 INTERSPEECH

Revealing Confounding Biases: A Novel Benchmarking Approach for Aggregate-Level Performance Metrics in Health Assessments

Stefano Goria, Roseline Polle, Salvatore Fara et al.

2024 INTERSPEECH

Revisiting and Improving Scoring Fusion for Spoofing-aware Speaker Verification Using Compositional Data Analysis

Xin Wang, Tomi Kinnunen, Kong Aik Lee et al.

2024 INTERSPEECH

Revisiting Convolution-free Transformer for Speech Recognition

Zejiang Hou, Goeric Huybrechts, Anshu Bhatia et al.

2024 INTERSPEECH

Revisiting Pitch Jumps: F0 Ratio in Seoul Korean

Michaela Watkins, Paul Boersma, Silke Hamann

2024 INTERSPEECH

RevRIR: Joint Reverberant Speech and Room Impulse Response Embedding using Contrastive Learning with Application to Room Shape Classification

Jacob Bitterman, Daniel Levi, Hilel Hagai Diamandi et al.

2024 INTERSPEECH

Rich speech signal: exploring and exploiting end-to-end automatic speech recognizers’ ability to model hesitation phenomena

Vincenzo Norman Vitale, Loredana Schettino, Francesco Cutugno

2024 INTERSPEECH

RIR-in-a-Box: Estimating Room Acoustics from 3D Mesh Data through Shoebox Approximation

Liam Kelley, Diego Di Carlo, Aditya Arie Nugraha et al.

2024 INTERSPEECH

RIR-SF: Room Impulse Response Based Spatial Feature for Target Speech Recognition in Multi-Channel Multi-Speaker Scenarios

Yiwen Shao, Shi-Xiong Zhang, Dong Yu

2024 INTERSPEECH

ROAR: Reinforcing Original to Augmented Data Ratio Dynamics for Wav2vec2.0 Based ASR

Vishwanath Pratap Singh, Federico Malato, Ville Hautamäki et al.

2024 INTERSPEECH

Robust Laughter Segmentation with Automatic Diverse Data Synthesis

Taisei Omine, Kenta Akita, Reiji Tsuruno

2024 INTERSPEECH

Robust spread spectrum speech watermarking using linear prediction and deep spectral shaping

David Looney, Nikolay D. Gaubitch

2024 INTERSPEECH

RT-LA-VocE: Real-Time Low-SNR Audio-Visual Speech Enhancement

Honglie Chen, Rodrigo Mira, Stavros Petridis et al.

2024 INTERSPEECH

RW-VoiceShield: Raw Waveform-based Adversarial Attack on One-shot Voice Conversion

Ching-Yu Yang, Shreya G. Upadhyay, Ya-Tse Wu et al.

2024 INTERSPEECH

SALSA: Speedy ASR-LLM Synchronous Aggregation

Ashish Mittal, Darshan Prabhu, Sunita Sarawagi et al.

2024 INTERSPEECH

SAML: Speaker Adaptive Mixture of LoRA Experts for End-to-End ASR

Qiuming Zhao, Guangzhi Sun, Chao Zhang et al.

2024 INTERSPEECH

Sample-Efficient Diffusion for Text-To-Speech Synthesis

Justin Lovelace, Soham Ray, Kwangyoun Kim et al.

2024 INTERSPEECH

SAMSEMO: New dataset for multilingual and multimodal emotion recognition

Pawel Bujnowski, Bartlomiej Kuzma, Bartlomiej Paziewski et al.

2024 INTERSPEECH

SaSLaW: Dialogue Speech Corpus with Audio-visual Egocentric Information Toward Environment-adaptive Dialogue Speech Synthesis

Osamu Take, Shinnosuke Takamichi, Kentaro Seki et al.

2024 INTERSPEECH

SA-WavLM: Speaker-Aware Self-Supervised Pre-training for Mixture Speech

Jingru Lin, Meng Ge, Junyi Ao et al.

2024 INTERSPEECH

Scaling up masked audio encoder learning for general audio classification

Heinrich Dinkel, Zhiyong Yan, Yongqing Wang et al.

2024 INTERSPEECH

SCDNet: Self-supervised Learning Feature based Speaker Change Detection

Yue Li, Xinsheng Wang, Li Zhang et al.

2024 INTERSPEECH

Schrödinger Bridge for Generative Speech Enhancement

Ante Jukić, Roman Korostik, Jagadeesh Balam et al.

2024 INTERSPEECH

SC-MoE: Switch Conformer Mixture of Experts for Unified Streaming and Non-streaming Code-Switching ASR

Shuaishuai Ye, Shunfei Chen, Xinhui Hu et al.

2024 INTERSPEECH

SDAEC: Signal Decoupling for Advancing Acoustic Echo Cancellation

Fei Zhao, Jinjiang Liu, Xueliang Zhang

2024 INTERSPEECH

Papers