Publication

Shanks: Simultaneous Hearing and Thinking for Spoken Language Models
Cheng-Han Chiang, Xiaofei Wang, Linjie Li, Chung-Ching Lin, Kevin Lin, Shujie LIU, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
ACL 2026
Full-Duplex-Bench-v2: A Multi-Turn Evaluation Framework for Duplex Dialogue Systems with an Automated Examiner
Guan-Ting Lin, Shih-Yun Shan Kuan, Jiatong Shi, Kai-Wei Chang, Siddhant Arora, Shinji Watanabe, Hung-yi Lee
ACL 2026
An Exploration of Mamba for Speech Self-Supervised Models
Tzu-Quan Lin, Heng-Cheng Kuo, Tzu-Chieh Wei, Hsi-Chun Cheng, Chun Wei Chen, Hsien-Fu Hsiao, Yu Tsao, Hung-yi Lee
ACL 2026
CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks
Hongchao Jiang, Yiming Chen, Yushi Cao, Hung-yi Lee, Robby T. Tan
ACL 2026
On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation
Chan-Jan Hsu, Liang-Hsuan Tseng, Yi-Cheng Lin, Yen-Chun Kuo, Ju-Chieh Chou, Kai-Wei Chang, Hung-yi Lee, Carlos Busso
ACL findings 2026
Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition
Yi-Cheng Lin, Yu-Hsuan Li Liang, Hsuan Su, Tzu-Quan Lin, Shang-Tse Chen, Yun-Nung Chen, Hung-yi Lee
ACL findings 2026
Style Amnesia: Investigating Speaking Style Degradation and Mitigation in Multi-Turn Spoken Language Models
Yu-Xiang Lin, Cheng-Han Chiang, Hung-yi Lee
ACL findings 2026
LLM-Codec: Neural Audio Codec Meets Language Model Objectives
Ho-Lam Chung, Yiming Chen, Hung-yi Lee
ACL findings 2026
ReMedi: Reasoner for Medical Clinical Prediction
Yushi Cao, Yiming Chen, Hongchao Jiang, Hung-yi Lee, Robby T. Tan
ACL findings 2026
BILLY: Steering Large Language Models via Merging Persona Vectors for Creative Generation
Tsung-Min Pai, Jui-I Wang, Li-Chun Lu, Shao-Hua Sun, Hung-yi Lee, Kai-Wei Chang
EACL 2026
STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models
Cheng-Han Chiang, Xiaofei Wang, Linjie Li, Chung-Ching Lin, Kevin Lin, Shujie Liu, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
ICLR 2026
TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling
Liang-Hsuan Tseng, Yi-Chang Chen, Kuan-Yi Lee, Da-Shan Shiu, Hung-yi Lee
ICLR 2026
ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction
Shu-wen Yang, Ming Tu, Andy T. Liu, Xinghua Qu, Hung-yi Lee, Lu Lu, Yuxuan Wang, Yonghui Wu
ICLR 2026
MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large Audio-Language Model
Hsiao-Ying Huang, Yi-Cheng Lin, Hung-yi Lee
ICASSP 2026
Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems
Yi-Cheng Lin, Huang-Cheng Chou, Tzu-Chieh Wei, Kuan-Yu Chen, Hung-yi Lee
ICASSP 2026
TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics
Yi-Cheng Lin, Yu-Hua Chen, Jia-Kai Dong, Yueh-Hsuan Huang, Szu-Chi Chen, Yu-Chen Chen, Chih-Yao Chen, Yu-Jung Lin, Yu-Ling Chen, Zih-Yu Chen, I-Ning Tsai, Hsiu-Hsuan Wang, Ho-Lam Chung, Ke-Han Lu, Hung-yi Lee
ICASSP 2026
AQUA-Bench: Beyond Finding Answers to Knowing When There Are None in Audio Question Answering
Chun-Yi Kuan, Hung-yi Lee
ICASSP 2026
When Silence Matters: The Impact of Irrelevant Audio on Text Reasoning in Large Audio-Language Models
Chen-An Li, Tzu-Han Lin, Hung-yi Lee
ICASSP 2026
Game-Time: Evaluating Temporal Dynamics in Spoken Language Models
Kai-Wei Chang, En-Pei Hu, Chun-Yi Kuan, Wenze Ren, Wei-Chih Chen, Guan-Ting Lin, Yu Tsao, Shao-Hua Sun, Hung-yi Lee, James Glass
ICASSP 2026
Full-Duplex-Bench V1.5: Evaluating Overlap Handling for Full-Duplex Speech Models
Guan-Ting Lin, Shih-Yun Shan Kuan, Qirui Wang, Jiachen Lian, Tingle Li, Shinji Watanabe, Hung-yi Lee
ICASSP 2026
Emotional Damage: Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations
Bo-Han Feng, Chien-Feng Liu, Yu-Hsuan Li Liang, Chih-Kai Yang, Szu-Wei Fu, Zhehuai Chen, Ke-Han Lu, Sung-Feng Huang, Chao-Han Huck Yang, Yu-Chiang Frank Wang, Yun-Nung Chen, Hung-yi Lee
ICASSP 2026
Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning
Chao-Chung Wu, Zhi Rui Tam, Chieh-Yen Lin, Yun-Nung Chen, Shao-Hua Sun, Hung-yi Lee
NeurIPS 2025
AudioLens: A Closer Look at Auditory Attribute Perception of Large Audio-Language Models
Chih-Kai Yang, Neo Ho, Yi-Jyun Lee, Hung-yi Lee
ASRU 2025
A Correlation-Permutation Approach for Speech-Music Encoders Model Merging
Fabian Ritter-Gutierrez, Yi-Cheng Lin, Jeremy H.M Wong, Hung-yi Lee, Eng Siong Chng, Nancy F. Chen
ASRU 2025
SUTA-LM: Bridging Test-Time Adaptation and Language Model Rescoring for Robust ASR
Wei-Ping Huang, Guan-Ting Lin, Hung-yi Lee
ASRU 2025
Is Smaller Always Faster? Tradeoffs in Compressing Self-Supervised Speech Transformers
Tzu-Quan Lin, Tsung-Huan Yang, Chun-Yao Chang, Kuang-Ming Chen, Tzu-hsun Feng, Hung-yi Lee, Hao Tang
ASRU 2025
Full-Duplex-Bench: A Benchmark to Evaluate Full-Duplex Spoken Dialogue Models on Turn-taking Capabilities
Guan-Ting Lin, Jiachen Lian, Tingle Li, Qirui Wang, Gopala Anumanchipalli, Alexander H. Liu, Hung-yi Lee
ASRU 2025
Towards Generalized Source Tracing for Codec-Based Deepfake Speech
I-Ming Lin, Xuanjun Chen, Lin Zhang, Haibin Wu, Hung-yi Lee, Jyh-Shing Roger Jang
ASRU 2025
Reducing Object Hallucination in Large Audio-Language Models via Audio-Aware Decoding
Tzu-wen Hsu, Ke-Han Lu, Cheng-Han Chiang, Hung-yi Lee
ASRU 2025
EMO-Debias: Benchmarking Gender De-biasing Techniques in Multi-Label Speech Emotion Recognition
Yi-Cheng Lin, Huang-Cheng Chou, Yu-Hsuan Li Liang, Hung-yi Lee
ASRU 2025
SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition
Ming-Hao Hsu, Hung-yi Lee
ASRU 2025
CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition
Yun-Shao Tsai, Yi-Cheng Lin, Huang-Cheng Chou, Hung-yi Lee
ASRU 2025
Multi-Distillation from Speech and Music Representation Models
Jui-Chiang Wei, Yi-Cheng Lin, Fabian Ritter-Gutierrez, Hung-yi Lee
ASRU 2025
A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data
Cheng Kang Chou, Chan-Jan Hsu, Ho-Lam Chung, Liang-Hsuan Tseng, Hsi-Chun Cheng, Yu-Kuan Fu, Kuan Po Huang, Hung-yi Lee
ASRU 2025
ASTAR-NTU Solution to AudioMOS Challenge 2025 Track1
Fabian Ritter-Gutierrez, Yi-Cheng Lin, Jui-Chiang Wei, Jeremy H.M Wong, Nancy F. Chen, Hung-yi Lee
ASRU 2025
MMMOS: Multi-domain Multi-axis Audio Quality Assessment
Yi-Cheng Lin, Jia-Hung Chen, Hung-yi Lee
ASRU 2025
Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey
Chih-Kai Yang, Neo S. Ho, Hung-yi Lee
EMNLP 2025
Creativity in LLM-based Multi-Agent Systems: A Survey
Yi-Cheng Lin, Kang-Chieh Chen, Zhe-Yan Li, Tzu-Heng Wu, Tzu-Hsuan Wu, Kuan-Yu Chen, Hung-yi Lee, Yun-Nung Chen
EMNLP 2025
Audio-Aware Large Language Models as Judges for Speaking Styles
Cheng-Han Chiang, Xiaofei Wang, Chung-Ching Lin, Kevin Lin, Linjie Li, Radu Kopetz, Yao Qian, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
EMNLP 2025 Findings
Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging
Hua Farn, Hsuan Su, Shachi H. Kumar, Saurav Sahay, Shang-Tse Chen, Hung-yi Lee
EMNLP 2025 Findings
Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models
Chi-Yuan Hsiao, Ke-Han Lu, Kai-Wei Chang, Chih-Kai Yang, Wei-Chih Chen, Hung-yi Lee
INTERSPEECH 2025
Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples
Chun-Yi Kuan, Hung-yi Lee
INTERSPEECH 2025
VoiceNoNG: Robust High-Quality Speech Editing Model without Hallucinations
Sung-Feng Huang, Heng-Cheng Kuo, Zhehuai Chen, Xuesong Yang, Pin-Jui Ku, Ante Juki?, Chao-Han Huck Yang, Yu Tsao, Yu-Chiang Frank Wang, Hung-yi Lee, Szu-Wei Fu
INTERSPEECH 2025
Speech-IFeval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models
Ke-Han Lu, Chun-Yi Kuan, Hung-yi Lee
INTERSPEECH 2025
Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach
Yi-Cheng Lin, Huang-Cheng Chou, Hung-yi Lee
INTERSPEECH 2025
The ML-SUPERB 2.0 Challenge: Towards Inclusive ASR Benchmarking for All Language Varieties
William Chen, Chutong Meng, Jiatong Shi, Martijn Bartelds, Shih-Heng Wang, Hsiu-Hsuan Wang, Rafael Mosquera, Sara Hincapie, Dan Jurafsky, Antonis Anastasopoulos, Hung-yi Lee, Karen Livescu, Shinji Watanabe
INTERSPEECH 2025
Codec-Based Deepfake Source Tracing via Neural Audio Codec Taxonomy
Xuanjun Chen, I-Ming Lin, Lin Zhang, Jiawei Du, Haibin Wu, Hung-yi Lee, Jyh-Shing Roger Jang
INTERSPEECH 2025
Distilling a Speech and Music Encoder with Task Arithmetic
Fabian Ritter-Gutierrez, Yi-Cheng Lin, Jui-Chiang Wei, Jeremy Wong, Eng Siong Chng, Nancy Cheng, Hung-yi Lee
INTERSPEECH 2025
ToxicTone: A Mandarin Audio Dataset Annotated for Toxicity and Toxic Utterance Tonality
Yu-Xiang Luo, Yi-Cheng Lin, Ming-To Chuang, Jia-Hung Chen, I-Ning Tsai, Pei Xing Kiew, Yueh-Hsuan Huang, Chien-Feng Liu, Yu-Chen Chen, Bo-Han Feng, Wenze Ren, Hung-yi Lee
INTERSPEECH 2025
Meta-PerSER: Few-Shot Listener Personalized Speech Emotion Recognition via Meta-learning
Shi-Xin Fang, Liang-Yeh Shen, Yi-Cheng Lin, Huang-Cheng Chou, Hung-yi Lee
INTERSPEECH 2025
SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information
Chih-Kai Yang, Neo Ho, Yen-Ting Piao, Hung-yi Lee
INTERSPEECH 2025
TRACT: Regression-Aware Fine-tuning Meets Chain-of-Thought Reasoning for LLM-as-a-Judge
Cheng-Han Chiang, Hung-yi Lee, Michal Lukasik
ACL 2025
Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback
Guan-Ting Lin, Prashanth Gurunath Shivakumar, Aditya Gourav, Yile Gu, Ankur Gandhe, Hung-yi Lee, Ivan Bulyko
ACL 2025
Transferring Textual Preferences to Vision-Language Understanding through Model Merging
Chen-An Li, Tzu-Han Lin, Yun-Nung Chen, Hung-yi Lee
ACL 2025
IMPACT: Iterative Mask-based Parallel Decoding for Text-to-Audio Generation with Diffusion Modeling
Kuan-Po Huang, Shu-wen Yang, Huy Phan, Bo-Ru Lu, Byeonggeun Kim, Sashank Macha, Qingming Tang, Shalini Ghosh, Hung-yi Lee, Chieh-Chi Kao, Chao Wang
ICML 2025
Generative Audio Language Modeling with Continuous-valued Tokens and Masked Next-Token Prediction
Shu-wen Yang, Byeonggeun Kim, Kuan-Po Huang, Qingming Tang, Huy Phan, Bo-Ru Lu, Harshavardhan Sundar, Shalini Ghosh, Hung-yi Lee, Chieh-Chi Kao, Chao Wang
ICML 2025
Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks
Chien-yu Huang, Wei-Chih Chen, Shu-wen Yang, Andy T. Liu, Chen-An Li, Yu-Xiang Lin, Wei-Cheng Tseng, Anuj Diwan, Yi-Jen Shih, Jiatong Shi, William Chen, Chih-Kai Yang, Wenze Ren, Xuanjun Chen, Chi-Yuan Hsiao, Puyuan Peng, Shih-Heng Wang, Chun-Yi Kuan, Ke-Han Lu, Kai-Wei Chang, Fabian Ritter-Gutierrez, Kuan-Po Huang, Siddhant Arora, You-Kuan Lin, Ming To Chuang, Eunjung Yeo, Kalvin Chang, Chung-Ming Chien, Kwanghee Choi, Jun-You Wang, Cheng-Hsiu Hsieh, Yi-Cheng Lin, Chee-En Yu, I-Hsiang Chiu, Heitor R. Guimaraes, Jionghao Han, Tzu-Quan Lin, Tzu-Yuan Lin, Homu Chang, Ting-Wu Chang, Chun Wei Chen, Shou-Jen Chen, Yu-Hua Chen, Hsi-Chun Cheng, Kunal Dhawan, Jia-Lin Fang, Shi-Xin Fang, Kuan-Yu Fang Chiang, Chi An Fu, Hsien-Fu Hsiao, Ching Yu Hsu, Shao-Syuan Huang, Lee Chen Wei, Hsi-Che Lin, Hsuan-Hao Lin, Hsuan-Ting Lin, Jian-Ren Lin, Ting-Chun Liu, Li-Chun Lu, Tsung-Min Pai, Ankita Pasad, Shih-Yun Shan Kuan, Suwon Shon, Yuxun Tang, Yun-Shao Tsai, Jui-Chiang Wei, Tzu-Chieh Wei, Chengxi Wu, Dien-Ruei Wu, Chao-Han Huck Yang, Chieh-Chi Yang, Jia Qi Yip, Shao-Xiang Yuan, Vahid Noroozi, Zhehuai Chen, Haibin Wu, Karen Livescu, David Harwath, Shinji Watanabe, Hung-yi Lee
ICLR 2025
Hierarchical Speculative Decoding with Dynamic Window
Shensian Syu, Hung-yi Lee
NAACL 2025 Findings
Gender Bias in Instruction-Guided Speech Synthesis Models
Chun-Yi Kuan, Hung-yi Lee
NAACL 2025 Findings
SpeechCaps: Advancing Instruction-Based Universal Speech Models with Multi-Talker Speaking Style Captioning
Chien-yu Huang, Min-Han Shih, Ke-Han Lu, Chi-Yuan Hsiao, Hung-yi Lee
ICASSP 2025
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling
Shao Syuan Huang, Kuan-Po Huang, Andy T. Liu, Hung-yi Lee
ICASSP 2025
Spectral-Aware Low-Rank Adaptation for Speaker Verification
Zhe Li, Manwai Mak, Mert Pilanci, Hung-yi Lee, Helen Meng
ICASSP 2025
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data
Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu, Chao-Han Huck Yang, Jagadeesh Balam, Boris Ginsburg, Yu-Chiang Frank Wang, Hung-yi Lee
ICASSP 2025
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning
Chun-Yi Kuan, Hung-yi Lee
ICASSP 2025
Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection
Hsi-Che Lin, Yi-Cheng Lin, Huang-Cheng Chou, Hung-yi Lee
ICASSP 2025
REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR
Liang-Hsuan Tseng, En-Pei Hu, Cheng-Han Chiang, Yuan Tseng, Hung-yi Lee, Lin-shan Lee, Shao-Hua Sun
NeurIPS 2024
Meta-DiffuB: A Contextualized Sequence-to-Sequence Text Diffusion Model with Meta-Exploration
Yunyen Chuang, Hung-Min Hsu, Kevin Lin, Chen-Sheng Gu, Ling Zhen Li, Ray-I Chang, Hung-yi Lee
NeurIPS 2024
StreamBench: Towards Benchmarking Continuous Improvement of Language Agents
Cheng-Kuang Wu, Zhi Rui Tam, Chieh-Yen Lin, Yun-Nung Chen, Hung-yi Lee
NeurIPS 2024
Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course
Cheng-Han Chiang, Wei-Chih Chen, Chun-Yi Kuan, Chienchou Yang, Hung-yi Lee
EMNLP 2024
Task Arithmetic can Mitigate Synthetic-to-Real Gap in Automatic Speech Recognition
Hsuan Su, Hua Farn, Fan-Yun Sun, Shang-Tse Chen, Hung-yi Lee
EMNLP 2024
Continual Test-time Adaptation for End-to-end Speech Recognition on Noisy Speech
Guan-Ting Lin, Wei Ping Huang, Hung-yi Lee
EMNLP 2024
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging
Tzu-Han Lin, Chen-An Li, Hung-yi Lee, Yun-Nung Chen
EMNLP 2024
I Need Help! Evaluating LLM's Ability to Ask for Users' Support: A Case Study on Text-to-SQL Generation
Cheng-Kuang Wu, Zhi Rui Tam, Chao-Chung Wu, Chieh-Yen Lin, Hung-yi Lee, Yun-Nung Chen
EMNLP 2024
Let Me Speak Freely? A Study On The Impact Of Format Restrictions On Large Language Model Performance
Zhi Rui Tam, Cheng-Kuang Wu, Yi-Lin Tsai, Chieh-Yen Lin, Hung-yi Lee, Yun-Nung Chen
EMNLP 2024
Can LLMs Understand the Implication of Emphasized Sentences in Dialogue?
Guan-Ting Lin, Hung-yi Lee
EMNLP findings 2024
Unveiling Narrative Reasoning Limits of Large Language Models with Trope in Movie Synopses
Hung-Ting Su, Ya-Ching Hsu, Xudong Lin, Xiang-Qian Shi, Yulei Niu, Han-Yuan Hsu, Hung-yi Lee, Winston H. Hsu
EMNLP findings 2024
Speech-Copilot: Leveraging Large Language Models for Speech Processing via Task Decomposition, Modularization, and Program Generation
Chun-Yi Kuan, Chih-Kai Yang, Wei-Ping Huang, Ke-Han Lu, Hung-yi Lee
SLT 2024
Efficient Training of Self-Supervised Speech Foundation Models on a Compute Budget
Andy T. Liu, Yi-Cheng Lin, Haibin Wu, Stefan Winkler, Hung-yi Lee
SLT 2024
Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper
Chih-Kai Yang, Kuan-Po Huang, Hung-yi Lee
SLT 2024
Codec-SUPERB @ SLT 2024: A lightweight benchmark for neural codec models
Haibin Wu, Xuanjun Chen, Yi-Cheng Lin, Jiawei Du, Kai-Wei Chang, Ke-Han Lu, Alexander Liu, Ho Lam Chung, Yuan-Kuei Wu, Dongchao Yang, Songxiang Liu, Yi-Chiao Wu, Xu Tan, James Glass, Shinji Watanabe, Hung-yi Lee
SLT 2024
Leave No Knowledge Behind during Knowledge Distillation: Towards Practical and Effective Knowledge Distillation for Code-Switching ASR Using Realistic Data
Liang-Hsuan Tseng, Zih-Ching Chen, Weishun Chang, Cheng-Kuang Lee, Tsung-Ren Huang, Hung-yi Lee
SLT 2024
Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits
Sung-Feng Huang, Heng-Cheng Kuo, Zhehuai Chen, Xuesong Yang, Chao-Han Huck Yang, Yu Tsao, Yu-Chiang Frank Wang, Hung-yi Lee, Szu-Wei Fu
SLT 2024
Property Neurons in Self-Supervised Speech Transformers
Tzu-Quan Lin, Guan-Ting Lin, Hung-yi Lee, Hao Tang
SLT 2024
Embracing Ambiguity And Subjectivity Using The All-inclusive Aggregation Rule For Evaluating Multi-label Speech Emotion Recognition Systems
Huang-Cheng Chou, Haibin Wu, Lucas Goncalves, Seong-Gyun Leem, Ali Salman, Carlos Busso, Hung-yi Lee, Chi-Chun Lee
SLT 2024
Stimulus Modality Matters: Impact of Perceptual Evaluations Elicited by Different Modalities on Performances of Speech Emotion Recognition Systems
Huang-Cheng Chou, Haibin Wu, Hung-yi Lee, Chi-Chun Lee
SLT 2024
Open-Emotion: A Reproducible Emo-Superb for Speech Emotion Recognition Systems
Haibin Wu, Huang-Cheng Chou, Kai-Wei Chang, Lucas Goncalves, Jiawei Du, Jyh-Shing Roger Jang, Chi-Chun Lee, Hung-yi Lee
SLT 2024
A Preliminary Study: Large Language Model-Based Data Automation for Multi-Label Speech Emotion Recognition with Human Subjective Typed Descriptions
Haibin Wu, Huang-Cheng Chou, Kai-Wei Chang, Lucas Goncalves, Jiawei Du, Jyh-Shing Roger Jang, Chi-Chun Lee, Hung-yi Lee
SLT 2024
Fusion of Discrete Representations and Self-Augmented Representations for Multilingual Automatic Speech Recognition
Shih-Heng Wang, Jiatong Shi, Chien-yu Huang, Shinji Watanabe, Hung-yi Lee
SLT 2024
EMO-Codec: A Depth Look at Emotion Preservation Capability of Legacy and Neural Codec Models With Subjective and Objective Evaluations
Wenze Ren, Yi-Cheng Lin, Haibin Wu, Huang-Cheng Chou, Chi-Chun Lee, Yu Tsao, Hung-yi Lee
SLT 2024
Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models
Yi-Cheng Lin, Tzu-Quan Lin, Chih-Kai Yang, Ke-Han Lu, Wei-Chih Chen, Chun-Yi Kuan, Hung-yi Lee
SLT 2024
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models
Yi-Cheng Lin, Wei-Chih Chen, Hung-yi Lee
SLT 2024
DFADD: The Diffusion and Flow-Matching Based Audio Deepfake Dataset
Jiawei Du, I-Ming Lin, I-Hsiang Chiu, Xuanjun Chen, Haibin Wu, Wenze Ren, Yu Tsao, Hung-yi Lee, Roger Jang
SLT 2024
Ensemble Knowledge Distillation from Speech SSL Models Considering Inter-teacher Differences
Pei Jun Liao, Hung-yi Lee, Hsin-Min Wang
ISCSLP 2024
LLM Discussion: Enhancing the Creativity of Large Language Models via Discussion Framework and Role-Play
Li-Chun Lu, Shou-Jen Chen, Tsung-Min Pai, Chan-Hung Yu, Hung-yi Lee, Shao-Hua Sun
COLM, 2024
DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment
Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu, He Huang, Boris Ginsburg, Yu-Chiang Frank Wang, Hung-yi Lee
INTERSPEECH 2024
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints
Jiatong Shi, Shih-Heng Wang, William Chen, Martijn Bartelds, Vanya Bannihatti Kumar, Jinchuan Tian, Xuankai Chang, Dan Jurafsky, Karen Livescu, Hung-yi Lee, Shinji Watanabe
INTERSPEECH 2024
CodecFake: Enhancing Anti-Spoofing Models Against Deepfake Audios from Codec-Based Speech Synthesis Systems
Haibin Wu, Yuan Tseng, Hung-yi Lee
INTERSPEECH 2024
Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks
Ming-Hao Hsu, Kai-Wei Chang, Shang-Wen Li, Hung-yi Lee
INTERSPEECH 2024
GSQA: An End-to-End Model for Generative Spoken Question Answering
Min-Han Shih, Ho-Lam Chung, Yu-Chi Pai, Ming-Hao Hsu, Guan-Ting Lin, Shang-Wen Li, Hung-yi Lee
INTERSPEECH 2024
Dataset-Distillation Generative Model for Speech Emotion Recognition
Fabian Ritter-Gutierrez, Kuan-Po Huang, Jeremy H.M Wong, Dianwen Ng, Hung-yi Lee, Nancy F. Chen, Eng Siong Chng
INTERSPEECH 2024
Neural Codec-based Adversarial Sample Detection for Speaker Verification
Xuanjun Chen, Jiawei Du, Haibin Wu, Jyh-Shing Roger Jang, Hung-yi Lee
INTERSPEECH 2024
Singing Voice Graph Modeling for SingFake Detection
Xuanjun Chen, Haibin Wu, Jyh-Shing Roger Jang, Hung-yi Lee
INTERSPEECH 2024
Emo-bias: A Large Scale Evaluation of Social Bias on Speech Emotion Recognition
Yi-Cheng Lin, Haibin Wu, Huang-Cheng Chou, Chi-Chun Lee, Hung-yi Lee
INTERSPEECH 2024
Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models
Chun-Yi Kuan, Wei-Ping Huang, Hung-yi Lee
INTERSPEECH 2024
DAISY: Data Adaptive Self-Supervised Early Exit for Speech Representation Models
Tzu-Quan Lin, Hung-yi Lee, Hao Tang
INTERSPEECH 2024
On the Social Bias of Speech Self-Supervised Models
Yi-Cheng Lin, Tzu-Quan Lin, Hsi-Che Lin, Andy T. Liu, Hung-yi Lee
INTERSPEECH 2024
Parameter-Efficient Fine-Tuning of Speaker-Aware Dynamic Prompts for Speaker Verification
Zhe Li, Man-wai Mak, Hung-yi Lee, Helen Meng
INTERSPEECH 2024
Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages
Shih-Cheng Huang, Pin-Zu Li, Yu-Chi Hsu, Kuang-Ming Chen, Yu Tung Lin, Shih-Kai Hsiao, Richard Tzong-Han Tsai, Hung-yi Lee
ACL 2024
Advancing Large Language Models to Capture Varied Speaking Styles and Respond Properly in Spoken Conversations
Guan-Ting Lin, Cheng-Han Chiang, Hung-yi Lee
ACL 2024
Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature of Aggregated Factual Claims in Long-Form Generations
Cheng-Han Chiang, Hung-yi Lee
ACL findings 2024
Codec-SUPERB: An In-Depth Analysis of Sound Codec Models
Haibin Wu, Ho-Lam Chung, Yi-Cheng Lin, Yuan-Kuei Wu, Xuanjun Chen, Yu-Chi Pai, Hsiu-Hsuan Wang, Kai-Wei Chang, Alexander H. Liu, Hung-yi Lee
ACL findings 2024
On the Evaluation of Speech Foundation Models for Spoken Language Understanding
Siddhant Arora, Ankita Pasad, Chung-Ming Chien, Jionghao Han, Roshan Sharma, Jee-weon Jung, Hira Dhamyal, William Chen, Suwon Shon, Hung-yi Lee, Karen Livescu, Shinji Watanabe
ACL findings 2024
Dynamic-SUPERB: Towards a Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech
Chien-yu Huang, Ke-Han Lu, Shih-Heng Wang, Chun-Yi Kuan, Chi-Yuan Hsiao, Haibin Wu, Siddhant Arora, Kai-Wei Chang, Jiatong Shi, Yifan Peng, Roshan Sharma, Shinji Watanabe, Bhiksha Ramakrishnan, Shady Shehata, Hung-yi Lee
ICASSP 2024
Zero Resource Code-Switched Speech Benchmark Using Speech Utterance Pairs for Multiple Spoken Languages
Kuan-Po Huang, Chih-Kai Yang, Yu-Kuan Fu, Ewan Dunbar, Hung-yi Lee
ICASSP 2024
Towards ASR Robust Spoken Language Understanding Through In-Context Learning With Word Confusion Networks
Kevin Everson, Yile Gu, Huck Yang, Prashanth Gurunath Shivakumar, Guan-Ting Lin, Jari Kolehmainen, Ivan Bulyko, Ankur Gandhe, Shalini Ghosh, Wael Hamza, Hung-yi Lee, Ariya Rastrow, Andreas Stolcke
ICASSP 2024
Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue
Guan-Ting Lin, Prashanth Gurunath Shivakumar, Ankur Gandhe, Chao-Han Huck Yang, Yile Gu, Shalini Ghosh, Andreas Stolcke, Hung-yi Lee, Ivan Bulyko
ICASSP 2024
Scalable Ensemble-Based Detection Method Against Adversarial Attacks for Speaker Verification
Haibin Wu, Heng-Cheng Kuo, Yu Tsao, Hung-yi Lee
ICASSP 2024
AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models
Yuan Tseng, Layne Berry, Yi-Ting Chen, I-Hsiang Chiu, Hsuan-Hao Lin, Max Liu, Puyuan Peng, Yi-Jen Shih, Hung-Yu Wang, Haibin Wu, Po-Yao Huang, Chun-Mao Lai, Shang-Wen Li, David Harwath, Yu Tsao, Shinji Watanabe, Abdelrahman Mohamed, Chi Luen Feng, Hung-yi Lee
ICASSP 2024
Multimodal Transformer Distillation for Audio-Visual Synchronization
Xuanjun Chen, Haibin Wu, Chung-Che Wang, Hung-yi Lee, Jyh-Shing Roger Jang
ICASSP 2024
SpeechDPR: End-To-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering
Chyi-Jiunn Lin, Guan-Ting Lin, Yung-Sung Chuang, Wei-Lun Wu, Shang-Wen Li, Abdelrahman Mohamed, Hung-yi Lee, Lin-shan Lee
ICASSP 2024
Over-Reasoning and Redundant Calculation of Large Language Models
Cheng-Han Chiang, Hung-yi Lee
EACL 2024
A Closer Look into Using Large Language Models for Automatic Evaluation
Cheng-Han Chiang, Hung-yi Lee
EMNLP 2023 Findings
Minisuperb: Lightweight Benchmark for Self-Supervised Speech Models
Yu-Hsiang Wang, Huang-Yu Chen, Kai-Wei Chang, Winston Hsu, Hung-yi Lee
ASRU 2023
Zero-shot singing voice synthesis from musical score
Jun-You Wang, Hung-yi Lee, Roger Jang, Li Su
ASRU 2023
Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and Beyond
Jiatong Shi, William Chen, Dan Berrebbi, Hsiu-Hsuan Wang, Wei-Ping Huang, En-Pei Hu, Ho-Lam Chuang, Xuankai Chang, Yuxun Tang, Shang-Wen Li, Abdelrahman Mohamed, Hung-yi Lee, Shinji Watanabe
ASRU 2023
MelHuBERT: A simplified HuBERT on Mel spectrograms
Tzu-Quan Lin, Hung-yi Lee, Hao Tang
ASRU 2023
Towards General-Purpose Text-Instruction-Guided Voice Conversion
Chun-Yi Kuan, Chen An Li, Tsu-Yuan Hsu, Tse-Yang Lin, Ho-Lam Chung, Kai-Wei Chang, Shuo-Yiin Chang, Hung-Yi Lee
ASRU 2023
Prompting and Adapter Tuning for Self-supervised Encoder-Decoder Speech Model
Kai-Wei Chang, Ming-Hsin Chen, Yun-Ping Lin, Jing Neng Hsu, Paul Kuo-Ming Huang, Chien-yu Huang, Shang-Wen Li, Hung-yi Lee
ASRU 2023
Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by Self-Supervised Representation Mixing and Embedding Initialization
Wei-Ping Huang, Sung-Feng Huang, Hung-yi Lee
ASRU 2023
Why We Should Report the Details in Subjective Evaluation of TTS More Rigorously
Cheng-Han Chiang, Wei-Ping Huang, Hung-yi Lee
INTERSPEECH 2023
Improving Textless Spoken Language Understanding with Discrete Units as Intermediate Target
Guan-Wei Wu, Guan-Ting Lin, Shang-Wen Li, Hung-yi Lee
INTERSPEECH 2023
ML-SUPERB: Multilingual Speech Universal PERformance Benchmark
Jiatong Shi, Dan Berrebbi, William Chen, Ho-Lam Chung, En-Pei Hu, Wei Ping Huang, Xuankai Chang, Shang-Wen Li, Abdelrahman Mohamed, Hung-yi Lee, Shinji Watanabe
INTERSPEECH 2023
How to Estimate Model Transferability of Pre-Trained Speech Models?
Zih-Ching Chen, Chao-Han Huck Yang, Bo Li, Yu Zhang, Nanxin Chen, Shou-Yiin Chang, Rohit Prabhavalkar, Hung-yi Lee, Tara N. Sainath
INTERSPEECH 2023
Can Large Language Models Be an Alternative to Human Evaluations?
Cheng-Han, Chiang, Hung-yi Lee
ACL 2023
Introducing Semantics into Speech Encoders
Derek Xu, Shuyan Dong, Changhan Wang, Suyoun Kim, Zhaojiang Lin, Bing Liu, Akshat Shrivastava, Shang-Wen Li, Liang-Hsuan Tseng, Guan-Ting Lin, Alexei Baevski, Hung-yi Lee, Yizhou Sun, Wei Wang
ACL 2023
SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding Tasks
Suwon Shon, Siddhant Arora, Chyi-Jiunn Lin, Ankita Pasad, Felix Wu, Roshan S Sharma, Wei-Lun Wu, Hung-yi Lee, Karen Livescu, Shinji Watanabe
ACL 2023
Are Synonym Substitution Attacks Really Synonym Substitution Attacks?
Cheng-Han Chiang, Hung-yi Lee
ACL 2023 Findings
Hierarchical Programmatic Reinforcement Learning via Learning to Compose Programs
Guan-Ting Liu, En-Pei Hu, Pu-Jen Cheng, Hung-yi Lee, Shao-Hua Sun
ICML 2023
Cascading and Direct Approaches to Unsupervised Constituency Parsing on Spoken Sentences
Yuan Tseng, Cheng-I Lai, Hung-yi Lee
ICASSP, 2023
Bridging Speech and Text Pre-trained Models with Unsupervised ASR
Jiatong Shi, Chan-Jan Hsu, Ho Lam Chung, Dongji Gao, Paola Garcia, Shinji Watanabe, Ann Lee, Hung-yi Lee
ICASSP, 2023
T5lephone: Bridging Speech and Text Self-supervised Models for Spoken Language Understanding via Phoneme level T5
Chan-Jan Hsu, Ho Lam Chung, Hung-yi Lee, Yu Tsao
ICASSP, 2023
Once-for-All Sequence Compression for Self-Supervised Speech Models
Hsuan-Jui Chen, Yen Meng, Hung-yi Lee
ICASSP, 2023
M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for Multilingual Speech to Image Retrieval
Layne Berry, Yi-Jen Shih, Hsuan-Fu Wang, Heng-Jui Chang, Hung-yi Lee, David Harwath
ICASSP, 2023
EURO: ESPnet Unsupervised ASR Open-source Toolkit
Dongji Gao, Jiatong Shi, Shun-Po Chuang, Paola Garcia, Hung-yi Lee, Shinji Watanabe, Sanjeev Khudanpur
ICASSP, 2023
Personalized Lightweight Text-to-Speech: Voice Cloning with Adaptive Structured Pruning
Sung-Feng Huang, Chia-ping Chen, Zhi-Sheng Chen, Yu-Pao Tsai, Hung-yi Lee
ICASSP, 2023
Ensemble knowledge distillation of self-supervised speech models
Kuan-Po Huang, Tzu-hsun Feng, Yu-Kuan Fu, Tsu-Yuan Hsu, Po-Chieh Yen, Wei-Cheng Tseng, Kai-Wei Chang, Hung-yi Lee
ICASSP, 2023
On the Utility of Self-supervised Models for Prosody-related Tasks
Guan-Ting Lin, Chi-Luen Feng, Wei-Ping Huang, Yuan Tseng, Tzu-Han Lin, Chen-An Li, Hung-yi Lee, Nigel G. Ward
SLT, 2022
SUPERB @ SLT 2022: Challenge on Generalization and Efficiency of Self-Supervised Speech Representation Learning
Tzu-hsun Feng, Annie Dong, Ching-Feng Yeh, Shu-wen Yang, Tzu-Quan Lin, Jiatong Shi, Kai-Wei Chang, Zili Huang, Haibin Wu, Xuankai Chang, Shinji Watanabe, Abdelrahman Mohamed, Shang-Wen Li, Hung-yi Lee
SLT, 2022
On Compressing Sequences for Self-Supervised Speech Models
Yen Meng, Hsuan-Jui Chen, Jiatong Shi, Shinji Watanabe, Paola Garcia, Hung-yi Lee, Hao Tang
SLT, 2022
On the Efficiency of Integrating Self-supervised Learning and Meta-learning for User-defined Few-shot Keyword Spotting
Wei-Tsung Kao, Yuan-Kuei Wu, Chia-Ping Chen, Zhi-Sheng Chen, Yu-Pao Tsai, Hung-Yi Lee
SLT, 2022
SpeechCLIP: Integrating Speech with Pre-trained Vision and Language Model
Yi-Jen Shih, Hsuan-Fu Wang, Heng-Jui Chang, Layne Berry, Hung-yi Lee, David Harwath
SLT, 2022
Exploring Efficient-tuning Methods in Self-supervised Speech Models
Zih-Ching Chen, Chin-Lun Fu, Chih-Ying Liu, Shang-Wen Li, Hung-yi Lee
SLT, 2022
Improving generalizability of distilled self-supervised speech processing models under distorted settings
Kuan-Po Huang, Yu-Kuan Fu, Tsu-Yuan Hsu, Fabian Ritter Gutierrez, Fan-Lin Wang, Liang-Hsuan Tseng, Yu Zhang, Hung-yi Lee
SLT, 2022
Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual Active Speaker Detection
Xuanjun Chen, Haibin Wu, Helen Meng, Hung-yi Lee, Jyh-Shing Roger Jang
SLT, 2022
An Exploration of Prompt Tuning on Generative Spoken Language Model for Speech Processing Tasks
Kai-Wei Chang, Wei-Cheng Tseng, Shang-Wen Li, Hung-yi Lee
INTERSPEECH, 2022
Improving Distortion Robustness of Self-supervised Speech Processing Tasks with Domain Adaptation
Kuan Po Huang, Yu-Kuan Fu, Yu Zhang, Hung-yi Lee
INTERSPEECH, 2022
Membership Inference Attacks Against Self-supervised Speech Models
Wei-Cheng Tseng, Wei-Tsung Kao, Hung-yi Lee
INTERSPEECH, 2022
DUAL: Discrete Spoken Unit Adaptive Learning for Textless Spoken Question Answering
Guan-Ting Lin, Yung-Sung Chuang, Ho-Lam Chung, Shu-wen Yang, Hsuan-Jui Chen, Shuyan Dong, Shang-Wen Li, Abdelrahman Mohamed, Hung-yi Lee, Lin-shan Lee
INTERSPEECH, 2022
Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition
Guan-Ting Lin, Shang-Wen Li, Hung-yi Lee
INTERSPEECH, 2022
Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding
Wei-Ping Huang, Po-Chun Chen, Sung-Feng Huang, Hung-yi Lee
INTERSPEECH, 2022
Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech Translation
Chih-Chiang Chang, Hung-yi Lee
INTERSPEECH, 2022
DDOS: A MOS Prediction Framework utilizing Domain Adaptive Pre-training and Distribution of Opinion Scores
Wei-Cheng Tseng, Wei-Tsung Kao, Hung-yi Lee
INTERSPEECH, 2022
Spoofing-Aware Speaker Verification by Multi-Level Fusion
Haibin Wu, Lingwei Meng, Jiawen Kang, Jinchao Li, Xu Li, Xixin Wu, Hung-yi Lee, Helen Meng
INTERSPEECH, 2022
MFA-Conformer: Multi-scale Feature Aggregation Conformer for Automatic Speaker Verification
Yang Zhang, Zhiqiang Lv, Haibin Wu, Shanshan Zhang, Pengfei Hu, Zhiyong Wu, Hung-yi Lee, Helen Meng
INTERSPEECH, 2022
Meta Learning for Natural Language Processing: A Survey
Hung-yi Lee, Shang-Wen Li, Ngoc Thang Vu
NAACL, 2022
AdapterBias: Parameter-efficient Token-dependent Representation Shift for Adapters in NLP Tasks
Chin-Lun Fu, Zih-Ching Chen, Yun-Ru Lee, Hung-yi Lee
NAACL findings, 2022
SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark for Semantic and Generative Capabilities
Hsiang-Sheng Tsai, Heng-Jui Chang, Wen-Chin Huang, Zili Huang, Kushal Lakhotia, Shu-wen Yang, Shuyan Dong, Andy T. Liu, Cheng-I Jeff Lai, Jiatong Shi, Xuankai Chang, Phil Hall, Hsuan-Jui Chen, Shang-Wen Li, Shinji Watanabe, Abdelrahman Mohamed, Hung-yi Lee
ACL, 2022
XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems to Improve Language Understanding
Chan-Jan Hsu, Hung-yi Lee, Yu Tsao
ACL, 2022
DistilHuBERT: Speech Representation Learning by Layer-wise Distillation of Hidden-unit BERT
Heng-Jui Chang, Shu-wen Yang, Hung-yi Lee
ICASSP, 2022
Don't speak too fast: The impact of data bias on self-supervised speech models
Yen Meng, Yi-Hui Chou, Andy T. Liu, Hung-yi Lee
ICASSP, 2022
S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations
Wen-Chin Huang, Shu-wen Yang, Tomoki Hayashi, Hung-yi Lee, Shinji Watanabe, Tomoki Toda
ICASP, 2022
Analyzing the Robustness of Unsupervised Speech Recognition
Guan-Ting Lin, Chan-Jan Hsu, Da-Rong Liu, Hung-Yi Lee, Yu Tsao
ICASSP, 2022
Toward Degradation-Robust Voice Conversion
Chien-yu Huang, Kai-Wei Chang, Hung-yi Lee
ICASSP, 2022
Characterizing the adversarial vulnerability of speech self-supervised learning
Haibin Wu, Bo Zheng, Xu Li, Xixin Wu, Hung-yi Lee, Helen Meng
ICASSP, 2022
Adversarial sample detection for speaker verification by neural vocoders
Haibin Wu, Po-chun Hsu, Ji Gao, Shanshan Zhang, Shen Huang, Jian Kang, Zhiyong Wu, Helen Meng, Hung-yi Lee
ICASSP, 2022
Partially Fake Audio Detection by Self-attention-based Fake Span discovery
Haibin Wu, Heng-Cheng Kuo, Naijun Zheng, Kuo-Hsuan Hung, Hung-yi Lee, Yu Tsao, Hsin-Min Wang, Helen Meng
ICASSP, 2022
On the Transferability of Pre-trained Language Models: A Study from Artificial Datasets
Cheng-Han Chiang, Hung-yi Lee
AAAI, 2022
An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition
Xuankai Chang, Takashi Maekaku, Pengcheng Guo, Jing Shi, Yen-Ju Lu, Aswin Shanmugam Subramanian, Tianzi Wang, Shu-wen Yang, Yu Tsao, Hung-yi Lee, Shinji Watanabe
ASRU, 2021
Non-autoregressive Mandarin-English Code-switching Speech Recognition
Shun-Po Chuang, Heng-Jui Chang, Sung-Feng Huang, Hung-yi Lee
ASRU, 2021
Is BERT a Cross-Disciplinary Knowledge Learner? A Surprising Finding of Pre-trained Models’ Transferability
Wei-Tsung Kao, Hung-yi Lee
EMNLP Finding, 2021
SUPERB: Speech processing Universal PERformance Benchmark
Shu-wen Yang, Po-Han Chi, Yung-Sung Chuang, Cheng-I Lai, Kushal Lakhotia, Yist Y. Lin, Andy T. Liu, Jiatong Shi, Xuankai Chang, Guan-Ting Lin, Tzu-Hsien Huang, Wei-Cheng Tseng, Ko-tik Lee, Da-Rong Liu, Zili Huang, Shuyan Dong, Shang-Wen Li, Shinji Watanabe, Abdelrahman Mohamed, Hung-yi Lee
INTERSPEECH, 2021
S2VC: A Framework for Any-to-Any Voice Conversion with Self-Supervised Pretrained Representations
Jheng-hao Lin, Yist Y. Lin, Chung-Ming Chien, Hung-yi Lee
INTERSPEECH, 2021
Utilizing Self-supervised Representations for MOS Prediction
Wei-Cheng Tseng, Chien-yu Huang, Wei-Tsung Kao, Yist Y. Lin, Hung-yi Lee
INTERSPEECH, 2021
Voting for the right answer: Adversarial defense for speaker verification
Haibin Wu, Yang Zhang, Zhiyong Wu, Dong Wang and Hung-yi Lee
INTERSPEECH, 2021
Stabilizing Label Assignment for Speech Separation by Self-supervised Pre-training
Sung-Feng Huang, Shun-Po Chuang, Da-Rong Liu, Yi-Chen Chen, Gene-Ping Yang, Hung-yi Lee
INTERSPEECH, 2021
Towards Lifelong Learning of End-to-end ASR
Heng-Jui Chang, Hung-yi Lee, Lin-shan Lee
INTERSPEECH, 2021
Auto-KWS 2021 Challenge: Task, Datasets, and Baselines
Jingsong Wang, Yuxuan He, Chunyu Zhao, Qijie Shao, Wei-Wei Tu, Tom Ko, Hung-yi Lee, lei xie
INTERSPEECH, 2021
Investigating the Reordering Capability in CTC-based Non-Autoregressive End-to-End Speech Translation
Shun-Po Chuang, Yung-Sung Chuang, Chih-Chiang Chang, Hung-yi Lee
ACL Findings, 2021
Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn Chatbot Responding with Intention
Hsuan Su, Jiun-Hao Jhan, Fan-yun Sun, Saurav Sahay, Hung-yi Lee
NAACL, 2021
Investigating on Incorporating Pretrained and Learnable Speaker Representations for Multi-Speaker Multi-Style Text-to-Speech
Chung-Ming Chien, Jheng-Hao Lin, Chien-yu Huang, Po-chun Hsu, Hung-yi Lee
ICASSP, 2021
One Shot Learning for Speech Separation
Yuan-Kuei Wu, Kuan-Po Huang, Yu Tsao, Hung-yi Lee
ICASSP, 2021
FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and Fusing Fine-Grained Voice Fragments With Attention
Yist Y. Lin, Chung-Ming Chien, Jheng-Hao Lin, Hung-yi Lee, Lin-shan Lee
ICASSP, 2021
AGAIN-VC: A One-shot Voice Conversion using Activation Guidance and Adaptive Instance Normalization
Yen-Hao Chen, Da-Yi Wu, Tsung-Han Wu, Hung-yi Lee
ICASSP, 2021
Adversarial defense for automatic speaker verification by cascaded self-supervised learning models
Haibin Wu, Xu Li, Andy T. Liu, Zhiyong Wu, Helen Meng, Hung-yi Lee
ICASSP, 2021
Semi-Supervised Spoken Language Understanding via Self-Supervised Speech and Language Model Pretraining
Cheng-I Lai, Yung-Sung Chuang, Hung-Yi Lee, Shang-Wen Li, James Glass
ICASSP, 2021
Hierarchical Prosody Modeling For Non-Autoregressive Speech Synthesis
Chung-Ming Chien, Hung-yi Lee
SLT, 2021
Audio Albert: A Lite Bert For Self-Supervised Learning Of Audio Representation
Po-Han Chi, Pei-Hung Chung, Tsung-Han Wu, Chun-Cheng Hsieh, Yen-Hao Chen, Shang-Wen Li, Hung-yi Lee
SLT, 2021
How Far Are We From Robust Voice Conversion: A Survey
Tzu-hsien Huang, Jheng-hao Lin, Hung-yi Lee
SLT, 2021
Defending Your Voice: Adversarial Attack On Voice Conversion
Chien-yu Huang, Yist Y. Lin, Hung-yi Lee, Lin-shan Lee
SLT, 2021
End-To-End Whispered Speech Recognition With Frequency-Weighted Approaches And Pseudo Whisper Pre-Training
Heng-Jui Chang, Alexander H. Liu, Hung-yi Lee, Lin-shan Lee
SLT, 2021
Pretrained Language Model Embryology: The Birth of ALBERT
Cheng-Han Chiang, Sung-Feng Huang, Hung-yi Lee
EMNLP, 2020
TaylorGAN: Neighbor-Augmented Policy Update for Sample-Efficient Natural Language Generation
Chun-Hsing Lin, Siang-Ruei Wu, Hung-Yi Lee, Yun-Nung Chen
NeurIPS, 2020
Understanding Self-Attention of Self-Supervised Audio Transformers
Shu-wen Yang, Andy T. Liu, Hung-yi Lee
INTERSPEECH, 2020
Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised Learning
Haibin Wu, Andy T. Liu, Hung-yi Lee
INTERSPEECH, 2020
WG-WaveNet: Real-Time High-Fidelity Speech Synthesis without GPU
Po-chun Hsu, Hung-yi Lee
INTERSPEECH, 2020
DARTS-ASR: Differentiable Architecture Search for Multilingual Speech Recognition and Adaptation
Yi-Chen Chen, Jui-Yang Hsu, Cheng-Kuang Lee, Hung-yi Lee
INTERSPEECH, 2020
VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net architecture
Da-Yi Wu, Yen-Hao Chen, Hung-Yi Lee
INTERSPEECH, 2020
Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation
Tao Tu, Yuan-Jui Chen, Alexander H. Liu, Hung-yi Lee
INTERSPEECH, 2020
SpeechBERT: An Audio-and-text Jointly Learned Language Model for End-to-end Spoken Question Answering
Yung-Sung Chuang, Chi-Liang Liu, Hung-Yi Lee, Lin-shan Lee
INTERSPEECH, 2020
Worse WER, but Better BLEU? Leveraging Word Embedding as Intermediate in Multitask End-to-End Speech Translation
Shun-Po Chuang, Tzu-Wei Sung, Alexander H Liu, Hung-yi Lee
ACL, 2020
MOCKINGJAY: UNSUPERVISED SPEECH REPRESENTATION LEARNING WITH DEEP BIDIRECTIONAL TRANSFORMER ENCODERS
Andy T. Liu, Shu-wen Yang, Po-Han Chi, Po-chun Hsu, Hung-yi Lee
ICASSP, 2020
WHAT DOES A NETWORK LAYER HEAR? ANALYZING HIDDEN REPRESENTATIONS OF END-TO-END ASR THROUGH SPEECH SYNTHESIS
Chung-Yi Li, Pei-Chieh Yuan, Hung-Yi Lee
ICASSP, 2020
INTERRUPTED AND CASCADED PERMUTATION INVARIANT TRAINING FOR SPEECH SEPARATION
Gene-Ping Yang, Szu-Lin Wu, Yao-Wen Mao, Hung-yi Lee, Lin-shan Lee
ICASSP, 2020
SEQUENCE-TO-SEQUENCE AUTOMATIC SPEECH RECOGNITION WITH WORD EMBEDDING REGULARIZATION AND FUSED DECODING
Alexander H. Liu, Tzu-Wei Sung, Shun-Po Chuang, Hung-yi Lee, Lin-shan Lee
ICASSP, 2020
TRAINING A CODE-SWITCHING LANGUAGE MODEL WITH MONOLINGUAL DATA
Shun-Po Chuang, Tzu-Wei Sung, Hung-Yi Lee
ICASSP, 2020
TOWARDS UNSUPERVISED SPEECH RECOGNITION AND SYNTHESIS WITH QUANTIZED SPEECH REPRESENTATION LEARNING
Alexander H. Liu, Tao Tu, Hung-yi Lee, Lin-shan Lee
ICASSP, 2020
ONE-SHOT VOICE CONVERSION BY VECTOR QUANTIZATION
Da-Yi Wu, Hung-yi Lee
ICASSP, 2020
Defense against adversarial attacks on spoofing countermeasures of ASV
Haibin Wu, Songxiang Liu, Helen Meng, Hung-yi Lee
ICASSP, 2020
META LEARNING FOR END-TO-END LOW-RESOURCE SPEECH RECOGNITION
Jui-Yang Hsu, Yuan-Jui Chen, Hung-yi Lee
ICASSP, 2020
SELF-SUPERVISED DEEP LEARNING FOR FISHEYE IMAGE RECTIFICATION
Chun-Hao Chao, Pin-Lun Hsu, Hung-Yi Lee, Yu-Chiang Frank Wang
ICASSP, 2020
LAMOL: LAnguage MOdeling for Lifelong Language Learning
Fan-Keng Sun, Cheng-Hao Ho, Hung-Yi Lee
ICLR, 2020
Order-free Learning Alleviating Exposure Bias in Multi-label Classification
Che-Ping Tsai, Hung-Yi Lee
AAAI, 2020
Adversarial attacks on spoofing countermeasures of automatic speaker verification
Songxiang Liu, Haibin Wu, Hung-yi Lee, Helen Meng
ASRU, 2019
Zero-shot Reading Comprehension by Cross-lingual Transfer Learning with Multi-lingual Language Representation Model
Tsung-Yuan Hsu, Chi-Liang Liu and Hung-yi Lee
EMNLP, 2019
Polly Want a Cracker: Analyzing Performance of Parroting on Paraphrase Generation Datasets
Hong-Ren Mao and Hung-Yi Lee
EMNLP, 2019
Tree Transformer: Integrating Tree Structures into Self-Attention
Yaushian Wang, Hung-Yi Lee and Yun-Nung Chen
EMNLP, 2019
DyKgChat: Benchmarking Dialogue Generation Grounding on Dynamic Knowledge Graphs
Yi-Lin Tuan, Yun-Nung Chen and Hung-yi Lee
EMNLP, 2019
One-shot Voice Conversion by Separating Speaker and Content Representations with Instance Normalization
Ju-chieh Chou, Cheng-chieh Yeh, Hung-yi Lee
INTERSPEECH, 2019
Unsupervised End-to-End Learning of Discrete Linguistic Units for Voice Conversion
Andy T. Liu, Po-chun Hsu and Hung-yi Lee
INTERSPEECH, 2019
Personalized Dialogue Response Generation Learned from Monologues
Feng-Guang Su, Aliyah Hsu, Yi-Lin Tuan and Hung-yi Lee
INTERSPEECH, 2019
End-to-end Text-to-speech for Low-resource Languages by Cross-Lingual Transfer Learning
Yuan-Jui Chen, Tao Tu, Cheng-chieh Yeh, Hung-yi Lee
INTERSPEECH, 2019
Code-switching Sentence Generation by Generative Adversarial Networks and its Application to Data Augmentation
Ching-Ting Chang, Shun-Po Chuang, Hung-Yi Lee
INTERSPEECH, 2019
Completely Unsupervised Phoneme Recognition By A Generative Adversarial Network Harmonized With Iteratively Refined Hidden Markov Models
Kuan-yu Chen, Che-ping Tsai, Da-Rong Liu, Hung-yi Lee and Lin-shan Lee
INTERSPEECH, 2019
Noise Adaptive Speech Enhancement using Domain Adversarial Training
Chien-Feng Liao, Yu Tsao, Hung-yi Lee and Hsin-Min Wang
INTERSPEECH, 2019
Improved Speech Separation with Time-and-Frequency Cross-domain Joint Embedding and Clustering
Gene-Ping Yang, ChaoI Tuan, Hung-yi Lee and Lin-shan Lee
INTERSPEECH, 2019
Generative Adversarial Networks for Unpaired Voice Transformation on Impaired Speech
Li-Wei Chen, Hung-Yi Lee, Yu Tsao
INTERSPEECH, 2019
Adversarial Learning of Label Dependency: A Novel Framework for Multi-class Classification
Che-Ping Tsai, Hung-Yi Lee
ICASSP, 2019
Towards Audio to Scene Image Synthesis using Generative Adversarial Network
Chia-Hung Wan, Shun-Po Chuang, Hung-Yi Lee
ICASSP, 2019
Mitigating the Impact of Speech Recognition Errors on Spoken Question Answering by Adversarial Domain Adaptation
Chia-Hsuan Lee, Yun-Nung Chen, Hung-Yi Lee
ICASSP, 2019
Towards End-to-end Speech-to-text Translation with Two-pass Decoding
Tzu-Wei Sung, Jun-You Liu, Hung-yi Lee, Lin-shan Lee
ICASSP, 2019
Adversarial Training of End-to-end Speech Recognition Using a Criticizing Language Model
Alexander H. Liu, Hung-yi Lee, Lin-shan Lee
ICASSP, 2019
Using Deep-Q Network to Select Candidates from N-best Speech Recognition Hypotheses for Enhancing Dialogue State Tracking
Richard Tzong-Han Tsai, Chia-Hao Chen, Chun-Kai Wu, Yu-Cheng Hsiao, Hung-Yi Lee
ICASSP, 2019
Learning to Encode Text as Human-Readable Summaries using Generative Adversarial Networks
Yau-Shian Wang, Hung-Yi Lee
EMNLP, 2018
Improving Unsupervised Style Transfer in End-to-End Speech Synthesis with End-to-End Speech Recognition
Da-Rong Liu, Chi-Yu Yang, Szu-Lin Wu, Hung-Yi Lee
SLT, 2018
ODSQA: Open-domain Spoken Question Answering Dataset
Chia-Hsuan Lee, Shang-Ming Wang, Huan-Cheng Chang, Hung-Yi Lee
SLT, 2018
Rhythm-Flexible Voice Conversion without Parallel Data Using Cycle-GAN over Phoneme Posteriorgram Sequences
Cheng-chieh Yeh, Po-chun Hsu, Ju-chieh Chou, Hung-yi Lee, Lin-shan Lee
SLT, 2018
Phonetic-and-Semantic Embedding of Spoken Words with Applications in Spoken Content Retrieval
Yi-Chen Chen, Sung-Feng Huang, Chia-Hao Shen, Hung-yi Lee, Lin-shan Lee
SLT, 2018
Spoken SQuAD: A Study of Mitigating the Impact of Speech Recognition Errors on Listening Comprehension
Chia-Hsuan Li, Szu-Lin Wu, Chi-Liang Liu, Hung-yi Lee
INTERSPEECH, 2018
Joint Learning of Interactive Spoken Content Retrieval and Trainable User Simulator
Pei-Hung Chung, Kuan Tung, Ching-Lun Tai, Hung-Yi Lee
INTERSPEECH, 2018
Multi-target Voice Conversion without Parallel Data by Adversarially Learning Disentangled Audio Representations
Ju-chieh Chou, Cheng-chieh Yeh, Hung-yi Lee, Lin-shan Lee
INTERSPEECH, 2018
Completely Unsupervised Phoneme Recognition by Adversarially Learning Mapping Relationships from Audio Embeddings
Da-Rong Liu, Kuan-Yu Chen, Hung-Yi Lee, Lin-shan Lee
INTERSPEECH, 2018
Language Transfer of Audio Word2Vec: Learning Audio Segment Representations without Target Language Data
Chia-Hao Shen, Janet Y. Sung, Hung-Yi Lee
ICASSP, 2018
Query-by-example Spoken Term Detection using Attention-based Multi-hop Networks
Chia-Wei Ao, Hung-yi Lee
ICASSP, 2018
Domain Independent Key Term Extraction from Spoken Content based on Context and Term Location Information
Hsien-Chin Lin, Chi-Yu Yang, Hung-Yi Lee, Lin-Shan Lee
ICASSP, 2018
Scalable Sentiment for Sequence-to-sequence Chatbot Response with Performance Analysis
Chih-Wei Lee, Yau-Shian Wang, Tsung-Yuan Hsu, Kuan-Yu Chen, Hung-Yi Lee, Lin-Shan Lee
ICASSP, 2018
Segmental Audio Word2vec: Representing Utterances as Sequences of Vectors with Applications in Spoken Term Detection
Yu-Hsuan Wang, Hung-Yi Lee, Lin-Shan Lee
ICASSP, 2018
Supervised and Unsupervised Transfer Learning for Question Answering
Yu-An Chung, Hung-Yi Lee, James Glass
NAACL, 2018
Query-based Attention CNN for Text Similarity Map
Tzu-Chien Liu, Yu-Hsueh Wu, Hung-Yi Lee
ICCV, 2018
Mitigating the Impact of Speech Recognition Errors on Chatbot using Sequence-to-sequence Model
Pin-Jung Chen, I-Hung Hsu, Yi Yao Huang, Hung-Yi Lee
ASRU, 2017
Seeing and Hearing Too: Audio Representation for Video Captioning
Shun Po Chuang, Chia-Hung Wan, Pang-Chi Huang, Chi-Yu Yang, Hung-Yi Lee
ASRU, 2017
Personalized Word Representations Carrying Personalized Semantics Learned from Social Network Posts
Zih-Wei Lin, Tzu-Wei Sung, Hung-Yi Lee, Lin-Shan Lee
ASRU, 2017
Learning Chinese Word Representations From Glyphs Of Characters
Tzu-Ray Su, Hung-Yi Lee
EMNLP, 2017
Gate Activation Signal Analysis for Gated Recurrent Neural Networks and Its Correlation with Phoneme Boundaries
Yu-Hsuan Wang, Cheng-Tao Chung, Hung-yi Lee
INTERSPEECH, 2017
Order-Preserving Abstractive Summarization for Spoken Content based on Connectionist Temporal Classification
Bo-Ru Lu, Frank Shyu, Yun-Nung Chen, Hung-Yi Lee, Lin-Shan Lee
INTERSPEECH, 2017
Recurrent Neural Network based Language Modeling with Controllable External Memory
Wei-Jen Ko, Bo-Hsiang Tseng, Hung-yi Lee
ICASSP, 2017
Personalized Acoustic Modeling by Weakly Supervised Multi-task Deep Learning using Acoustic Tokens Discovered from Unlabeled Data
Cheng-Kuan Wei, Cheng-Tao Chung, Hung-yi Lee, Lin-Shan Lee
ICASSP, 2017
Abstractive Headline Generation for Spoken Content by Attentive Recurrent Neural Networks with ASR Error Modeling
Lang-Chi Yu, Hung-yi Lee, Lin-Shan Lee
SLT, 2016
Hierarchical Attention Model for Improved Machine Comprehension of Spoken Content
Wei Fang, Juei-Yang Hsu, Hung-yi Lee, Lin-Shan Lee
SLT, 2016
Towards Machine Comprehension of Spoken Content: Initial TOEFL Listening Comprehension Test by Machine
Bo-Hsiang Tseng, Sheng-syun Shen, Hung-Yi Lee, Lin-Shan Lee
INTERSPEECH, 2016
Interactive Spoken Content Retrieval by Deep Reinforcement Learning
Yen-Chen Wu, Tzu-Hsiang Lin, Yang-De Chen, Hung-Yi Lee, Lin-Shan Lee
INTERSPEECH, 2016
Audio Word2Vec: Unsupervised Learning of Audio Segment Representations Using Sequence-to-Sequence Autoencoder
Yu-An Chung, Chao-Chung Wu, Chia-Hao Shen, Hung-Yi Lee, Lin-Shan Lee
INTERSPEECH, 2016
Neural Attention Models for Sequence Classification: Analysis and Application to Key Term Extraction and Dialogue Act Detection
Sheng-syun Shen, Hung-Yi Lee
INTERSPEECH, 2016
Towards Structured Deep Neural Network for Automatic Speech Recognition
Yi-Hsiu Liao, Hung-yi Lee, Lin-shan Lee
ASRU, 2015
Personalizing Universal Recurrent Neural Network Language Model with User Characteristic Features by Social Network Crowdsourcing
Bo-Hsiang Tseng, Hung-yi Lee, Lin-Shan Lee
ASRU, 2015
An Iterative Deep Learning Framework for Unsupervised Discovery of Speech Features and Linguistic Units with Applications on Spoken Term Detection
Cheng-Tao Chung, Cheng-Yu Tsai, Hsiang-Hung Lu, Chia-Hsiang Liu, Hung-yi Lee, Lin-shan Lee
ASRU, 2015
Structuring Lectures in Massive Open Online Courses (MOOCs) for Efficient Learning by Linking Similar Sections and Predicting Prerequisites
Sheng-syun Shen, Hung-yi Lee, Shang-wen Li, Victor Zue and Lin-shan Lee
INTERSPEECH, 2015
Semantic Retrieval of Personal Photos using a Deep Autoencoder Fusing Visual Features with Speech Annotations Represented as Word/Paragraph Vectors
Hung-tsung Lu, Yuan-ming Liou, Hung-yi Lee and Lin-shan Lee
INTERSPEECH, 2015
Personalized Speech Recognizer with Keyword-based Personalized Lexicon and Language Model using Word Vector Representations
Ching-Feng Yeh, Yuan-ming Liou, Hung-yi Lee and Lin-shan Lee
INTERSPEECH, 2015
Graph-based Re-ranking using Acoustic Feature Similarity between Search Results for Spoken Term Detection on Low-resource Languages
Hung-yi Lee, Yu Zhang, Ekapol Chuangsuwanich, James Glass
INTERSPEECH, 2014
Alignment of Spoken Utterances with Slide Content for Easier Learning with Recorded Lectures using Structured Support Vector Machine (SVM)
Han Lu, Sheng-syun Shen, Sz-Rung Shiang, Hung-yi Lee and Lin-shan Lee
INTERSPEECH, 2014
Spoken Question Answering Using Tree-structured Conditional Random Fields and Two-layer Random Walk
Sz-Rung Shiang, Hung-yi Lee and Lin-shan Lee
INTERSPEECH, 2014
Semantic Retrieval of Personal Photos using Matrix Factorization and Two-layer Random Walk Fusing Sparse Speech Annotations with Visual Features
Yuan-ming Liou, Yi-sheng Fu, Hung-yi Lee and Lin-shan Lee
INTERSPEECH, 2014
Ensemble of Machine Learning and Acoustic Segment Model Techniques for Speech Emotion and Autism Spectrum Disorders Recognition
Hung-yi Lee, Ting-yao Hu, How Jing, Yun-Fan Chang, Yu Tsao, Yu-Cheng Kao, Tsang-Long Pao
INTERSPEECH, 2013
Unsupervised Domain Adaptation for Spoken Document Summarization with Structured Support Vector Machine
Hung-yi Lee, Yu-yu Chou, Yow-Bang Wang, Lin-shan Lee
ICASSP, 2013
Enhancing Query Expansion for Semantic Retrieval of Spoken Content with Automatically Discovered Acoustic Patterns
Hung-yi Lee, Yun-Chiao Li, Cheng-Tao Chung, Lin-shan Lee
ICASSP, 2013
Towards Unsupervised Semantic Retrieval of Spoken Content with Query Expansion based on Automatically Discovered Acoustic Patterns
Yun-Chiao Li, Hung-yi Lee, Cheng-Tao Chung, Chun-an Chan, and Lin-shan Lee
ASRU, 2013
Supervised Spoken Document Summarization Based on Structured Support Vector Machine with Utterance Clusters as Hidden Variables
Sz-Rung Shiang, Hung-yi Lee, Lin-shan Lee
INTERSPEECH, 2013
Recurrent Neural Network Based Language Model Personalization by Social Network Crowdsourcing
Tsung-Hsien Wen, Aaron Heidel, Hung-yi Lee, Yu Tsao, Lin-shan Lee
INTERSPEECH, 2013
Speaking Rate Normalization with Lattice-based Context-dependent Phoneme Duration Modeling for Personalized Speech Recognizers on Mobile Devices
Ching-Feng Yeh, Hung-yi Lee and Lin-shan Lee
INTERSPEECH, 2013
Interactive Spoken Content Retrieval by Extended Query Model and Continuous State Space Markov Decision Process
Tsung-Hsien Wen, Hung-yi Lee, Pei-Hao Su, Lin-shan Lee
ICASSP, 2013
Improved Semantic Retrieval of Spoken Content by Language models Enhanced with Acoustic Similari"
Hung-yi Lee, Tsung-Hsien Wen, Lin-shan Lee
SLT, 2012
Personalized Language Modeling by Crowd Sourcing with Social Network Data for Voice Access of Cloud Applications
Tsung-Hsien Wen, Hung-yi Lee, Lin-shan Lee
SLT, 2012
Supervised Spoken Document Summarization Jointly Considering Utterance Importance and Redundancy by Structured Support Vector Machine
Hung-yi Lee, Yu-yu Chou, Yow-Bang Wang, Lin-shan Lee
INTERSPEECH, 2012
Open-Vocabulary Retrieval of Spoken Content with Shorter/Longer Queries Considering Word/Subword-based Acoustic Feature Similarity
Hung-yi Lee, Po-wei Chou, Lin-shan Lee
INTERSPEECH, 2012
Utterance-level Latent Topic Transition Modeling for Spoken Documents and its Application in Automatic Summarization
Hung-yi Lee, Yun-nung Chen, Lin-shan Lee
ICASSP, 2012
Interactive Spoken Content Retrieval with Different Types of Actions Optimized by a Markov Decision Process
Tsung-Hsien Wen, Hung-yi Lee, Lin-shan Lee
INTERSPEECH, 2012
Semantic Query Expansion and Context-based Discriminative Term Modeling for Spoken Document Retrieval
Tsung-wei Tu, Hung-yi Lee, Lin-shan Lee
ICASSP, 2012
Unsupervised Two-Stage Keyword Extraction from Spoken Documents by Topic Coherence and Support Vector Machine
Yun-Nung Chen, Yu Huang, Hung-yi Lee, Lin-shan Lee
ICASSP, 2012
Recognition of Highly Imbalanced Code-mixed Bilingual Speech with Frame-level Language Detection based on Blurred Posteriorgram
Ching-Feng Yeh, Aaron Heidel, Hung-yi Lee, Lin-shan Lee
ICASSP, 2012
Improved Speech Summarization and Spoken Term Detection with Graphical Analysis of Utterance Similarities
Hung-yi Lee, Yun-nung Chen, Lin-shan Lee
APSIPA ASC, 2011
Improved Spoken Term Detection Using Support Vector Machines based on Lattice Context Consistency
Hung-yi Lee, Tsung-wei Tu, Chia-ping Chen, Chao-yu Huang, Lin-shan Lee
ICASSP, 2011
Improved Spoken Term Detection using Support Vector Machines with Acoustic and Context Features from Pseudo-relevance Feedback
Tsung-wei Tu, Hung-yi Lee, Lin-shan Lee
ASRU, 2011
Improved Spoken Term Detection with Graph-based Re-ranking in Feature Space
Yun-nung Chen, Chia-ping Chen, Hung-yi Lee, Chun-an Chan, Lin-shan Lee
ICASSP, 2011
A Framework Integrating Different Relevance Feedback Scenarios and Approaches for Spoken Term Detection
Hung-yi Lee, Chia-ping Chen, Ching-feng Yeh, Lin-shan Lee
SLT, 2010
Improved Spoken Term Detection by Discriminative Training of Acoustic Models based on User Relevance Feedback
Hung-yi Lee, Chia-ping Chen, Ching-feng Yeh, Lin-shan Lee
INTERSPEECH, 2010
Integrating Recognition and Retrieval with User Feedback: A New Framework for Spoken Term Detection
Hung-yi Lee and Lin-shan Lee
ICASSP, 2010
Improved Spoken Term Detection by Feature Space Pseudo-Relevance Feedback
Chia-ping Chen, Hung-yi Lee, Ching-feng Yeh, Lin-shan Lee
INTERSPEECH, 2010
An Initial Attempt to Improve Spoken Term Detection by Learning Optimal Weights for Different Indexing Features
Yu-Hui Chen, Chia-Chen Chou, Hung-yi Lee, Lin-shan Lee
ICASSP, 2010
Spoken Term Detection from Bilingual Spontaneous Speech Using Code-switched Lattice-based Structures for Words and Subword Units
Hung-yi Lee, Yueh-Lien Tang, Hao Tang, Lin-shan Lee
ASRU, 2009
Improved Lattice-based Spoken Document Retrieval by Directly Learning from the evaluation Measures
Chao-hong Meng, Hung-yi Lee, Lin-shan Lee
ICASSP, 2009

Siddhant Arora, Kai-Wei Chang, Chung-Ming Chien, Yifan Peng, Haibin Wu, Yossi Adi, Emmanuel Dupoux, Hung-Yi Lee, Karen Livescu, Shinji Watanabe , On The Landscape of Spoken Language Models: A Comprehensive Survey , Transactions on Machine Learning Research (TMLR), accepted, 2025

Pooneh Mousavi, Gallil Maimon, Adel Moumen, Darius Petermann, Jiatong Shi, Haibin Wu, Haici Yang, Anastasia Kuznetsova, Artem Ploujnikov, Ricard Marxer, Bhuvana Ramabhadran, Benjamin Elizalde, Loren Lugosch, Jinyu Li, Cem Subakan, Phil Woodland, Minje Kim, Hung-Yi Lee, Shinji Watanabe, Yossi Adi, Mirco Ravanelli , Discrete Audio Tokens: More Than a Survey! , Transactions on Machine Learning Research (TMLR), accepted, 2025

Kai-Wei Chang, Haibin Wu, Yu-Kai Wang, Yuan-Kuei Wu, Hua Shen, Wei-Cheng Tseng, Iu-Thing Kang, Shang-Wen Li, Hung-Yi Lee , SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks , IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 32, pp. 3730-3744, 2024

Shu-wen Yang, Heng-Jui Chang, Zili Huang, Andy T. Liu, Cheng-I Lai, Haibin Wu, Jiatong Shi, Xuankai Chang, Hsiang-Sheng Tsai, Wen-Chin Huang, Tzu-hsun Feng, Po-Han Chi, Yist Y. Lin, Yung-Sung Chuang, Tzu-Hsien Huang, Wei-Cheng Tseng, Kushal Lakhotia, Shang-Wen Li, Abdelrahman Mohamed, Shinji Watanabe, Hung-yi Lee , A Large-Scale Evaluation of Speech Foundation Models , IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 32, pp. 2884-2899, 2024

Po-chun Hsu, Da-rong Liu, Andy T. Liu, Hung-yi Lee , Parallel Synthesis for Autoregressive Speech Generation , IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 31, pp. 3095-3111, 2023

Yun-Yen Chuang, Hung-Min Hsu, Kevin Lin, Ray-I. Chang, Hung-Yi Lee , MetaEx-GAN: Meta Exploration to Improve Natural Language Generation via Generative Adversarial Networks , IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 31, pp. 3968-3980, 2023

Abdelrahman Mohamed, Hung-yi Lee, Lasse Borgholt, Jakob D. Havtorn, Joakim Edin, Christian Igel, Katrin Kirchhoff, Shang-Wen Li, Karen Livescu, Lars Maaløe, Tara N. Sainath, Shinji Watanabe , Self-Supervised Speech Representation Learning: A Review , IEEE Journal of Selected Topics in Signal Processing, vol. 16, no. 6, pp. 1179-1210, Oct. 2022

Sung-Feng Huang, Chyi-Jiunn Lin, Da-Rong Liu, Yi-Chen Chen, Hung-yi Lee , Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech , IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 30, pp. 1558-1571, 2022

Haibin Wu, Xu Li, Andy T. Liu, Zhiyong Wu, Helen Meng, Hung-Yi Lee , Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning , EEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 30, pp. 202-217, 2022

Da-rong Liu, Po-chun Hsu, Yi-chen Chen, Sung-feng Huang, Shun-po Chuang, Da-yi Wu, Hung-yi Lee , Learning Phone Recognition From Unpaired Audio and Phone Sequences Based on Generative Adversarial Network , IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 30, pp. 230-243, 2022

Andy T. Liu, Shang-Wen Li, Hung-yi Lee , TERA: Self-Supervised Learning of Transformer Encoder Representation for Speech , IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 2351-2366, 2021

Shun-Po Chuang, Alexander H. Liu, Tzu-Wei Sung, Hung-yi Lee , Improving Automatic Speech Recognition and Speech Translation via Word Embedding Prediction , IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 93-105, Nov. 2021

Yi-Chen Chen, Sung-Feng Huang, Hung-yi Lee, Yu-Hsuan Wang, Chia-Hao Shen , Audio Word2vec: Sequence-to-sequence Autoencoding for Unsupervised Learning of Audio Segmentation and Representation , IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 9, pp. 1481-1493, Sept. 2019

Chia-Hsuan Lee, Hung-yi Lee, Szu-Lin Wu, Chi-Liang Liu, Wei Fang, Juei-Yang Hsu, Bo-Hsiang Tseng , Machine Comprehension of Spoken Content: TOEFL Listening Test and Spoken SQuAD , IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 9, pp. 1469-1480, Sept. 2019

Yi-Lin Tuan, Hung-Yi Lee , Improving Conditional Sequence Generative Adversarial Networks by Stepwise Evaluation , IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 4, pp. 788-798, April 2019

Hung-Yi Lee, Pei-Hung Chung, Yen-Chen Wu, Tzu-Hsiang Lin, Tsung-Hsien Wen , Interactive Spoken Content Retrieval by Deep Reinforcement Learning , IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 12, pp. 2447-2459, Dec. 2018

Hung-yi Lee, Bo-Hsiang Tseng, Tsung-Hsien Wen, Yu Tsao , Personalizing Recurrent Neural Network Based Language Model by Social Network , IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 3, pp. 519-530, March 2017

Shun-Yao Shih, Fan-Keng Sun, Hung-yi Lee , Temporal Pattern Attention for Multivariate Time Series Forecasting , accepted by the journal track of the European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECMLPKDD)

Lin-shan Lee, James Glass, Hung-yi Lee, Chun-an Chan , Spoken Content Retrieval —Beyond Cascading Speech Recognition with Text Retrieval , IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.23, no.9, pp.1389-1420, Sept. 2015

Hung-yi Lee, Ching-feng Yeh, Yun-Nung Chen, Yu Huang, Sheng-Yi Kong and Lin-shan Lee , “Spoken Knowledge Organization by Semantic Structuring and a Prototype Course Lecture System for Personalized Learning” , IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.22, no.5, pp.883-898, May 2014 (Figure 9 of the article selected as journal cover)

Hung-yi Lee, Po-wei Chou, Lin-shan Lee , Improved open-vocabulary spoken content retrieval with word and subword lattices using acoustic feature similarity , Computer Speech & Language, Volume 28, Issue 5, pp. 1045-1065, Sept. 2014

Hung-yi Lee, Lin-shan Lee , Improved Semantic Retrieval of Spoken Content by Document/Query Expansion with Random Walk over Acoustic Similarity Graphs , IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.22, no.1, pp.80-94, Jan. 2014 (Figure 2 of the article selected as journal cover)

Hung-yi Lee, Lin-shan Lee , Enhanced Spoken Term Detection Using Support Vector Machines and Weighted Pseudo Examples , IEEE Transactions on Audio, Speech, and Language Processing, vol.21, no.6, pp.1272-1284, June 2013

Hung-yi Lee, Chia-ping Chen, Lin-shan Lee , Integrating Recognition and Retrieval with Relevance Feedback for Spoken Term Detection , IEEE Transactions on Audio, Speech, and Language Processing, vol.20, no.7, pp.2095-2110, Sept. 2012

Yi-cheng Pan, Hung-yi Lee, Lin-shan Lee , Interactive Spoken Document Retrieval With Suggested Key Terms Ranked by a Markov Decision Process , IEEE Transactions on Audio, Speech, and Language Processing, vol.20, issue.2, pp. 632-645, Feb. 2012

Tsung-Han Wu, Chun-Cheng Hsieh, Yen-Hao Chen, Po-Han Chi, Hung-yi Lee , Hand-crafted Attention is All You Need? A Study of Attention on Self-supervised Audio Transformer , arXiv preprint, 2020

Yuan-Kuei Wu, Chao-I Tuan, Hung-yi Lee, Yu Tsao , SADDEL: Joint Speech Separation and Denoising Model based on Multitask Learning , arXiv preprint, 2020

Chao-I Tuan, Yuan-Kuei Wu, Hung-yi Lee, Yu Tsao , MITAS: A Compressed Time-Domain Audio Separation Network with Parameter Sharing , arXiv preprint, 2019

Po-chun Hsu, Chun-hsuan Wang, Andy T. Liu, Hung-yi Lee , Towards Robust Neural Vocoding for Speech Generation: A Survey , arXiv preprint, 2019

Chia-Hsuan Lee, Hung-Yi Lee , Cross-Lingual Transfer Learning for Question Answering , arXiv preprint, 2019

Yi-Chen Chen, Chia-Hao Shen, Sung-Feng Huang, Hung-yi Lee , Towards Unsupervised Automatic Speech Recognition Trained by Unaligned Speech and Text only , arXiv preprint, 2018

Yi-Lin Tuan, Jinzhi Zhang, Yujia Li, Hung-yi Lee , Proximal Policy Optimization and its Dynamic Version for Sequence Generation , arXiv preprint, 2018

Da-Rong Liu, Shun-Po Chuang, Hung-yi Lee , Attention-based Memory Selection Recurrent Network for Language Modeling , arXiv preprint, 2016