Dynamic Gated Recurrent Neural Network for Compute-efficient Speech Enhancement Article Swipe

View

Longbiao Cheng , Ashutosh Pandey , Buye Xu , Tobi Delbrück , Shih‐Chii Liu ·

YOU? · · 2024 · Open Access · · DOI: https://doi.org/10.21437/interspeech.2024-958

This paper introduces a new Dynamic Gated Recurrent Neural Network (DG-RNN)\nfor compute-efficient speech enhancement models running on resource-constrained\nhardware platforms. It leverages the slow evolution characteristic of RNN\nhidden states over steps, and updates only a selected set of neurons at each\nstep by adding a newly proposed select gate to the RNN model. This select gate\nallows the computation cost of the conventional RNN to be reduced during\nnetwork inference. As a realization of the DG-RNN, we further propose the\nDynamic Gated Recurrent Unit (D-GRU) which does not require additional\nparameters. Test results obtained from several state-of-the-art\ncompute-efficient RNN-based speech enhancement architectures using the DNS\nchallenge dataset, show that the D-GRU based model variants maintain similar\nspeech intelligibility and quality metrics comparable to the baseline GRU based\nmodels even with an average 50% reduction in GRU computes.\n

Related Topics

Recurrent Neural Network

Computer Science

Artificial Intelligence

Concepts

Recurrent neural network Computer science Inference Speech enhancement Reduction (mathematics) Computation Speech recognition Speech synthesis Realization (probability) Artificial intelligence Artificial neural network Algorithm Noise reduction Mathematics Statistics Geometry

Metadata

Type: preprint
Language: en
Landing Page: https://doi.org/10.21437/interspeech.2024-958
OA Status: green
Cited By: 6
Related Works: 10
OpenAlex ID: https://openalex.org/W4402112230

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4402112230

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.21437/interspeech.2024-958

Digital Object Identifier
Title: Dynamic Gated Recurrent Neural Network for Compute-efficient Speech Enhancement

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2024

Year of publication
Publication date: 2024-09-01

Full publication date if available
Authors: Longbiao Cheng, Ashutosh Pandey, Buye Xu, Tobi Delbrück, Shih‐Chii Liu

List of authors in order
Landing page: https://doi.org/10.21437/interspeech.2024-958

Publisher landing page
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2408.12425

Direct OA link when available
Concepts: Recurrent neural network, Computer science, Inference, Speech enhancement, Reduction (mathematics), Computation, Speech recognition, Speech synthesis, Realization (probability), Artificial intelligence, Artificial neural network, Algorithm, Noise reduction, Mathematics, Statistics, Geometry

Top concepts (fields/topics) attached by OpenAlex
Cited by: 6

Total citation count in OpenAlex
Citations by year (recent): 2025: 6

Per-year citation counts (last 5 years)
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4402112230
doi	https://doi.org/10.21437/interspeech.2024-958
ids.doi	https://doi.org/10.21437/interspeech.2024-958
ids.openalex	https://openalex.org/W4402112230
fwci	4.27502559
type	preprint
title	Dynamic Gated Recurrent Neural Network for Compute-efficient Speech Enhancement
biblio.issue
biblio.volume
biblio.last_page	681
biblio.first_page	677
topics[0].id	https://openalex.org/T10860
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9998000264167786
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1711
topics[0].subfield.display_name	Signal Processing
topics[0].display_name	Speech and Audio Processing
topics[1].id	https://openalex.org/T10201
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9915000200271606
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1702
topics[1].subfield.display_name	Artificial Intelligence
topics[1].display_name	Speech Recognition and Synthesis
topics[2].id	https://openalex.org/T10326
topics[2].field.id	https://openalex.org/fields/22
topics[2].field.display_name	Engineering
topics[2].score	0.9905999898910522
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/2208
topics[2].subfield.display_name	Electrical and Electronic Engineering
topics[2].display_name	Indoor and Outdoor Localization Technologies
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C147168706
concepts[0].level	3
concepts[0].score	0.8570429086685181
concepts[0].wikidata	https://www.wikidata.org/wiki/Q1457734
concepts[0].display_name	Recurrent neural network
concepts[1].id	https://openalex.org/C41008148
concepts[1].level	0
concepts[1].score	0.7731086611747742
concepts[1].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[1].display_name	Computer science
concepts[2].id	https://openalex.org/C2776214188
concepts[2].level	2
concepts[2].score	0.5606546401977539
concepts[2].wikidata	https://www.wikidata.org/wiki/Q408386
concepts[2].display_name	Inference
concepts[3].id	https://openalex.org/C2776182073
concepts[3].level	3
concepts[3].score	0.49761489033699036
concepts[3].wikidata	https://www.wikidata.org/wiki/Q7575395
concepts[3].display_name	Speech enhancement
concepts[4].id	https://openalex.org/C111335779
concepts[4].level	2
concepts[4].score	0.4921409487724304
concepts[4].wikidata	https://www.wikidata.org/wiki/Q3454686
concepts[4].display_name	Reduction (mathematics)
concepts[5].id	https://openalex.org/C45374587
concepts[5].level	2
concepts[5].score	0.4650263786315918
concepts[5].wikidata	https://www.wikidata.org/wiki/Q12525525
concepts[5].display_name	Computation
concepts[6].id	https://openalex.org/C28490314
concepts[6].level	1
concepts[6].score	0.44344061613082886
concepts[6].wikidata	https://www.wikidata.org/wiki/Q189436
concepts[6].display_name	Speech recognition
concepts[7].id	https://openalex.org/C14999030
concepts[7].level	2
concepts[7].score	0.4381554424762726
concepts[7].wikidata	https://www.wikidata.org/wiki/Q16346
concepts[7].display_name	Speech synthesis
concepts[8].id	https://openalex.org/C2781089630
concepts[8].level	2
concepts[8].score	0.4140395224094391
concepts[8].wikidata	https://www.wikidata.org/wiki/Q21856745
concepts[8].display_name	Realization (probability)
concepts[9].id	https://openalex.org/C154945302
concepts[9].level	1
concepts[9].score	0.36388087272644043
concepts[9].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[9].display_name	Artificial intelligence
concepts[10].id	https://openalex.org/C50644808
concepts[10].level	2
concepts[10].score	0.3416796922683716
concepts[10].wikidata	https://www.wikidata.org/wiki/Q192776
concepts[10].display_name	Artificial neural network
concepts[11].id	https://openalex.org/C11413529
concepts[11].level	1
concepts[11].score	0.27971550822257996
concepts[11].wikidata	https://www.wikidata.org/wiki/Q8366
concepts[11].display_name	Algorithm
concepts[12].id	https://openalex.org/C163294075
concepts[12].level	2
concepts[12].score	0.18923181295394897
concepts[12].wikidata	https://www.wikidata.org/wiki/Q581861
concepts[12].display_name	Noise reduction
concepts[13].id	https://openalex.org/C33923547
concepts[13].level	0
concepts[13].score	0.07433399558067322
concepts[13].wikidata	https://www.wikidata.org/wiki/Q395
concepts[13].display_name	Mathematics
concepts[14].id	https://openalex.org/C105795698
concepts[14].level	1
concepts[14].score	0.0
concepts[14].wikidata	https://www.wikidata.org/wiki/Q12483
concepts[14].display_name	Statistics
concepts[15].id	https://openalex.org/C2524010
concepts[15].level	1
concepts[15].score	0.0
concepts[15].wikidata	https://www.wikidata.org/wiki/Q8087
concepts[15].display_name	Geometry
keywords[0].id	https://openalex.org/keywords/recurrent-neural-network
keywords[0].score	0.8570429086685181
keywords[0].display_name	Recurrent neural network
keywords[1].id	https://openalex.org/keywords/computer-science
keywords[1].score	0.7731086611747742
keywords[1].display_name	Computer science
keywords[2].id	https://openalex.org/keywords/inference
keywords[2].score	0.5606546401977539
keywords[2].display_name	Inference
keywords[3].id	https://openalex.org/keywords/speech-enhancement
keywords[3].score	0.49761489033699036
keywords[3].display_name	Speech enhancement
keywords[4].id	https://openalex.org/keywords/reduction
keywords[4].score	0.4921409487724304
keywords[4].display_name	Reduction (mathematics)
keywords[5].id	https://openalex.org/keywords/computation
keywords[5].score	0.4650263786315918
keywords[5].display_name	Computation
keywords[6].id	https://openalex.org/keywords/speech-recognition
keywords[6].score	0.44344061613082886
keywords[6].display_name	Speech recognition
keywords[7].id	https://openalex.org/keywords/speech-synthesis
keywords[7].score	0.4381554424762726
keywords[7].display_name	Speech synthesis
keywords[8].id	https://openalex.org/keywords/realization
keywords[8].score	0.4140395224094391
keywords[8].display_name	Realization (probability)
keywords[9].id	https://openalex.org/keywords/artificial-intelligence
keywords[9].score	0.36388087272644043
keywords[9].display_name	Artificial intelligence
keywords[10].id	https://openalex.org/keywords/artificial-neural-network
keywords[10].score	0.3416796922683716
keywords[10].display_name	Artificial neural network
keywords[11].id	https://openalex.org/keywords/algorithm
keywords[11].score	0.27971550822257996
keywords[11].display_name	Algorithm
keywords[12].id	https://openalex.org/keywords/noise-reduction
keywords[12].score	0.18923181295394897
keywords[12].display_name	Noise reduction
keywords[13].id	https://openalex.org/keywords/mathematics
keywords[13].score	0.07433399558067322
keywords[13].display_name	Mathematics
language	en
locations[0].id	doi:10.21437/interspeech.2024-958
locations[0].is_oa	False
locations[0].source
locations[0].license
locations[0].pdf_url
locations[0].version	publishedVersion
locations[0].raw_type	proceedings-article
locations[0].license_id
locations[0].is_accepted	True
locations[0].is_published	True
locations[0].raw_source_name	Interspeech 2024
locations[0].landing_page_url	https://doi.org/10.21437/interspeech.2024-958
locations[1].id	pmh:oai:arXiv.org:2408.12425
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license
locations[1].pdf_url	https://arxiv.org/pdf/2408.12425
locations[1].version	submittedVersion
locations[1].raw_type	text
locations[1].license_id
locations[1].is_accepted	False
locations[1].is_published	False
locations[1].raw_source_name
locations[1].landing_page_url	http://arxiv.org/abs/2408.12425
indexed_in	arxiv, crossref
authorships[0].author.id	https://openalex.org/A5011611391
authorships[0].author.orcid	https://orcid.org/0000-0002-0635-1480
authorships[0].author.display_name	Longbiao Cheng
authorships[0].author_position	first
authorships[0].raw_author_name	Longbiao Cheng
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5050492887
authorships[1].author.orcid	https://orcid.org/0000-0002-3352-7453
authorships[1].author.display_name	Ashutosh Pandey
authorships[1].author_position	middle
authorships[1].raw_author_name	Ashutosh Pandey
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5040562171
authorships[2].author.orcid	https://orcid.org/0000-0002-3027-7567
authorships[2].author.display_name	Buye Xu
authorships[2].author_position	middle
authorships[2].raw_author_name	Buye Xu
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5051651857
authorships[3].author.orcid	https://orcid.org/0000-0001-5479-1141
authorships[3].author.display_name	Tobi Delbrück
authorships[3].author_position	middle
authorships[3].raw_author_name	Tobi Delbruck
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5053821067
authorships[4].author.orcid	https://orcid.org/0000-0002-7557-045X
authorships[4].author.display_name	Shih‐Chii Liu
authorships[4].author_position	last
authorships[4].raw_author_name	Shih-Chii Liu
authorships[4].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2408.12425
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	Dynamic Gated Recurrent Neural Network for Compute-efficient Speech Enhancement
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T03:46:38.306776
primary_topic.id	https://openalex.org/T10860
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9998000264167786
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1711
primary_topic.subfield.display_name	Signal Processing
primary_topic.display_name	Speech and Audio Processing
related_works	https://openalex.org/W4225394202, https://openalex.org/W4298287631, https://openalex.org/W2953061907, https://openalex.org/W2022544890, https://openalex.org/W2394097730, https://openalex.org/W1847088711, https://openalex.org/W3036642985, https://openalex.org/W3032952384, https://openalex.org/W3017902212, https://openalex.org/W2964335273
cited_by_count	6
counts_by_year[0].year	2025
counts_by_year[0].cited_by_count	6
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2408.12425
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2408.12425
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2408.12425
primary_location.id	doi:10.21437/interspeech.2024-958
primary_location.is_oa	False
primary_location.source
primary_location.license
primary_location.pdf_url
primary_location.version	publishedVersion
primary_location.raw_type	proceedings-article
primary_location.license_id
primary_location.is_accepted	True
primary_location.is_published	True
primary_location.raw_source_name	Interspeech 2024
primary_location.landing_page_url	https://doi.org/10.21437/interspeech.2024-958
publication_date	2024-09-01
publication_year	2024
referenced_works_count	0
abstract_inverted_index.a	3, 33, 42, 67
abstract_inverted_index.As	66
abstract_inverted_index.It	19
abstract_inverted_index.an	120
abstract_inverted_index.at	38
abstract_inverted_index.be	62
abstract_inverted_index.by	40
abstract_inverted_index.in	124
abstract_inverted_index.of	25, 36, 57, 69
abstract_inverted_index.on	16
abstract_inverted_index.to	47, 61, 113
abstract_inverted_index.we	72
abstract_inverted_index.50%	122
abstract_inverted_index.GRU	116, 125
abstract_inverted_index.RNN	49, 60
abstract_inverted_index.and	30, 109
abstract_inverted_index.new	4
abstract_inverted_index.not	82
abstract_inverted_index.set	35
abstract_inverted_index.the	21, 48, 54, 58, 70, 96, 101, 114
abstract_inverted_index.Test	85
abstract_inverted_index.This	0, 51
abstract_inverted_index.Unit	78
abstract_inverted_index.cost	56
abstract_inverted_index.does	81
abstract_inverted_index.even	118
abstract_inverted_index.from	88
abstract_inverted_index.gate	46
abstract_inverted_index.only	32
abstract_inverted_index.over	28
abstract_inverted_index.show	99
abstract_inverted_index.slow	22
abstract_inverted_index.that	100
abstract_inverted_index.with	119
abstract_inverted_index.D-GRU	102
abstract_inverted_index.Gated	6, 76
abstract_inverted_index.based	103
abstract_inverted_index.model	104
abstract_inverted_index.newly	43
abstract_inverted_index.paper	1
abstract_inverted_index.using	95
abstract_inverted_index.which	80
abstract_inverted_index.Neural	8
abstract_inverted_index.adding	41
abstract_inverted_index.model.	50
abstract_inverted_index.models	14
abstract_inverted_index.select	45, 52
abstract_inverted_index.speech	12, 92
abstract_inverted_index.states	27
abstract_inverted_index.steps,	29
abstract_inverted_index.(D-GRU)	79
abstract_inverted_index.DG-RNN,	71
abstract_inverted_index.Dynamic	5
abstract_inverted_index.Network	9
abstract_inverted_index.average	121
abstract_inverted_index.further	73
abstract_inverted_index.metrics	111
abstract_inverted_index.neurons	37
abstract_inverted_index.propose	74
abstract_inverted_index.quality	110
abstract_inverted_index.reduced	63
abstract_inverted_index.require	83
abstract_inverted_index.results	86
abstract_inverted_index.running	15
abstract_inverted_index.several	89
abstract_inverted_index.updates	31
abstract_inverted_index.baseline	115
abstract_inverted_index.dataset,	98
abstract_inverted_index.maintain	106
abstract_inverted_index.obtained	87
abstract_inverted_index.proposed	44
abstract_inverted_index.selected	34
abstract_inverted_index.variants	105
abstract_inverted_index.RNN-based	91
abstract_inverted_index.Recurrent	7, 77
abstract_inverted_index.evolution	23
abstract_inverted_index.leverages	20
abstract_inverted_index.reduction	123
abstract_inverted_index.comparable	112
abstract_inverted_index.each\nstep	39
abstract_inverted_index.inference.	65
abstract_inverted_index.introduces	2
abstract_inverted_index.platforms.	18
abstract_inverted_index.RNN\nhidden	26
abstract_inverted_index.computation	55
abstract_inverted_index.computes.\n	126
abstract_inverted_index.enhancement	13, 93
abstract_inverted_index.realization	68
abstract_inverted_index.conventional	59
abstract_inverted_index.gate\nallows	53
abstract_inverted_index.the\nDynamic	75
abstract_inverted_index.(DG-RNN)\nfor	10
abstract_inverted_index.architectures	94
abstract_inverted_index.based\nmodels	117
abstract_inverted_index.DNS\nchallenge	97
abstract_inverted_index.characteristic	24
abstract_inverted_index.during\nnetwork	64
abstract_inverted_index.intelligibility	108
abstract_inverted_index.similar\nspeech	107
abstract_inverted_index.compute-efficient	11
abstract_inverted_index.additional\nparameters.	84
abstract_inverted_index.resource-constrained\nhardware	17
abstract_inverted_index.state-of-the-art\ncompute-efficient	90
cited_by_percentile_year.max	99
cited_by_percentile_year.min	98
countries_distinct_count	0
institutions_distinct_count	5
citation_normalized_percentile.value	0.92178014
citation_normalized_percentile.is_in_top_1_percent	False
citation_normalized_percentile.is_in_top_10_percent	True