CRG-MGAN: A Speech Enhancement Algorithm Based on GAN Article Swipe

PDF

Wenzhuo Zhang , Ling Yu , Fanglin Niu , Xiaozhen Li ·

YOU? · · 2024 · Open Access · · DOI: https://doi.org/10.21203/rs.3.rs-4698673/v1

Transformer can be effectively applied to speech enhancement tasks based on Generative Adversarial Network (GAN). However, it still remains challenging to extract temporal dependencies within the signal sequence features as well as to improve training stability. To address these issues, a new light-weight network is proposed for speech enhancement in the time-frequency domain named CRG-MGAN. It is a type of MetricGAN based on convolution and recurrent-augmented spatially gated attention. In the generator of the CRG-MGAN, Convolutional Recurrently Enhanced Gated Attention Unit (CRGU) is used for feature extraction, which is an improved Transformer structure. The CRGU can effectively extract more complete feature information of speech, focus on the temporal dependencies within the signal sequence, reduce the loss of feature information, and reduce the computational complexity of the Transformer. In the decoding stage, the mask decoder structure is improved by using a two-branch activation function structure instead of a single activation function, which prevents gradient explosion and effectively outputs the magnitude information, thus improving the stability of the training process. We conduct extensive experiments with the Voice Bank + Demand datasets. Objective test results show that the performance of the proposed system is highly competitive with existing systems. Specifically, the CRG-MGAN model achieves a PESQ score of 3.48, STOI of 0.96, and SSNR of 11.14dB, with a relatively small model size of 1.67M.

Related Topics

Thomas Pesquet

Computer Science

Transformer

Artificial Intelligence

Algorithm

Voltage

Engineering

Electrical Engineering

Concepts

PESQ Computer science Transformer Speech recognition Decoding methods Artificial intelligence Algorithm Pattern recognition (psychology) Speech enhancement Voltage Engineering Noise reduction Electrical engineering

Metadata

Type: preprint
Language: en
Landing Page: https://doi.org/10.21203/rs.3.rs-4698673/v1
PDF: https://www.researchsquare.com/article/rs-4698673/latest.pdf
OA Status: gold
References: 6
Related Works: 10
OpenAlex ID: https://openalex.org/W4401278435

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4401278435

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.21203/rs.3.rs-4698673/v1

Digital Object Identifier
Title: CRG-MGAN: A Speech Enhancement Algorithm Based on GAN

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2024

Year of publication
Publication date: 2024-08-02

Full publication date if available
Authors: Wenzhuo Zhang, Ling Yu, Fanglin Niu, Xiaozhen Li

List of authors in order
Landing page: https://doi.org/10.21203/rs.3.rs-4698673/v1

Publisher landing page
PDF URL: https://www.researchsquare.com/article/rs-4698673/latest.pdf

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: gold

Open access status per OpenAlex
OA URL: https://www.researchsquare.com/article/rs-4698673/latest.pdf

Direct OA link when available
Concepts: PESQ, Computer science, Transformer, Speech recognition, Decoding methods, Artificial intelligence, Algorithm, Pattern recognition (psychology), Speech enhancement, Voltage, Engineering, Noise reduction, Electrical engineering

Top concepts (fields/topics) attached by OpenAlex
Cited by: 0

Total citation count in OpenAlex
References (count): 6

Number of works referenced by this work
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4401278435
doi	https://doi.org/10.21203/rs.3.rs-4698673/v1
ids.doi	https://doi.org/10.21203/rs.3.rs-4698673/v1
ids.openalex	https://openalex.org/W4401278435
fwci	0.0
type	preprint
title	CRG-MGAN: A Speech Enhancement Algorithm Based on GAN
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T10860
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	1.0
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1711
topics[0].subfield.display_name	Signal Processing
topics[0].display_name	Speech and Audio Processing
topics[1].id	https://openalex.org/T10201
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9944000244140625
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1702
topics[1].subfield.display_name	Artificial Intelligence
topics[1].display_name	Speech Recognition and Synthesis
topics[2].id	https://openalex.org/T11233
topics[2].field.id	https://openalex.org/fields/22
topics[2].field.display_name	Engineering
topics[2].score	0.9940999746322632
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/2206
topics[2].subfield.display_name	Computational Mechanics
topics[2].display_name	Advanced Adaptive Filtering Techniques
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C103734657
concepts[0].level	4
concepts[0].score	0.862610936164856
concepts[0].wikidata	https://www.wikidata.org/wiki/Q2739975
concepts[0].display_name	PESQ
concepts[1].id	https://openalex.org/C41008148
concepts[1].level	0
concepts[1].score	0.7140290141105652
concepts[1].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[1].display_name	Computer science
concepts[2].id	https://openalex.org/C66322947
concepts[2].level	3
concepts[2].score	0.6487784385681152
concepts[2].wikidata	https://www.wikidata.org/wiki/Q11658
concepts[2].display_name	Transformer
concepts[3].id	https://openalex.org/C28490314
concepts[3].level	1
concepts[3].score	0.49477070569992065
concepts[3].wikidata	https://www.wikidata.org/wiki/Q189436
concepts[3].display_name	Speech recognition
concepts[4].id	https://openalex.org/C57273362
concepts[4].level	2
concepts[4].score	0.42888569831848145
concepts[4].wikidata	https://www.wikidata.org/wiki/Q576722
concepts[4].display_name	Decoding methods
concepts[5].id	https://openalex.org/C154945302
concepts[5].level	1
concepts[5].score	0.4025595486164093
concepts[5].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[5].display_name	Artificial intelligence
concepts[6].id	https://openalex.org/C11413529
concepts[6].level	1
concepts[6].score	0.40005654096603394
concepts[6].wikidata	https://www.wikidata.org/wiki/Q8366
concepts[6].display_name	Algorithm
concepts[7].id	https://openalex.org/C153180895
concepts[7].level	2
concepts[7].score	0.3566659092903137
concepts[7].wikidata	https://www.wikidata.org/wiki/Q7148389
concepts[7].display_name	Pattern recognition (psychology)
concepts[8].id	https://openalex.org/C2776182073
concepts[8].level	3
concepts[8].score	0.34587040543556213
concepts[8].wikidata	https://www.wikidata.org/wiki/Q7575395
concepts[8].display_name	Speech enhancement
concepts[9].id	https://openalex.org/C165801399
concepts[9].level	2
concepts[9].score	0.16298916935920715
concepts[9].wikidata	https://www.wikidata.org/wiki/Q25428
concepts[9].display_name	Voltage
concepts[10].id	https://openalex.org/C127413603
concepts[10].level	0
concepts[10].score	0.09399488568305969
concepts[10].wikidata	https://www.wikidata.org/wiki/Q11023
concepts[10].display_name	Engineering
concepts[11].id	https://openalex.org/C163294075
concepts[11].level	2
concepts[11].score	0.07605639100074768
concepts[11].wikidata	https://www.wikidata.org/wiki/Q581861
concepts[11].display_name	Noise reduction
concepts[12].id	https://openalex.org/C119599485
concepts[12].level	1
concepts[12].score	0.0
concepts[12].wikidata	https://www.wikidata.org/wiki/Q43035
concepts[12].display_name	Electrical engineering
keywords[0].id	https://openalex.org/keywords/pesq
keywords[0].score	0.862610936164856
keywords[0].display_name	PESQ
keywords[1].id	https://openalex.org/keywords/computer-science
keywords[1].score	0.7140290141105652
keywords[1].display_name	Computer science
keywords[2].id	https://openalex.org/keywords/transformer
keywords[2].score	0.6487784385681152
keywords[2].display_name	Transformer
keywords[3].id	https://openalex.org/keywords/speech-recognition
keywords[3].score	0.49477070569992065
keywords[3].display_name	Speech recognition
keywords[4].id	https://openalex.org/keywords/decoding-methods
keywords[4].score	0.42888569831848145
keywords[4].display_name	Decoding methods
keywords[5].id	https://openalex.org/keywords/artificial-intelligence
keywords[5].score	0.4025595486164093
keywords[5].display_name	Artificial intelligence
keywords[6].id	https://openalex.org/keywords/algorithm
keywords[6].score	0.40005654096603394
keywords[6].display_name	Algorithm
keywords[7].id	https://openalex.org/keywords/pattern-recognition
keywords[7].score	0.3566659092903137
keywords[7].display_name	Pattern recognition (psychology)
keywords[8].id	https://openalex.org/keywords/speech-enhancement
keywords[8].score	0.34587040543556213
keywords[8].display_name	Speech enhancement
keywords[9].id	https://openalex.org/keywords/voltage
keywords[9].score	0.16298916935920715
keywords[9].display_name	Voltage
keywords[10].id	https://openalex.org/keywords/engineering
keywords[10].score	0.09399488568305969
keywords[10].display_name	Engineering
keywords[11].id	https://openalex.org/keywords/noise-reduction
keywords[11].score	0.07605639100074768
keywords[11].display_name	Noise reduction
language	en
locations[0].id	doi:10.21203/rs.3.rs-4698673/v1
locations[0].is_oa	True
locations[0].source
locations[0].license	cc-by
locations[0].pdf_url	https://www.researchsquare.com/article/rs-4698673/latest.pdf
locations[0].version	acceptedVersion
locations[0].raw_type	posted-content
locations[0].license_id	https://openalex.org/licenses/cc-by
locations[0].is_accepted	True
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	https://doi.org/10.21203/rs.3.rs-4698673/v1
indexed_in	crossref
authorships[0].author.id	https://openalex.org/A5101962504
authorships[0].author.orcid	https://orcid.org/0000-0002-9978-0662
authorships[0].author.display_name	Wenzhuo Zhang
authorships[0].countries	CN
authorships[0].affiliations[0].institution_ids	https://openalex.org/I2898894
authorships[0].affiliations[0].raw_affiliation_string	Liaoning University of Technology
authorships[0].institutions[0].id	https://openalex.org/I2898894
authorships[0].institutions[0].ror	https://ror.org/05ay23762
authorships[0].institutions[0].type	education
authorships[0].institutions[0].lineage	https://openalex.org/I2898894
authorships[0].institutions[0].country_code	CN
authorships[0].institutions[0].display_name	Liaoning University of Technology
authorships[0].author_position	first
authorships[0].raw_author_name	Wenzhuo Zhang
authorships[0].is_corresponding	False
authorships[0].raw_affiliation_strings	Liaoning University of Technology
authorships[1].author.id	https://openalex.org/A5100569746
authorships[1].author.orcid	https://orcid.org/0000-0002-6236-2117
authorships[1].author.display_name	Ling Yu
authorships[1].countries	CN
authorships[1].affiliations[0].institution_ids	https://openalex.org/I2898894
authorships[1].affiliations[0].raw_affiliation_string	Liaoning University of Technology
authorships[1].institutions[0].id	https://openalex.org/I2898894
authorships[1].institutions[0].ror	https://ror.org/05ay23762
authorships[1].institutions[0].type	education
authorships[1].institutions[0].lineage	https://openalex.org/I2898894
authorships[1].institutions[0].country_code	CN
authorships[1].institutions[0].display_name	Liaoning University of Technology
authorships[1].author_position	middle
authorships[1].raw_author_name	Ling Yu
authorships[1].is_corresponding	False
authorships[1].raw_affiliation_strings	Liaoning University of Technology
authorships[2].author.id	https://openalex.org/A5021764241
authorships[2].author.orcid	https://orcid.org/0000-0001-9395-3529
authorships[2].author.display_name	Fanglin Niu
authorships[2].countries	CN
authorships[2].affiliations[0].institution_ids	https://openalex.org/I2898894
authorships[2].affiliations[0].raw_affiliation_string	School of Electronics and Information Engineering, Liaoning University of Technology, Jinzhou 121001, China.
authorships[2].institutions[0].id	https://openalex.org/I2898894
authorships[2].institutions[0].ror	https://ror.org/05ay23762
authorships[2].institutions[0].type	education
authorships[2].institutions[0].lineage	https://openalex.org/I2898894
authorships[2].institutions[0].country_code	CN
authorships[2].institutions[0].display_name	Liaoning University of Technology
authorships[2].author_position	middle
authorships[2].raw_author_name	Fanglin Niu
authorships[2].is_corresponding	False
authorships[2].raw_affiliation_strings	School of Electronics and Information Engineering, Liaoning University of Technology, Jinzhou 121001, China.
authorships[3].author.id	https://openalex.org/A5100348450
authorships[3].author.orcid	https://orcid.org/0000-0002-9683-6341
authorships[3].author.display_name	Xiaozhen Li
authorships[3].countries	CN
authorships[3].affiliations[0].institution_ids	https://openalex.org/I2898894
authorships[3].affiliations[0].raw_affiliation_string	School of Electronics and Information Engineering, Liaoning University of Technology, Jinzhou 121001, China.
authorships[3].institutions[0].id	https://openalex.org/I2898894
authorships[3].institutions[0].ror	https://ror.org/05ay23762
authorships[3].institutions[0].type	education
authorships[3].institutions[0].lineage	https://openalex.org/I2898894
authorships[3].institutions[0].country_code	CN
authorships[3].institutions[0].display_name	Liaoning University of Technology
authorships[3].author_position	last
authorships[3].raw_author_name	Xiaozhen Li
authorships[3].is_corresponding	False
authorships[3].raw_affiliation_strings	School of Electronics and Information Engineering, Liaoning University of Technology, Jinzhou 121001, China.
has_content.pdf	True
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://www.researchsquare.com/article/rs-4698673/latest.pdf
open_access.oa_status	gold
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	CRG-MGAN: A Speech Enhancement Algorithm Based on GAN
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T03:46:38.306776
primary_topic.id	https://openalex.org/T10860
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	1.0
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1711
primary_topic.subfield.display_name	Signal Processing
primary_topic.display_name	Speech and Audio Processing
related_works	https://openalex.org/W2058482658, https://openalex.org/W3016109656, https://openalex.org/W3135613579, https://openalex.org/W1973895194, https://openalex.org/W4388016426, https://openalex.org/W1980687383, https://openalex.org/W4386746628, https://openalex.org/W2546593254, https://openalex.org/W2166831097, https://openalex.org/W3209446892
cited_by_count	0
locations_count	1
best_oa_location.id	doi:10.21203/rs.3.rs-4698673/v1
best_oa_location.is_oa	True
best_oa_location.source
best_oa_location.license	cc-by
best_oa_location.pdf_url	https://www.researchsquare.com/article/rs-4698673/latest.pdf
best_oa_location.version	acceptedVersion
best_oa_location.raw_type	posted-content
best_oa_location.license_id	https://openalex.org/licenses/cc-by
best_oa_location.is_accepted	True
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	https://doi.org/10.21203/rs.3.rs-4698673/v1
primary_location.id	doi:10.21203/rs.3.rs-4698673/v1
primary_location.is_oa	True
primary_location.source
primary_location.license	cc-by
primary_location.pdf_url	https://www.researchsquare.com/article/rs-4698673/latest.pdf
primary_location.version	acceptedVersion
primary_location.raw_type	posted-content
primary_location.license_id	https://openalex.org/licenses/cc-by
primary_location.is_accepted	True
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	https://doi.org/10.21203/rs.3.rs-4698673/v1
publication_date	2024-08-02
publication_year	2024
referenced_works	https://openalex.org/W6602820859, https://openalex.org/W160800111, https://openalex.org/W4319862255, https://openalex.org/W6601048975, https://openalex.org/W6600850999, https://openalex.org/W4221145205
referenced_works_count	6
abstract_inverted_index.+	177
abstract_inverted_index.a	41, 58, 140, 147, 202, 215
abstract_inverted_index.In	70, 128
abstract_inverted_index.It	56
abstract_inverted_index.To	37
abstract_inverted_index.We	169
abstract_inverted_index.an	90
abstract_inverted_index.as	30, 32
abstract_inverted_index.be	3
abstract_inverted_index.by	138
abstract_inverted_index.in	50
abstract_inverted_index.is	45, 57, 83, 89, 136, 191
abstract_inverted_index.it	17
abstract_inverted_index.of	60, 73, 103, 117, 125, 146, 165, 187, 205, 208, 212, 220
abstract_inverted_index.on	11, 63, 106
abstract_inverted_index.to	6, 21, 33
abstract_inverted_index.The	94
abstract_inverted_index.and	65, 120, 155, 210
abstract_inverted_index.can	2, 96
abstract_inverted_index.for	47, 85
abstract_inverted_index.new	42
abstract_inverted_index.the	26, 51, 71, 74, 107, 111, 115, 122, 126, 129, 132, 158, 163, 166, 174, 185, 188, 198
abstract_inverted_index.Bank	176
abstract_inverted_index.CRGU	95
abstract_inverted_index.PESQ	203
abstract_inverted_index.SSNR	211
abstract_inverted_index.STOI	207
abstract_inverted_index.Unit	81
abstract_inverted_index.loss	116
abstract_inverted_index.mask	133
abstract_inverted_index.more	99
abstract_inverted_index.show	183
abstract_inverted_index.size	219
abstract_inverted_index.test	181
abstract_inverted_index.that	184
abstract_inverted_index.thus	161
abstract_inverted_index.type	59
abstract_inverted_index.used	84
abstract_inverted_index.well	31
abstract_inverted_index.with	173, 194, 214
abstract_inverted_index.0.96,	209
abstract_inverted_index.3.48,	206
abstract_inverted_index.Gated	79
abstract_inverted_index.Voice	175
abstract_inverted_index.based	10, 62
abstract_inverted_index.focus	105
abstract_inverted_index.gated	68
abstract_inverted_index.model	200, 218
abstract_inverted_index.named	54
abstract_inverted_index.score	204
abstract_inverted_index.small	217
abstract_inverted_index.still	18
abstract_inverted_index.tasks	9
abstract_inverted_index.these	39
abstract_inverted_index.using	139
abstract_inverted_index.which	88, 151
abstract_inverted_index.(CRGU)	82
abstract_inverted_index.(GAN).	15
abstract_inverted_index.1.67M.	221
abstract_inverted_index.Demand	178
abstract_inverted_index.domain	53
abstract_inverted_index.highly	192
abstract_inverted_index.reduce	114, 121
abstract_inverted_index.signal	27, 112
abstract_inverted_index.single	148
abstract_inverted_index.speech	7, 48
abstract_inverted_index.stage,	131
abstract_inverted_index.system	190
abstract_inverted_index.within	25, 110
abstract_inverted_index.Network	14
abstract_inverted_index.address	38
abstract_inverted_index.applied	5
abstract_inverted_index.conduct	170
abstract_inverted_index.decoder	134
abstract_inverted_index.extract	22, 98
abstract_inverted_index.feature	86, 101, 118
abstract_inverted_index.improve	34
abstract_inverted_index.instead	145
abstract_inverted_index.issues,	40
abstract_inverted_index.network	44
abstract_inverted_index.outputs	157
abstract_inverted_index.remains	19
abstract_inverted_index.results	182
abstract_inverted_index.speech,	104
abstract_inverted_index.11.14dB,	213
abstract_inverted_index.CRG-MGAN	199
abstract_inverted_index.Enhanced	78
abstract_inverted_index.However,	16
abstract_inverted_index.achieves	201
abstract_inverted_index.complete	100
abstract_inverted_index.decoding	130
abstract_inverted_index.existing	195
abstract_inverted_index.features	29
abstract_inverted_index.function	143
abstract_inverted_index.gradient	153
abstract_inverted_index.improved	91, 137
abstract_inverted_index.prevents	152
abstract_inverted_index.process.	168
abstract_inverted_index.proposed	46, 189
abstract_inverted_index.sequence	28
abstract_inverted_index.systems.	196
abstract_inverted_index.temporal	23, 108
abstract_inverted_index.training	35, 167
abstract_inverted_index.Attention	80
abstract_inverted_index.CRG-MGAN,	75
abstract_inverted_index.CRG-MGAN.	55
abstract_inverted_index.MetricGAN	61
abstract_inverted_index.Objective	180
abstract_inverted_index.datasets.	179
abstract_inverted_index.explosion	154
abstract_inverted_index.extensive	171
abstract_inverted_index.function,	150
abstract_inverted_index.generator	72
abstract_inverted_index.improving	162
abstract_inverted_index.magnitude	159
abstract_inverted_index.sequence,	113
abstract_inverted_index.spatially	67
abstract_inverted_index.stability	164
abstract_inverted_index.structure	135, 144
abstract_inverted_index.Generative	12
abstract_inverted_index.activation	142, 149
abstract_inverted_index.attention.	69
abstract_inverted_index.complexity	124
abstract_inverted_index.relatively	216
abstract_inverted_index.stability.	36
abstract_inverted_index.structure.	93
abstract_inverted_index.two-branch	141
abstract_inverted_index.Adversarial	13
abstract_inverted_index.Recurrently	77
abstract_inverted_index.Transformer	1, 92
abstract_inverted_index.challenging	20
abstract_inverted_index.competitive	193
abstract_inverted_index.convolution	64
abstract_inverted_index.effectively	4, 97, 156
abstract_inverted_index.enhancement	8, 49
abstract_inverted_index.experiments	172
abstract_inverted_index.extraction,	87
abstract_inverted_index.information	102
abstract_inverted_index.performance	186
abstract_inverted_index.Transformer.	127
abstract_inverted_index.dependencies	24, 109
abstract_inverted_index.information,	119, 160
abstract_inverted_index.light-weight	43
abstract_inverted_index.Convolutional	76
abstract_inverted_index.Specifically,	197
abstract_inverted_index.computational	123
abstract_inverted_index.time-frequency	52
abstract_inverted_index.recurrent-augmented	66
abstract_inverted_index.<title>Abstract</title>	0
cited_by_percentile_year
countries_distinct_count	1
institutions_distinct_count	4
citation_normalized_percentile.value	0.1596508
citation_normalized_percentile.is_in_top_1_percent	False
citation_normalized_percentile.is_in_top_10_percent	False