Improving Mispronunciation Detection with Wav2vec2-based Momentum Pseudo-Labeling for Accentedness and Intelligibility Assessment Article Swipe

PDF

Yang Mu , Kevin Hirschi , Stephen D. Looney , Okim Kang , John H. L. Hansen ·

YOU? · · 2022 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2203.15937

Current leading mispronunciation detection and diagnosis (MDD) systems achieve promising performance via end-to-end phoneme recognition. One challenge of such end-to-end solutions is the scarcity of human-annotated phonemes on natural L2 speech. In this work, we leverage unlabeled L2 speech via a pseudo-labeling (PL) procedure and extend the fine-tuning approach based on pre-trained self-supervised learning (SSL) models. Specifically, we use Wav2vec 2.0 as our SSL model, and fine-tune it using original labeled L2 speech samples plus the created pseudo-labeled L2 speech samples. Our pseudo labels are dynamic and are produced by an ensemble of the online model on-the-fly, which ensures that our model is robust to pseudo label noise. We show that fine-tuning with pseudo labels achieves a 5.35% phoneme error rate reduction and 2.48% MDD F1 score improvement over a labeled-samples-only fine-tuning baseline. The proposed PL method is also shown to outperform conventional offline PL methods. Compared to the state-of-the-art MDD systems, our MDD solution produces a more accurate and consistent phonetic error diagnosis. In addition, we conduct an open test on a separate UTD-4Accents dataset, where our system recognition outputs show a strong correlation with human perception, based on accentedness and intelligibility.

Related Topics

Computer Science

Artificial Intelligence

Philosophy

Epistemology

Concepts

Speech recognition Computer science Intelligibility (philosophy) Leverage (statistics) Word error rate Artificial intelligence Philosophy Epistemology

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2203.15937
PDF: https://arxiv.org/pdf/2203.15937
OA Status: green
Cited By: 1
Related Works: 10
OpenAlex ID: https://openalex.org/W4226508289

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4226508289

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2203.15937

Digital Object Identifier
Title: Improving Mispronunciation Detection with Wav2vec2-based Momentum Pseudo-Labeling for Accentedness and Intelligibility Assessment

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2022

Year of publication
Publication date: 2022-03-29

Full publication date if available
Authors: Yang Mu, Kevin Hirschi, Stephen D. Looney, Okim Kang, John H. L. Hansen

List of authors in order
Landing page: https://arxiv.org/abs/2203.15937

Publisher landing page
PDF URL: https://arxiv.org/pdf/2203.15937

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2203.15937

Direct OA link when available
Concepts: Speech recognition, Computer science, Intelligibility (philosophy), Leverage (statistics), Word error rate, Artificial intelligence, Philosophy, Epistemology

Top concepts (fields/topics) attached by OpenAlex
Cited by: 1

Total citation count in OpenAlex
Citations by year (recent): 2024: 1

Per-year citation counts (last 5 years)
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4226508289
doi	https://doi.org/10.48550/arxiv.2203.15937
ids.doi	https://doi.org/10.48550/arxiv.2203.15937
ids.openalex	https://openalex.org/W4226508289
fwci
type	preprint
title	Improving Mispronunciation Detection with Wav2vec2-based Momentum Pseudo-Labeling for Accentedness and Intelligibility Assessment
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T10201
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9994999766349792
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1702
topics[0].subfield.display_name	Artificial Intelligence
topics[0].display_name	Speech Recognition and Synthesis
topics[1].id	https://openalex.org/T10860
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9940999746322632
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1711
topics[1].subfield.display_name	Signal Processing
topics[1].display_name	Speech and Audio Processing
topics[2].id	https://openalex.org/T12031
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.9829999804496765
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1702
topics[2].subfield.display_name	Artificial Intelligence
topics[2].display_name	Speech and dialogue systems
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C28490314
concepts[0].level	1
concepts[0].score	0.6783674955368042
concepts[0].wikidata	https://www.wikidata.org/wiki/Q189436
concepts[0].display_name	Speech recognition
concepts[1].id	https://openalex.org/C41008148
concepts[1].level	0
concepts[1].score	0.6550923585891724
concepts[1].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[1].display_name	Computer science
concepts[2].id	https://openalex.org/C60048801
concepts[2].level	2
concepts[2].score	0.5662012100219727
concepts[2].wikidata	https://www.wikidata.org/wiki/Q1433889
concepts[2].display_name	Intelligibility (philosophy)
concepts[3].id	https://openalex.org/C153083717
concepts[3].level	2
concepts[3].score	0.5442169308662415
concepts[3].wikidata	https://www.wikidata.org/wiki/Q6535263
concepts[3].display_name	Leverage (statistics)
concepts[4].id	https://openalex.org/C40969351
concepts[4].level	2
concepts[4].score	0.43119141459465027
concepts[4].wikidata	https://www.wikidata.org/wiki/Q3516228
concepts[4].display_name	Word error rate
concepts[5].id	https://openalex.org/C154945302
concepts[5].level	1
concepts[5].score	0.38576871156692505
concepts[5].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[5].display_name	Artificial intelligence
concepts[6].id	https://openalex.org/C138885662
concepts[6].level	0
concepts[6].score	0.0
concepts[6].wikidata	https://www.wikidata.org/wiki/Q5891
concepts[6].display_name	Philosophy
concepts[7].id	https://openalex.org/C111472728
concepts[7].level	1
concepts[7].score	0.0
concepts[7].wikidata	https://www.wikidata.org/wiki/Q9471
concepts[7].display_name	Epistemology
keywords[0].id	https://openalex.org/keywords/speech-recognition
keywords[0].score	0.6783674955368042
keywords[0].display_name	Speech recognition
keywords[1].id	https://openalex.org/keywords/computer-science
keywords[1].score	0.6550923585891724
keywords[1].display_name	Computer science
keywords[2].id	https://openalex.org/keywords/intelligibility
keywords[2].score	0.5662012100219727
keywords[2].display_name	Intelligibility (philosophy)
keywords[3].id	https://openalex.org/keywords/leverage
keywords[3].score	0.5442169308662415
keywords[3].display_name	Leverage (statistics)
keywords[4].id	https://openalex.org/keywords/word-error-rate
keywords[4].score	0.43119141459465027
keywords[4].display_name	Word error rate
keywords[5].id	https://openalex.org/keywords/artificial-intelligence
keywords[5].score	0.38576871156692505
keywords[5].display_name	Artificial intelligence
language	en
locations[0].id	pmh:oai:arXiv.org:2203.15937
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license	public-domain
locations[0].pdf_url	https://arxiv.org/pdf/2203.15937
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id	https://openalex.org/licenses/public-domain
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2203.15937
locations[1].id	doi:10.48550/arxiv.2203.15937
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2203.15937
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5100542450
authorships[0].author.orcid
authorships[0].author.display_name	Yang Mu
authorships[0].author_position	first
authorships[0].raw_author_name	Yang, Mu
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5050069117
authorships[1].author.orcid	https://orcid.org/0000-0002-0838-3494
authorships[1].author.display_name	Kevin Hirschi
authorships[1].author_position	middle
authorships[1].raw_author_name	Hirschi, Kevin
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5042537011
authorships[2].author.orcid
authorships[2].author.display_name	Stephen D. Looney
authorships[2].author_position	middle
authorships[2].raw_author_name	Looney, Stephen D.
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5019197893
authorships[3].author.orcid	https://orcid.org/0000-0002-7721-5283
authorships[3].author.display_name	Okim Kang
authorships[3].author_position	middle
authorships[3].raw_author_name	Kang, Okim
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5057910370
authorships[4].author.orcid	https://orcid.org/0000-0003-1382-9929
authorships[4].author.display_name	John H. L. Hansen
authorships[4].author_position	last
authorships[4].raw_author_name	Hansen, John H. L.
authorships[4].is_corresponding	False
has_content.pdf	True
has_content.grobid_xml	True
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2203.15937
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2022-05-05T00:00:00
display_name	Improving Mispronunciation Detection with Wav2vec2-based Momentum Pseudo-Labeling for Accentedness and Intelligibility Assessment
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T10201
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9994999766349792
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1702
primary_topic.subfield.display_name	Artificial Intelligence
primary_topic.display_name	Speech Recognition and Synthesis
related_works	https://openalex.org/W2127461790, https://openalex.org/W2069324367, https://openalex.org/W2309273277, https://openalex.org/W1769849273, https://openalex.org/W2061937230, https://openalex.org/W1574295218, https://openalex.org/W113247760, https://openalex.org/W2547793174, https://openalex.org/W2132885390, https://openalex.org/W2070212102
cited_by_count	1
counts_by_year[0].year	2024
counts_by_year[0].cited_by_count	1
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2203.15937
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license	public-domain
best_oa_location.pdf_url	https://arxiv.org/pdf/2203.15937
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id	https://openalex.org/licenses/public-domain
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2203.15937
primary_location.id	pmh:oai:arXiv.org:2203.15937
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license	public-domain
primary_location.pdf_url	https://arxiv.org/pdf/2203.15937
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id	https://openalex.org/licenses/public-domain
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2203.15937
publication_date	2022-03-29
publication_year	2022
referenced_works_count	0
abstract_inverted_index.a	40, 116, 129, 156, 172, 182
abstract_inverted_index.F1	125
abstract_inverted_index.In	31, 164
abstract_inverted_index.L2	29, 37, 71, 78
abstract_inverted_index.PL	135, 144
abstract_inverted_index.We	108
abstract_inverted_index.an	90, 168
abstract_inverted_index.as	61
abstract_inverted_index.by	89
abstract_inverted_index.is	21, 102, 137
abstract_inverted_index.it	67
abstract_inverted_index.of	17, 24, 92
abstract_inverted_index.on	27, 50, 171, 189
abstract_inverted_index.to	104, 140, 147
abstract_inverted_index.we	34, 57, 166
abstract_inverted_index.2.0	60
abstract_inverted_index.MDD	124, 150, 153
abstract_inverted_index.One	15
abstract_inverted_index.Our	81
abstract_inverted_index.SSL	63
abstract_inverted_index.The	133
abstract_inverted_index.and	4, 44, 65, 86, 122, 159, 191
abstract_inverted_index.are	84, 87
abstract_inverted_index.our	62, 100, 152, 177
abstract_inverted_index.the	22, 46, 75, 93, 148
abstract_inverted_index.use	58
abstract_inverted_index.via	11, 39
abstract_inverted_index.(PL)	42
abstract_inverted_index.also	138
abstract_inverted_index.more	157
abstract_inverted_index.open	169
abstract_inverted_index.over	128
abstract_inverted_index.plus	74
abstract_inverted_index.rate	120
abstract_inverted_index.show	109, 181
abstract_inverted_index.such	18
abstract_inverted_index.test	170
abstract_inverted_index.that	99, 110
abstract_inverted_index.this	32
abstract_inverted_index.with	112, 185
abstract_inverted_index.(MDD)	6
abstract_inverted_index.(SSL)	54
abstract_inverted_index.2.48%	123
abstract_inverted_index.5.35%	117
abstract_inverted_index.based	49, 188
abstract_inverted_index.error	119, 162
abstract_inverted_index.human	186
abstract_inverted_index.label	106
abstract_inverted_index.model	95, 101
abstract_inverted_index.score	126
abstract_inverted_index.shown	139
abstract_inverted_index.using	68
abstract_inverted_index.where	176
abstract_inverted_index.which	97
abstract_inverted_index.work,	33
abstract_inverted_index.extend	45
abstract_inverted_index.labels	83, 114
abstract_inverted_index.method	136
abstract_inverted_index.model,	64
abstract_inverted_index.noise.	107
abstract_inverted_index.online	94
abstract_inverted_index.pseudo	82, 105, 113
abstract_inverted_index.robust	103
abstract_inverted_index.speech	38, 72, 79
abstract_inverted_index.strong	183
abstract_inverted_index.system	178
abstract_inverted_index.Current	0
abstract_inverted_index.Wav2vec	59
abstract_inverted_index.achieve	8
abstract_inverted_index.conduct	167
abstract_inverted_index.created	76
abstract_inverted_index.dynamic	85
abstract_inverted_index.ensures	98
abstract_inverted_index.labeled	70
abstract_inverted_index.leading	1
abstract_inverted_index.models.	55
abstract_inverted_index.natural	28
abstract_inverted_index.offline	143
abstract_inverted_index.outputs	180
abstract_inverted_index.phoneme	13, 118
abstract_inverted_index.samples	73
abstract_inverted_index.speech.	30
abstract_inverted_index.systems	7
abstract_inverted_index.Compared	146
abstract_inverted_index.accurate	158
abstract_inverted_index.achieves	115
abstract_inverted_index.approach	48
abstract_inverted_index.dataset,	175
abstract_inverted_index.ensemble	91
abstract_inverted_index.learning	53
abstract_inverted_index.leverage	35
abstract_inverted_index.methods.	145
abstract_inverted_index.original	69
abstract_inverted_index.phonemes	26
abstract_inverted_index.phonetic	161
abstract_inverted_index.produced	88
abstract_inverted_index.produces	155
abstract_inverted_index.proposed	134
abstract_inverted_index.samples.	80
abstract_inverted_index.scarcity	23
abstract_inverted_index.separate	173
abstract_inverted_index.solution	154
abstract_inverted_index.systems,	151
abstract_inverted_index.addition,	165
abstract_inverted_index.baseline.	132
abstract_inverted_index.challenge	16
abstract_inverted_index.detection	3
abstract_inverted_index.diagnosis	5
abstract_inverted_index.fine-tune	66
abstract_inverted_index.procedure	43
abstract_inverted_index.promising	9
abstract_inverted_index.reduction	121
abstract_inverted_index.solutions	20
abstract_inverted_index.unlabeled	36
abstract_inverted_index.consistent	160
abstract_inverted_index.diagnosis.	163
abstract_inverted_index.end-to-end	12, 19
abstract_inverted_index.outperform	141
abstract_inverted_index.correlation	184
abstract_inverted_index.fine-tuning	47, 111, 131
abstract_inverted_index.improvement	127
abstract_inverted_index.on-the-fly,	96
abstract_inverted_index.perception,	187
abstract_inverted_index.performance	10
abstract_inverted_index.pre-trained	51
abstract_inverted_index.recognition	179
abstract_inverted_index.UTD-4Accents	174
abstract_inverted_index.accentedness	190
abstract_inverted_index.conventional	142
abstract_inverted_index.recognition.	14
abstract_inverted_index.Specifically,	56
abstract_inverted_index.pseudo-labeled	77
abstract_inverted_index.human-annotated	25
abstract_inverted_index.pseudo-labeling	41
abstract_inverted_index.self-supervised	52
abstract_inverted_index.intelligibility.	192
abstract_inverted_index.mispronunciation	2
abstract_inverted_index.state-of-the-art	149
abstract_inverted_index.labeled-samples-only	130
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	5
sustainable_development_goals[0].id	https://metadata.un.org/sdg/4
sustainable_development_goals[0].score	0.5
sustainable_development_goals[0].display_name	Quality Education
citation_normalized_percentile