AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment Article Swipe

PDF

Ruiqi Li , Rongjie Huang , Lichao Zhang , Jinglin Liu , Zhou Zhao ·

YOU? · · 2023 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2305.04476

The speech-to-singing (STS) voice conversion task aims to generate singing samples corresponding to speech recordings while facing a major challenge: the alignment between the target (singing) pitch contour and the source (speech) content is difficult to learn in a text-free situation. This paper proposes AlignSTS, an STS model based on explicit cross-modal alignment, which views speech variance such as pitch and content as different modalities. Inspired by the mechanism of how humans will sing the lyrics to the melody, AlignSTS: 1) adopts a novel rhythm adaptor to predict the target rhythm representation to bridge the modality gap between content and pitch, where the rhythm representation is computed in a simple yet effective way and is quantized into a discrete space; and 2) uses the predicted rhythm representation to re-align the content based on cross-attention and conducts a cross-modal fusion for re-synthesize. Extensive experiments show that AlignSTS achieves superior performance in terms of both objective and subjective metrics. Audio samples are available at https://alignsts.github.io.

Related Topics

Concepts

Computer science Singing Speech recognition Rhythm Representation (politics) Modal Lyrics Acoustics Political science Chemistry Law Politics Polymer chemistry Physics

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2305.04476
PDF: https://arxiv.org/pdf/2305.04476
OA Status: green
Related Works: 10
OpenAlex ID: https://openalex.org/W4376122405

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4376122405

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2305.04476

Digital Object Identifier
Title: AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2023

Year of publication
Publication date: 2023-05-08

Full publication date if available
Authors: Ruiqi Li, Rongjie Huang, Lichao Zhang, Jinglin Liu, Zhou Zhao

List of authors in order
Landing page: https://arxiv.org/abs/2305.04476

Publisher landing page
PDF URL: https://arxiv.org/pdf/2305.04476

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2305.04476

Direct OA link when available
Concepts: Computer science, Singing, Speech recognition, Rhythm, Representation (politics), Modal, Lyrics, Acoustics, Political science, Chemistry, Law, Politics, Polymer chemistry, Physics

Top concepts (fields/topics) attached by OpenAlex
Cited by: 0

Total citation count in OpenAlex
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4376122405
doi	https://doi.org/10.48550/arxiv.2305.04476
ids.doi	https://doi.org/10.48550/arxiv.2305.04476
ids.openalex	https://openalex.org/W4376122405
fwci
type	preprint
title	AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T10860
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9983000159263611
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1711
topics[0].subfield.display_name	Signal Processing
topics[0].display_name	Speech and Audio Processing
topics[1].id	https://openalex.org/T11309
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9922999739646912
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1711
topics[1].subfield.display_name	Signal Processing
topics[1].display_name	Music and Audio Processing
topics[2].id	https://openalex.org/T10201
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.9911999702453613
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1702
topics[2].subfield.display_name	Artificial Intelligence
topics[2].display_name	Speech Recognition and Synthesis
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C41008148
concepts[0].level	0
concepts[0].score	0.7437887191772461
concepts[0].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[0].display_name	Computer science
concepts[1].id	https://openalex.org/C44819458
concepts[1].level	2
concepts[1].score	0.724590003490448
concepts[1].wikidata	https://www.wikidata.org/wiki/Q27939
concepts[1].display_name	Singing
concepts[2].id	https://openalex.org/C28490314
concepts[2].level	1
concepts[2].score	0.6976752877235413
concepts[2].wikidata	https://www.wikidata.org/wiki/Q189436
concepts[2].display_name	Speech recognition
concepts[3].id	https://openalex.org/C135343436
concepts[3].level	2
concepts[3].score	0.6030333638191223
concepts[3].wikidata	https://www.wikidata.org/wiki/Q170406
concepts[3].display_name	Rhythm
concepts[4].id	https://openalex.org/C2776359362
concepts[4].level	3
concepts[4].score	0.5618041753768921
concepts[4].wikidata	https://www.wikidata.org/wiki/Q2145286
concepts[4].display_name	Representation (politics)
concepts[5].id	https://openalex.org/C71139939
concepts[5].level	2
concepts[5].score	0.5135464668273926
concepts[5].wikidata	https://www.wikidata.org/wiki/Q910194
concepts[5].display_name	Modal
concepts[6].id	https://openalex.org/C2776436406
concepts[6].level	2
concepts[6].score	0.457892507314682
concepts[6].wikidata	https://www.wikidata.org/wiki/Q602446
concepts[6].display_name	Lyrics
concepts[7].id	https://openalex.org/C24890656
concepts[7].level	1
concepts[7].score	0.16644597053527832
concepts[7].wikidata	https://www.wikidata.org/wiki/Q82811
concepts[7].display_name	Acoustics
concepts[8].id	https://openalex.org/C17744445
concepts[8].level	0
concepts[8].score	0.0
concepts[8].wikidata	https://www.wikidata.org/wiki/Q36442
concepts[8].display_name	Political science
concepts[9].id	https://openalex.org/C185592680
concepts[9].level	0
concepts[9].score	0.0
concepts[9].wikidata	https://www.wikidata.org/wiki/Q2329
concepts[9].display_name	Chemistry
concepts[10].id	https://openalex.org/C199539241
concepts[10].level	1
concepts[10].score	0.0
concepts[10].wikidata	https://www.wikidata.org/wiki/Q7748
concepts[10].display_name	Law
concepts[11].id	https://openalex.org/C94625758
concepts[11].level	2
concepts[11].score	0.0
concepts[11].wikidata	https://www.wikidata.org/wiki/Q7163
concepts[11].display_name	Politics
concepts[12].id	https://openalex.org/C188027245
concepts[12].level	1
concepts[12].score	0.0
concepts[12].wikidata	https://www.wikidata.org/wiki/Q750446
concepts[12].display_name	Polymer chemistry
concepts[13].id	https://openalex.org/C121332964
concepts[13].level	0
concepts[13].score	0.0
concepts[13].wikidata	https://www.wikidata.org/wiki/Q413
concepts[13].display_name	Physics
keywords[0].id	https://openalex.org/keywords/computer-science
keywords[0].score	0.7437887191772461
keywords[0].display_name	Computer science
keywords[1].id	https://openalex.org/keywords/singing
keywords[1].score	0.724590003490448
keywords[1].display_name	Singing
keywords[2].id	https://openalex.org/keywords/speech-recognition
keywords[2].score	0.6976752877235413
keywords[2].display_name	Speech recognition
keywords[3].id	https://openalex.org/keywords/rhythm
keywords[3].score	0.6030333638191223
keywords[3].display_name	Rhythm
keywords[4].id	https://openalex.org/keywords/representation
keywords[4].score	0.5618041753768921
keywords[4].display_name	Representation (politics)
keywords[5].id	https://openalex.org/keywords/modal
keywords[5].score	0.5135464668273926
keywords[5].display_name	Modal
keywords[6].id	https://openalex.org/keywords/lyrics
keywords[6].score	0.457892507314682
keywords[6].display_name	Lyrics
keywords[7].id	https://openalex.org/keywords/acoustics
keywords[7].score	0.16644597053527832
keywords[7].display_name	Acoustics
language	en
locations[0].id	pmh:oai:arXiv.org:2305.04476
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2305.04476
locations[0].version	submittedVersion
locations[0].raw_type
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2305.04476
locations[1].id	doi:10.48550/arxiv.2305.04476
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license	cc-by
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id	https://openalex.org/licenses/cc-by
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2305.04476
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5100345540
authorships[0].author.orcid	https://orcid.org/0000-0003-2414-0617
authorships[0].author.display_name	Ruiqi Li
authorships[0].author_position	first
authorships[0].raw_author_name	Li, Ruiqi
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5011787904
authorships[1].author.orcid	https://orcid.org/0000-0002-1695-9000
authorships[1].author.display_name	Rongjie Huang
authorships[1].author_position	middle
authorships[1].raw_author_name	Huang, Rongjie
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5100638146
authorships[2].author.orcid	https://orcid.org/0000-0001-7555-7020
authorships[2].author.display_name	Lichao Zhang
authorships[2].author_position	middle
authorships[2].raw_author_name	Zhang, Lichao
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5065126806
authorships[3].author.orcid	https://orcid.org/0000-0002-9905-3887
authorships[3].author.display_name	Jinglin Liu
authorships[3].author_position	middle
authorships[3].raw_author_name	Liu, Jinglin
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5079260216
authorships[4].author.orcid	https://orcid.org/0000-0001-6121-0384
authorships[4].author.display_name	Zhou Zhao
authorships[4].author_position	last
authorships[4].raw_author_name	Zhao, Zhou
authorships[4].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2305.04476
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T10860
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9983000159263611
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1711
primary_topic.subfield.display_name	Signal Processing
primary_topic.display_name	Speech and Audio Processing
related_works	https://openalex.org/W2360952181, https://openalex.org/W4310670065, https://openalex.org/W634160686, https://openalex.org/W2597614303, https://openalex.org/W3214861561, https://openalex.org/W2389838651, https://openalex.org/W437317580, https://openalex.org/W2352995288, https://openalex.org/W2378183644, https://openalex.org/W2287414930
cited_by_count	0
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2305.04476
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2305.04476
best_oa_location.version	submittedVersion
best_oa_location.raw_type
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2305.04476
primary_location.id	pmh:oai:arXiv.org:2305.04476
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2305.04476
primary_location.version	submittedVersion
primary_location.raw_type
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2305.04476
publication_date	2023-05-08
publication_year	2023
referenced_works_count	0
abstract_inverted_index.a	17, 38, 82, 108, 117, 136
abstract_inverted_index.1)	80
abstract_inverted_index.2)	121
abstract_inverted_index.an	45
abstract_inverted_index.as	58, 62
abstract_inverted_index.at	161
abstract_inverted_index.by	66
abstract_inverted_index.in	37, 107, 149
abstract_inverted_index.is	33, 105, 114
abstract_inverted_index.of	69, 151
abstract_inverted_index.on	49, 132
abstract_inverted_index.to	7, 12, 35, 76, 86, 92, 127
abstract_inverted_index.STS	46
abstract_inverted_index.The	0
abstract_inverted_index.and	28, 60, 99, 113, 120, 134, 154
abstract_inverted_index.are	159
abstract_inverted_index.for	139
abstract_inverted_index.gap	96
abstract_inverted_index.how	70
abstract_inverted_index.the	20, 23, 29, 67, 74, 77, 88, 94, 102, 123, 129
abstract_inverted_index.way	112
abstract_inverted_index.yet	110
abstract_inverted_index.This	41
abstract_inverted_index.aims	6
abstract_inverted_index.both	152
abstract_inverted_index.into	116
abstract_inverted_index.show	143
abstract_inverted_index.sing	73
abstract_inverted_index.such	57
abstract_inverted_index.task	5
abstract_inverted_index.that	144
abstract_inverted_index.uses	122
abstract_inverted_index.will	72
abstract_inverted_index.(STS)	2
abstract_inverted_index.Audio	157
abstract_inverted_index.based	48, 131
abstract_inverted_index.learn	36
abstract_inverted_index.major	18
abstract_inverted_index.model	47
abstract_inverted_index.novel	83
abstract_inverted_index.paper	42
abstract_inverted_index.pitch	26, 59
abstract_inverted_index.terms	150
abstract_inverted_index.views	54
abstract_inverted_index.voice	3
abstract_inverted_index.where	101
abstract_inverted_index.which	53
abstract_inverted_index.while	15
abstract_inverted_index.adopts	81
abstract_inverted_index.bridge	93
abstract_inverted_index.facing	16
abstract_inverted_index.fusion	138
abstract_inverted_index.humans	71
abstract_inverted_index.lyrics	75
abstract_inverted_index.pitch,	100
abstract_inverted_index.rhythm	84, 90, 103, 125
abstract_inverted_index.simple	109
abstract_inverted_index.source	30
abstract_inverted_index.space;	119
abstract_inverted_index.speech	13, 55
abstract_inverted_index.target	24, 89
abstract_inverted_index.adaptor	85
abstract_inverted_index.between	22, 97
abstract_inverted_index.content	32, 61, 98, 130
abstract_inverted_index.contour	27
abstract_inverted_index.melody,	78
abstract_inverted_index.predict	87
abstract_inverted_index.samples	10, 158
abstract_inverted_index.singing	9
abstract_inverted_index.(speech)	31
abstract_inverted_index.AlignSTS	145
abstract_inverted_index.Inspired	65
abstract_inverted_index.achieves	146
abstract_inverted_index.computed	106
abstract_inverted_index.conducts	135
abstract_inverted_index.discrete	118
abstract_inverted_index.explicit	50
abstract_inverted_index.generate	8
abstract_inverted_index.metrics.	156
abstract_inverted_index.modality	95
abstract_inverted_index.proposes	43
abstract_inverted_index.re-align	128
abstract_inverted_index.superior	147
abstract_inverted_index.variance	56
abstract_inverted_index.(singing)	25
abstract_inverted_index.AlignSTS,	44
abstract_inverted_index.AlignSTS:	79
abstract_inverted_index.Extensive	141
abstract_inverted_index.alignment	21
abstract_inverted_index.available	160
abstract_inverted_index.different	63
abstract_inverted_index.difficult	34
abstract_inverted_index.effective	111
abstract_inverted_index.mechanism	68
abstract_inverted_index.objective	153
abstract_inverted_index.predicted	124
abstract_inverted_index.quantized	115
abstract_inverted_index.text-free	39
abstract_inverted_index.alignment,	52
abstract_inverted_index.challenge:	19
abstract_inverted_index.conversion	4
abstract_inverted_index.recordings	14
abstract_inverted_index.situation.	40
abstract_inverted_index.subjective	155
abstract_inverted_index.cross-modal	51, 137
abstract_inverted_index.experiments	142
abstract_inverted_index.modalities.	64
abstract_inverted_index.performance	148
abstract_inverted_index.corresponding	11
abstract_inverted_index.re-synthesize.	140
abstract_inverted_index.representation	91, 104, 126
abstract_inverted_index.cross-attention	133
abstract_inverted_index.speech-to-singing	1
abstract_inverted_index.https://alignsts.github.io.	162
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	5
citation_normalized_percentile