Stochastic Talking Face Generation Using Latent Distribution Matching Article Swipe

PDF

Ravindra Yadav , Ashish Sardana , Vinay P. Namboodiri , Rajesh M. Hegde ·

YOU? · · 2020 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2011.10727

The ability to envisage the visual of a talking face based just on hearing a voice is a unique human capability. There have been a number of works that have solved for this ability recently. We differ from these approaches by enabling a variety of talking face generations based on single audio input. Indeed, just having the ability to generate a single talking face would make a system almost robotic in nature. In contrast, our unsupervised stochastic audio-to-video generation model allows for diverse generations from a single audio input. Particularly, we present an unsupervised stochastic audio-to-video generation model that can capture multiple modes of the video distribution. We ensure that all the diverse generations are plausible. We do so through a principled multi-modal variational autoencoder framework. We demonstrate its efficacy on the challenging LRW and GRID datasets and demonstrate performance better than the baseline, while having the ability to generate multiple diverse lip synchronized videos.

Related Topics

Autoencoder

Computer Science

Artificial Intelligence

Concepts

Autoencoder Computer science Face (sociological concept) Variety (cybernetics) Matching (statistics) Artificial intelligence Speech recognition Machine learning Deep learning Mathematics Social science Statistics Sociology

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2011.10727
PDF: https://arxiv.org/pdf/2011.10727
OA Status: green
References: 16
Related Works: 20
OpenAlex ID: https://openalex.org/W3107511552

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W3107511552

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2011.10727

Digital Object Identifier
Title: Stochastic Talking Face Generation Using Latent Distribution Matching

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2020

Year of publication
Publication date: 2020-11-21

Full publication date if available
Authors: Ravindra Yadav, Ashish Sardana, Vinay P. Namboodiri, Rajesh M. Hegde

List of authors in order
Landing page: https://arxiv.org/abs/2011.10727

Publisher landing page
PDF URL: https://arxiv.org/pdf/2011.10727

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2011.10727

Direct OA link when available
Concepts: Autoencoder, Computer science, Face (sociological concept), Variety (cybernetics), Matching (statistics), Artificial intelligence, Speech recognition, Machine learning, Deep learning, Mathematics, Social science, Statistics, Sociology

Top concepts (fields/topics) attached by OpenAlex
Cited by: 0

Total citation count in OpenAlex
References (count): 16

Number of works referenced by this work
Related works (count): 20

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W3107511552
doi	https://doi.org/10.48550/arxiv.2011.10727
ids.doi	https://doi.org/10.48550/arxiv.2011.10727
ids.mag	3107511552
ids.openalex	https://openalex.org/W3107511552
fwci
type	preprint
title	Stochastic Talking Face Generation Using Latent Distribution Matching
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T10860
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9997000098228455
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1711
topics[0].subfield.display_name	Signal Processing
topics[0].display_name	Speech and Audio Processing
topics[1].id	https://openalex.org/T11448
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9990000128746033
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1707
topics[1].subfield.display_name	Computer Vision and Pattern Recognition
topics[1].display_name	Face recognition and analysis
topics[2].id	https://openalex.org/T10775
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.9980999827384949
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1707
topics[2].subfield.display_name	Computer Vision and Pattern Recognition
topics[2].display_name	Generative Adversarial Networks and Image Synthesis
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C101738243
concepts[0].level	3
concepts[0].score	0.7884992361068726
concepts[0].wikidata	https://www.wikidata.org/wiki/Q786435
concepts[0].display_name	Autoencoder
concepts[1].id	https://openalex.org/C41008148
concepts[1].level	0
concepts[1].score	0.781670331954956
concepts[1].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[1].display_name	Computer science
concepts[2].id	https://openalex.org/C2779304628
concepts[2].level	2
concepts[2].score	0.5835345983505249
concepts[2].wikidata	https://www.wikidata.org/wiki/Q3503480
concepts[2].display_name	Face (sociological concept)
concepts[3].id	https://openalex.org/C136197465
concepts[3].level	2
concepts[3].score	0.5270920991897583
concepts[3].wikidata	https://www.wikidata.org/wiki/Q1729295
concepts[3].display_name	Variety (cybernetics)
concepts[4].id	https://openalex.org/C165064840
concepts[4].level	2
concepts[4].score	0.5118724703788757
concepts[4].wikidata	https://www.wikidata.org/wiki/Q1321061
concepts[4].display_name	Matching (statistics)
concepts[5].id	https://openalex.org/C154945302
concepts[5].level	1
concepts[5].score	0.4981505870819092
concepts[5].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[5].display_name	Artificial intelligence
concepts[6].id	https://openalex.org/C28490314
concepts[6].level	1
concepts[6].score	0.49639540910720825
concepts[6].wikidata	https://www.wikidata.org/wiki/Q189436
concepts[6].display_name	Speech recognition
concepts[7].id	https://openalex.org/C119857082
concepts[7].level	1
concepts[7].score	0.3549541234970093
concepts[7].wikidata	https://www.wikidata.org/wiki/Q2539
concepts[7].display_name	Machine learning
concepts[8].id	https://openalex.org/C108583219
concepts[8].level	2
concepts[8].score	0.11544844508171082
concepts[8].wikidata	https://www.wikidata.org/wiki/Q197536
concepts[8].display_name	Deep learning
concepts[9].id	https://openalex.org/C33923547
concepts[9].level	0
concepts[9].score	0.10003530979156494
concepts[9].wikidata	https://www.wikidata.org/wiki/Q395
concepts[9].display_name	Mathematics
concepts[10].id	https://openalex.org/C36289849
concepts[10].level	1
concepts[10].score	0.0
concepts[10].wikidata	https://www.wikidata.org/wiki/Q34749
concepts[10].display_name	Social science
concepts[11].id	https://openalex.org/C105795698
concepts[11].level	1
concepts[11].score	0.0
concepts[11].wikidata	https://www.wikidata.org/wiki/Q12483
concepts[11].display_name	Statistics
concepts[12].id	https://openalex.org/C144024400
concepts[12].level	0
concepts[12].score	0.0
concepts[12].wikidata	https://www.wikidata.org/wiki/Q21201
concepts[12].display_name	Sociology
keywords[0].id	https://openalex.org/keywords/autoencoder
keywords[0].score	0.7884992361068726
keywords[0].display_name	Autoencoder
keywords[1].id	https://openalex.org/keywords/computer-science
keywords[1].score	0.781670331954956
keywords[1].display_name	Computer science
keywords[2].id	https://openalex.org/keywords/face
keywords[2].score	0.5835345983505249
keywords[2].display_name	Face (sociological concept)
keywords[3].id	https://openalex.org/keywords/variety
keywords[3].score	0.5270920991897583
keywords[3].display_name	Variety (cybernetics)
keywords[4].id	https://openalex.org/keywords/matching
keywords[4].score	0.5118724703788757
keywords[4].display_name	Matching (statistics)
keywords[5].id	https://openalex.org/keywords/artificial-intelligence
keywords[5].score	0.4981505870819092
keywords[5].display_name	Artificial intelligence
keywords[6].id	https://openalex.org/keywords/speech-recognition
keywords[6].score	0.49639540910720825
keywords[6].display_name	Speech recognition
keywords[7].id	https://openalex.org/keywords/machine-learning
keywords[7].score	0.3549541234970093
keywords[7].display_name	Machine learning
keywords[8].id	https://openalex.org/keywords/deep-learning
keywords[8].score	0.11544844508171082
keywords[8].display_name	Deep learning
keywords[9].id	https://openalex.org/keywords/mathematics
keywords[9].score	0.10003530979156494
keywords[9].display_name	Mathematics
language	en
locations[0].id	pmh:oai:arXiv.org:2011.10727
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license	cc-by-nc-nd
locations[0].pdf_url	https://arxiv.org/pdf/2011.10727
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id	https://openalex.org/licenses/cc-by-nc-nd
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2011.10727
locations[1].id	mag:3107511552
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license
locations[1].pdf_url
locations[1].version	submittedVersion
locations[1].raw_type
locations[1].license_id
locations[1].is_accepted	False
locations[1].is_published	False
locations[1].raw_source_name	arXiv (Cornell University)
locations[1].landing_page_url	https://arxiv.org/pdf/2011.10727.pdf
locations[2].id	doi:10.48550/arxiv.2011.10727
locations[2].is_oa	True
locations[2].source.id	https://openalex.org/S4306400194
locations[2].source.issn
locations[2].source.type	repository
locations[2].source.is_oa	True
locations[2].source.issn_l
locations[2].source.is_core	False
locations[2].source.is_in_doaj	False
locations[2].source.display_name	arXiv (Cornell University)
locations[2].source.host_organization	https://openalex.org/I205783295
locations[2].source.host_organization_name	Cornell University
locations[2].source.host_organization_lineage	https://openalex.org/I205783295
locations[2].license
locations[2].pdf_url
locations[2].version
locations[2].raw_type	article
locations[2].license_id
locations[2].is_accepted	False
locations[2].is_published
locations[2].raw_source_name
locations[2].landing_page_url	https://doi.org/10.48550/arxiv.2011.10727
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5010648323
authorships[0].author.orcid	https://orcid.org/0000-0003-4628-0688
authorships[0].author.display_name	Ravindra Yadav
authorships[0].countries	IN
authorships[0].affiliations[0].institution_ids	https://openalex.org/I94234084
authorships[0].affiliations[0].raw_affiliation_string	Indian Institute of Technology Kanpur
authorships[0].institutions[0].id	https://openalex.org/I94234084
authorships[0].institutions[0].ror	https://ror.org/05pjsgx75
authorships[0].institutions[0].type	education
authorships[0].institutions[0].lineage	https://openalex.org/I94234084
authorships[0].institutions[0].country_code	IN
authorships[0].institutions[0].display_name	Indian Institute of Technology Kanpur
authorships[0].author_position	first
authorships[0].raw_author_name	Ravindra Yadav
authorships[0].is_corresponding	False
authorships[0].raw_affiliation_strings	Indian Institute of Technology Kanpur
authorships[1].author.id	https://openalex.org/A5083439972
authorships[1].author.orcid
authorships[1].author.display_name	Ashish Sardana
authorships[1].countries	GB
authorships[1].affiliations[0].institution_ids	https://openalex.org/I1304085615
authorships[1].affiliations[0].raw_affiliation_string	nVidia
authorships[1].institutions[0].id	https://openalex.org/I1304085615
authorships[1].institutions[0].ror	https://ror.org/02kr42612
authorships[1].institutions[0].type	company
authorships[1].institutions[0].lineage	https://openalex.org/I1304085615, https://openalex.org/I4210127875
authorships[1].institutions[0].country_code	GB
authorships[1].institutions[0].display_name	Nvidia (United Kingdom)
authorships[1].author_position	middle
authorships[1].raw_author_name	Ashish Sardana
authorships[1].is_corresponding	False
authorships[1].raw_affiliation_strings	nVidia
authorships[2].author.id	https://openalex.org/A5007109424
authorships[2].author.orcid	https://orcid.org/0000-0001-5262-9722
authorships[2].author.display_name	Vinay P. Namboodiri
authorships[2].countries	IN
authorships[2].affiliations[0].institution_ids	https://openalex.org/I94234084
authorships[2].affiliations[0].raw_affiliation_string	Indian Institute of Technology Kanpur
authorships[2].institutions[0].id	https://openalex.org/I94234084
authorships[2].institutions[0].ror	https://ror.org/05pjsgx75
authorships[2].institutions[0].type	education
authorships[2].institutions[0].lineage	https://openalex.org/I94234084
authorships[2].institutions[0].country_code	IN
authorships[2].institutions[0].display_name	Indian Institute of Technology Kanpur
authorships[2].author_position	middle
authorships[2].raw_author_name	Vinay P Namboodiri
authorships[2].is_corresponding	False
authorships[2].raw_affiliation_strings	Indian Institute of Technology Kanpur
authorships[3].author.id	https://openalex.org/A5085503354
authorships[3].author.orcid	https://orcid.org/0000-0002-6142-7724
authorships[3].author.display_name	Rajesh M. Hegde
authorships[3].countries	IN
authorships[3].affiliations[0].institution_ids	https://openalex.org/I94234084
authorships[3].affiliations[0].raw_affiliation_string	Indian Institute of Technology Kanpur
authorships[3].institutions[0].id	https://openalex.org/I94234084
authorships[3].institutions[0].ror	https://ror.org/05pjsgx75
authorships[3].institutions[0].type	education
authorships[3].institutions[0].lineage	https://openalex.org/I94234084
authorships[3].institutions[0].country_code	IN
authorships[3].institutions[0].display_name	Indian Institute of Technology Kanpur
authorships[3].author_position	last
authorships[3].raw_author_name	Rajesh M Hegde
authorships[3].is_corresponding	False
authorships[3].raw_affiliation_strings	Indian Institute of Technology Kanpur
has_content.pdf	True
has_content.grobid_xml	True
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2011.10727
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	Stochastic Talking Face Generation Using Latent Distribution Matching
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T10860
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9997000098228455
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1711
primary_topic.subfield.display_name	Signal Processing
primary_topic.display_name	Speech and Audio Processing
related_works	https://openalex.org/W3012637317, https://openalex.org/W3035046783, https://openalex.org/W2982168986, https://openalex.org/W2339196570, https://openalex.org/W3033270690, https://openalex.org/W2770112119, https://openalex.org/W3025348309, https://openalex.org/W3208386644, https://openalex.org/W121219881, https://openalex.org/W3127260722, https://openalex.org/W2912003633, https://openalex.org/W116204763, https://openalex.org/W2508299400, https://openalex.org/W3161000886, https://openalex.org/W3104591054, https://openalex.org/W2866912866, https://openalex.org/W2996054085, https://openalex.org/W2961308210, https://openalex.org/W3024643182, https://openalex.org/W3125257526
cited_by_count	0
locations_count	3
best_oa_location.id	pmh:oai:arXiv.org:2011.10727
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license	cc-by-nc-nd
best_oa_location.pdf_url	https://arxiv.org/pdf/2011.10727
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id	https://openalex.org/licenses/cc-by-nc-nd
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2011.10727
primary_location.id	pmh:oai:arXiv.org:2011.10727
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license	cc-by-nc-nd
primary_location.pdf_url	https://arxiv.org/pdf/2011.10727
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id	https://openalex.org/licenses/cc-by-nc-nd
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2011.10727
publication_date	2020-11-21
publication_year	2020
referenced_works	https://openalex.org/W2964559396, https://openalex.org/W2883861033, https://openalex.org/W2116435618, https://openalex.org/W1959608418, https://openalex.org/W1901129140, https://openalex.org/W2115252128, https://openalex.org/W2015143272, https://openalex.org/W2963253230, https://openalex.org/W2952453038, https://openalex.org/W2944294033, https://openalex.org/W2064675550, https://openalex.org/W2963290645, https://openalex.org/W2963009026, https://openalex.org/W2738406145, https://openalex.org/W2753738274, https://openalex.org/W2594690981
referenced_works_count	16
abstract_inverted_index.a	7, 14, 17, 24, 42, 60, 66, 85, 120
abstract_inverted_index.In	72
abstract_inverted_index.We	35, 107, 116, 126
abstract_inverted_index.an	92
abstract_inverted_index.by	40
abstract_inverted_index.do	117
abstract_inverted_index.in	70
abstract_inverted_index.is	16
abstract_inverted_index.of	6, 26, 44, 103
abstract_inverted_index.on	12, 49, 130
abstract_inverted_index.so	118
abstract_inverted_index.to	2, 58, 148
abstract_inverted_index.we	90
abstract_inverted_index.LRW	133
abstract_inverted_index.The	0
abstract_inverted_index.all	110
abstract_inverted_index.and	134, 137
abstract_inverted_index.are	114
abstract_inverted_index.can	99
abstract_inverted_index.for	31, 81
abstract_inverted_index.its	128
abstract_inverted_index.lip	152
abstract_inverted_index.our	74
abstract_inverted_index.the	4, 56, 104, 111, 131, 142, 146
abstract_inverted_index.GRID	135
abstract_inverted_index.been	23
abstract_inverted_index.face	9, 46, 63
abstract_inverted_index.from	37, 84
abstract_inverted_index.have	22, 29
abstract_inverted_index.just	11, 54
abstract_inverted_index.make	65
abstract_inverted_index.than	141
abstract_inverted_index.that	28, 98, 109
abstract_inverted_index.this	32
abstract_inverted_index.There	21
abstract_inverted_index.audio	51, 87
abstract_inverted_index.based	10, 48
abstract_inverted_index.human	19
abstract_inverted_index.model	79, 97
abstract_inverted_index.modes	102
abstract_inverted_index.these	38
abstract_inverted_index.video	105
abstract_inverted_index.voice	15
abstract_inverted_index.while	144
abstract_inverted_index.works	27
abstract_inverted_index.would	64
abstract_inverted_index.allows	80
abstract_inverted_index.almost	68
abstract_inverted_index.better	140
abstract_inverted_index.differ	36
abstract_inverted_index.ensure	108
abstract_inverted_index.having	55, 145
abstract_inverted_index.input.	52, 88
abstract_inverted_index.number	25
abstract_inverted_index.single	50, 61, 86
abstract_inverted_index.solved	30
abstract_inverted_index.system	67
abstract_inverted_index.unique	18
abstract_inverted_index.visual	5
abstract_inverted_index.Indeed,	53
abstract_inverted_index.ability	1, 33, 57, 147
abstract_inverted_index.capture	100
abstract_inverted_index.diverse	82, 112, 151
abstract_inverted_index.hearing	13
abstract_inverted_index.nature.	71
abstract_inverted_index.present	91
abstract_inverted_index.robotic	69
abstract_inverted_index.talking	8, 45, 62
abstract_inverted_index.through	119
abstract_inverted_index.variety	43
abstract_inverted_index.videos.	154
abstract_inverted_index.datasets	136
abstract_inverted_index.efficacy	129
abstract_inverted_index.enabling	41
abstract_inverted_index.envisage	3
abstract_inverted_index.generate	59, 149
abstract_inverted_index.multiple	101, 150
abstract_inverted_index.baseline,	143
abstract_inverted_index.contrast,	73
abstract_inverted_index.recently.	34
abstract_inverted_index.approaches	39
abstract_inverted_index.framework.	125
abstract_inverted_index.generation	78, 96
abstract_inverted_index.plausible.	115
abstract_inverted_index.principled	121
abstract_inverted_index.stochastic	76, 94
abstract_inverted_index.autoencoder	124
abstract_inverted_index.capability.	20
abstract_inverted_index.challenging	132
abstract_inverted_index.demonstrate	127, 138
abstract_inverted_index.generations	47, 83, 113
abstract_inverted_index.multi-modal	122
abstract_inverted_index.performance	139
abstract_inverted_index.variational	123
abstract_inverted_index.synchronized	153
abstract_inverted_index.unsupervised	75, 93
abstract_inverted_index.Particularly,	89
abstract_inverted_index.distribution.	106
abstract_inverted_index.audio-to-video	77, 95
cited_by_percentile_year
countries_distinct_count	2
institutions_distinct_count	4
citation_normalized_percentile