Self-supervised Learning on Camera Trap Footage Yields a Strong Universal Face Embedder Article Swipe

PDF

Vladimir Iashin , H.S. Lee , Daniel Schofield , Andrew Zisserman ·

YOU? · · 2025 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2507.10552

Camera traps are revolutionising wildlife monitoring by capturing vast amounts of visual data; however, the manual identification of individual animals remains a significant bottleneck. This study introduces a fully self-supervised approach to learning robust chimpanzee face embeddings from unlabeled camera-trap footage. Leveraging the DINOv2 framework, we train Vision Transformers on automatically mined face crops, eliminating the need for identity labels. Our method demonstrates strong open-set re-identification performance, surpassing supervised baselines on challenging benchmarks such as Bossou, despite utilising no labelled data during training. This work underscores the potential of self-supervised learning in biodiversity monitoring and paves the way for scalable, non-invasive population studies.

Related Topics

Learning Curve

Learning Theory (Education)

Practice (Learning Method)

Learning Standards

Attention (Machine Learning)

Camera Obscura

Leica Camera

History Of The Camera

Digital Single-Lens Reflex Camera

Learning Disability

Man With A Movie Camera

Q-Learning

Concepts

No concepts available.

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2507.10552
PDF: https://arxiv.org/pdf/2507.10552
OA Status: green
OpenAlex ID: https://openalex.org/W4414742268

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4414742268

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2507.10552

Digital Object Identifier
Title: Self-supervised Learning on Camera Trap Footage Yields a Strong Universal Face Embedder

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2025

Year of publication
Publication date: 2025-07-14

Full publication date if available
Authors: Vladimir Iashin, H.S. Lee, Daniel Schofield, Andrew Zisserman

List of authors in order
Landing page: https://arxiv.org/abs/2507.10552

Publisher landing page
PDF URL: https://arxiv.org/pdf/2507.10552

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2507.10552

Direct OA link when available
Cited by: 0

Total citation count in OpenAlex

Full payload

id	https://openalex.org/W4414742268
doi	https://doi.org/10.48550/arxiv.2507.10552
ids.doi	https://doi.org/10.48550/arxiv.2507.10552
ids.openalex	https://openalex.org/W4414742268
fwci
type	preprint
title	Self-supervised Learning on Camera Trap Footage Yields a Strong Universal Face Embedder
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T11448
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9962000250816345
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1707
topics[0].subfield.display_name	Computer Vision and Pattern Recognition
topics[0].display_name	Face recognition and analysis
topics[1].id	https://openalex.org/T10331
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9861999750137329
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1707
topics[1].subfield.display_name	Computer Vision and Pattern Recognition
topics[1].display_name	Video Surveillance and Tracking Methods
topics[2].id	https://openalex.org/T10057
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.9715999960899353
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1707
topics[2].subfield.display_name	Computer Vision and Pattern Recognition
topics[2].display_name	Face and Expression Recognition
is_xpac	False
apc_list
apc_paid
language	en
locations[0].id	pmh:oai:arXiv.org:2507.10552
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2507.10552
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2507.10552
locations[1].id	doi:10.48550/arxiv.2507.10552
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license	cc-by
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id	https://openalex.org/licenses/cc-by
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2507.10552
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5008909874
authorships[0].author.orcid	https://orcid.org/0000-0001-8879-587X
authorships[0].author.display_name	Vladimir Iashin
authorships[0].author_position	first
authorships[0].raw_author_name	Iashin, Vladimir
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5061180501
authorships[1].author.orcid
authorships[1].author.display_name	H.S. Lee
authorships[1].author_position	middle
authorships[1].raw_author_name	Lee, Horace
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5101857466
authorships[2].author.orcid	https://orcid.org/0000-0002-9251-8653
authorships[2].author.display_name	Daniel Schofield
authorships[2].author_position	middle
authorships[2].raw_author_name	Schofield, Dan
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5057678172
authorships[3].author.orcid	https://orcid.org/0000-0002-8945-8573
authorships[3].author.display_name	Andrew Zisserman
authorships[3].author_position	last
authorships[3].raw_author_name	Zisserman, Andrew
authorships[3].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2507.10552
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	Self-supervised Learning on Camera Trap Footage Yields a Strong Universal Face Embedder
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T11448
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9962000250816345
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1707
primary_topic.subfield.display_name	Computer Vision and Pattern Recognition
primary_topic.display_name	Face recognition and analysis
cited_by_count	0
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2507.10552
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2507.10552
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2507.10552
primary_location.id	pmh:oai:arXiv.org:2507.10552
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2507.10552
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2507.10552
publication_date	2025-07-14
publication_year	2025
referenced_works_count	0
abstract_inverted_index.a	21, 27
abstract_inverted_index.as	74
abstract_inverted_index.by	6
abstract_inverted_index.in	91
abstract_inverted_index.no	78
abstract_inverted_index.of	10, 17, 88
abstract_inverted_index.on	49, 70
abstract_inverted_index.to	31
abstract_inverted_index.we	45
abstract_inverted_index.Our	60
abstract_inverted_index.and	94
abstract_inverted_index.are	2
abstract_inverted_index.for	57, 98
abstract_inverted_index.the	14, 42, 55, 86, 96
abstract_inverted_index.way	97
abstract_inverted_index.This	24, 83
abstract_inverted_index.data	80
abstract_inverted_index.face	35, 52
abstract_inverted_index.from	37
abstract_inverted_index.need	56
abstract_inverted_index.such	73
abstract_inverted_index.vast	8
abstract_inverted_index.work	84
abstract_inverted_index.data;	12
abstract_inverted_index.fully	28
abstract_inverted_index.mined	51
abstract_inverted_index.paves	95
abstract_inverted_index.study	25
abstract_inverted_index.train	46
abstract_inverted_index.traps	1
abstract_inverted_index.Camera	0
abstract_inverted_index.DINOv2	43
abstract_inverted_index.Vision	47
abstract_inverted_index.crops,	53
abstract_inverted_index.during	81
abstract_inverted_index.manual	15
abstract_inverted_index.method	61
abstract_inverted_index.robust	33
abstract_inverted_index.strong	63
abstract_inverted_index.visual	11
abstract_inverted_index.Bossou,	75
abstract_inverted_index.amounts	9
abstract_inverted_index.animals	19
abstract_inverted_index.despite	76
abstract_inverted_index.labels.	59
abstract_inverted_index.remains	20
abstract_inverted_index.approach	30
abstract_inverted_index.footage.	40
abstract_inverted_index.however,	13
abstract_inverted_index.identity	58
abstract_inverted_index.labelled	79
abstract_inverted_index.learning	32, 90
abstract_inverted_index.open-set	64
abstract_inverted_index.studies.	102
abstract_inverted_index.wildlife	4
abstract_inverted_index.baselines	69
abstract_inverted_index.capturing	7
abstract_inverted_index.potential	87
abstract_inverted_index.scalable,	99
abstract_inverted_index.training.	82
abstract_inverted_index.unlabeled	38
abstract_inverted_index.utilising	77
abstract_inverted_index.Leveraging	41
abstract_inverted_index.benchmarks	72
abstract_inverted_index.chimpanzee	34
abstract_inverted_index.embeddings	36
abstract_inverted_index.framework,	44
abstract_inverted_index.individual	18
abstract_inverted_index.introduces	26
abstract_inverted_index.monitoring	5, 93
abstract_inverted_index.population	101
abstract_inverted_index.supervised	68
abstract_inverted_index.surpassing	67
abstract_inverted_index.bottleneck.	23
abstract_inverted_index.camera-trap	39
abstract_inverted_index.challenging	71
abstract_inverted_index.eliminating	54
abstract_inverted_index.significant	22
abstract_inverted_index.underscores	85
abstract_inverted_index.Transformers	48
abstract_inverted_index.biodiversity	92
abstract_inverted_index.demonstrates	62
abstract_inverted_index.non-invasive	100
abstract_inverted_index.performance,	66
abstract_inverted_index.automatically	50
abstract_inverted_index.identification	16
abstract_inverted_index.revolutionising	3
abstract_inverted_index.self-supervised	29, 89
abstract_inverted_index.re-identification	65
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	4
citation_normalized_percentile