Improving Handwritten Text Recognition via 3D Attention and Multi-Scale Training Article Swipe

PDF

Zirui Wang ·

YOU? · · 2024 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2410.18374

The segmentation-free research efforts for addressing handwritten text recognition can be divided into three categories: connectionist temporal classification (CTC), hidden Markov model and encoder-decoder methods. In this paper, inspired by the above three modeling methods, we propose a new recognition network by using a novel three-dimensional (3D) attention module and global-local context information. Based on the feature maps of the last convolutional layer, a series of 3D blocks with different resolutions are split. Then, these 3D blocks are fed into the 3D attention module to generate sequential visual features. Finally, by fusing the visual features and the corresponding global-local context features, a well-designed representation can be obtained. Main canonical neural units including attention mechanisms, fully-connected layers, recurrent units and convolutional layers are efficiently organized into a network and can be jointly trained by the CTC loss and the cross-entropy loss. Experiments on the latest Chinese handwritten text datasets (the SCUT-HCCDoc and the SCUT-EPT) and one English handwritten text dataset (the IAM) show that the proposed method can achieve comparable results with the state-of-the-art methods. The code is available at https://github.com/Wukong90/3DAttention-MultiScaleTraining-for-HTR.

Related Topics

Computer Science

Artificial Intelligence

Cartography

Geography

Meteorology

Concepts

Computer science Training (meteorology) Scale (ratio) Speech recognition Artificial intelligence Artificial neural network Pattern recognition (psychology) Natural language processing Cartography Geography Meteorology

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2410.18374
PDF: https://arxiv.org/pdf/2410.18374
OA Status: green
Related Works: 10
OpenAlex ID: https://openalex.org/W4404306452

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4404306452

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2410.18374

Digital Object Identifier
Title: Improving Handwritten Text Recognition via 3D Attention and Multi-Scale Training

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2024

Year of publication
Publication date: 2024-10-24

Full publication date if available
Authors: Zirui Wang

List of authors in order
Landing page: https://arxiv.org/abs/2410.18374

Publisher landing page
PDF URL: https://arxiv.org/pdf/2410.18374

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2410.18374

Direct OA link when available
Concepts: Computer science, Training (meteorology), Scale (ratio), Speech recognition, Artificial intelligence, Artificial neural network, Pattern recognition (psychology), Natural language processing, Cartography, Geography, Meteorology

Top concepts (fields/topics) attached by OpenAlex
Cited by: 0

Total citation count in OpenAlex
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4404306452
doi	https://doi.org/10.48550/arxiv.2410.18374
ids.doi	https://doi.org/10.48550/arxiv.2410.18374
ids.openalex	https://openalex.org/W4404306452
fwci
type	preprint
title	Improving Handwritten Text Recognition via 3D Attention and Multi-Scale Training
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T10601
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9781000018119812
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1707
topics[0].subfield.display_name	Computer Vision and Pattern Recognition
topics[0].display_name	Handwritten Text Recognition Techniques
topics[1].id	https://openalex.org/T14339
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9660999774932861
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1707
topics[1].subfield.display_name	Computer Vision and Pattern Recognition
topics[1].display_name	Image Processing and 3D Reconstruction
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C41008148
concepts[0].level	0
concepts[0].score	0.6737703084945679
concepts[0].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[0].display_name	Computer science
concepts[1].id	https://openalex.org/C2777211547
concepts[1].level	2
concepts[1].score	0.6053546071052551
concepts[1].wikidata	https://www.wikidata.org/wiki/Q17141490
concepts[1].display_name	Training (meteorology)
concepts[2].id	https://openalex.org/C2778755073
concepts[2].level	2
concepts[2].score	0.569080114364624
concepts[2].wikidata	https://www.wikidata.org/wiki/Q10858537
concepts[2].display_name	Scale (ratio)
concepts[3].id	https://openalex.org/C28490314
concepts[3].level	1
concepts[3].score	0.5190675854682922
concepts[3].wikidata	https://www.wikidata.org/wiki/Q189436
concepts[3].display_name	Speech recognition
concepts[4].id	https://openalex.org/C154945302
concepts[4].level	1
concepts[4].score	0.4680668115615845
concepts[4].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[4].display_name	Artificial intelligence
concepts[5].id	https://openalex.org/C50644808
concepts[5].level	2
concepts[5].score	0.44629982113838196
concepts[5].wikidata	https://www.wikidata.org/wiki/Q192776
concepts[5].display_name	Artificial neural network
concepts[6].id	https://openalex.org/C153180895
concepts[6].level	2
concepts[6].score	0.4345845580101013
concepts[6].wikidata	https://www.wikidata.org/wiki/Q7148389
concepts[6].display_name	Pattern recognition (psychology)
concepts[7].id	https://openalex.org/C204321447
concepts[7].level	1
concepts[7].score	0.3667636215686798
concepts[7].wikidata	https://www.wikidata.org/wiki/Q30642
concepts[7].display_name	Natural language processing
concepts[8].id	https://openalex.org/C58640448
concepts[8].level	1
concepts[8].score	0.0617392361164093
concepts[8].wikidata	https://www.wikidata.org/wiki/Q42515
concepts[8].display_name	Cartography
concepts[9].id	https://openalex.org/C205649164
concepts[9].level	0
concepts[9].score	0.05377680063247681
concepts[9].wikidata	https://www.wikidata.org/wiki/Q1071
concepts[9].display_name	Geography
concepts[10].id	https://openalex.org/C153294291
concepts[10].level	1
concepts[10].score	0.0
concepts[10].wikidata	https://www.wikidata.org/wiki/Q25261
concepts[10].display_name	Meteorology
keywords[0].id	https://openalex.org/keywords/computer-science
keywords[0].score	0.6737703084945679
keywords[0].display_name	Computer science
keywords[1].id	https://openalex.org/keywords/training
keywords[1].score	0.6053546071052551
keywords[1].display_name	Training (meteorology)
keywords[2].id	https://openalex.org/keywords/scale
keywords[2].score	0.569080114364624
keywords[2].display_name	Scale (ratio)
keywords[3].id	https://openalex.org/keywords/speech-recognition
keywords[3].score	0.5190675854682922
keywords[3].display_name	Speech recognition
keywords[4].id	https://openalex.org/keywords/artificial-intelligence
keywords[4].score	0.4680668115615845
keywords[4].display_name	Artificial intelligence
keywords[5].id	https://openalex.org/keywords/artificial-neural-network
keywords[5].score	0.44629982113838196
keywords[5].display_name	Artificial neural network
keywords[6].id	https://openalex.org/keywords/pattern-recognition
keywords[6].score	0.4345845580101013
keywords[6].display_name	Pattern recognition (psychology)
keywords[7].id	https://openalex.org/keywords/natural-language-processing
keywords[7].score	0.3667636215686798
keywords[7].display_name	Natural language processing
keywords[8].id	https://openalex.org/keywords/cartography
keywords[8].score	0.0617392361164093
keywords[8].display_name	Cartography
keywords[9].id	https://openalex.org/keywords/geography
keywords[9].score	0.05377680063247681
keywords[9].display_name	Geography
language	en
locations[0].id	pmh:oai:arXiv.org:2410.18374
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2410.18374
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2410.18374
locations[1].id	doi:10.48550/arxiv.2410.18374
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2410.18374
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5100687847
authorships[0].author.orcid	https://orcid.org/0000-0003-0626-742X
authorships[0].author.display_name	Zirui Wang
authorships[0].author_position	first
authorships[0].raw_author_name	Wang, Zi-Rui
authorships[0].is_corresponding	True
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2410.18374
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2024-11-13T00:00:00
display_name	Improving Handwritten Text Recognition via 3D Attention and Multi-Scale Training
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T10601
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9781000018119812
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1707
primary_topic.subfield.display_name	Computer Vision and Pattern Recognition
primary_topic.display_name	Handwritten Text Recognition Techniques
related_works	https://openalex.org/W230091440, https://openalex.org/W2233261550, https://openalex.org/W2810751659, https://openalex.org/W258997015, https://openalex.org/W2997094352, https://openalex.org/W3216976533, https://openalex.org/W100620283, https://openalex.org/W2495260952, https://openalex.org/W4366179611, https://openalex.org/W2996078371
cited_by_count	0
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2410.18374
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2410.18374
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2410.18374
primary_location.id	pmh:oai:arXiv.org:2410.18374
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2410.18374
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2410.18374
publication_date	2024-10-24
publication_year	2024
referenced_works_count	0
abstract_inverted_index.a	37, 43, 63, 101, 125
abstract_inverted_index.3D	66, 75, 81
abstract_inverted_index.In	25
abstract_inverted_index.at	178
abstract_inverted_index.be	10, 105, 129
abstract_inverted_index.by	29, 41, 90, 132
abstract_inverted_index.is	176
abstract_inverted_index.of	58, 65
abstract_inverted_index.on	54, 141
abstract_inverted_index.to	84
abstract_inverted_index.we	35
abstract_inverted_index.CTC	134
abstract_inverted_index.The	0, 174
abstract_inverted_index.and	22, 49, 95, 118, 127, 136, 150, 153
abstract_inverted_index.are	71, 77, 121
abstract_inverted_index.can	9, 104, 128, 166
abstract_inverted_index.fed	78
abstract_inverted_index.for	4
abstract_inverted_index.new	38
abstract_inverted_index.one	154
abstract_inverted_index.the	30, 55, 59, 80, 92, 96, 133, 137, 142, 151, 163, 171
abstract_inverted_index.(3D)	46
abstract_inverted_index.(the	148, 159
abstract_inverted_index.IAM)	160
abstract_inverted_index.Main	107
abstract_inverted_index.code	175
abstract_inverted_index.into	12, 79, 124
abstract_inverted_index.last	60
abstract_inverted_index.loss	135
abstract_inverted_index.maps	57
abstract_inverted_index.show	161
abstract_inverted_index.text	7, 146, 157
abstract_inverted_index.that	162
abstract_inverted_index.this	26
abstract_inverted_index.with	68, 170
abstract_inverted_index.Based	53
abstract_inverted_index.Then,	73
abstract_inverted_index.above	31
abstract_inverted_index.loss.	139
abstract_inverted_index.model	21
abstract_inverted_index.novel	44
abstract_inverted_index.these	74
abstract_inverted_index.three	13, 32
abstract_inverted_index.units	110, 117
abstract_inverted_index.using	42
abstract_inverted_index.(CTC),	18
abstract_inverted_index.Markov	20
abstract_inverted_index.blocks	67, 76
abstract_inverted_index.fusing	91
abstract_inverted_index.hidden	19
abstract_inverted_index.latest	143
abstract_inverted_index.layer,	62
abstract_inverted_index.layers	120
abstract_inverted_index.method	165
abstract_inverted_index.module	48, 83
abstract_inverted_index.neural	109
abstract_inverted_index.paper,	27
abstract_inverted_index.series	64
abstract_inverted_index.split.	72
abstract_inverted_index.visual	87, 93
abstract_inverted_index.Chinese	144
abstract_inverted_index.English	155
abstract_inverted_index.achieve	167
abstract_inverted_index.context	51, 99
abstract_inverted_index.dataset	158
abstract_inverted_index.divided	11
abstract_inverted_index.efforts	3
abstract_inverted_index.feature	56
abstract_inverted_index.jointly	130
abstract_inverted_index.layers,	115
abstract_inverted_index.network	40, 126
abstract_inverted_index.propose	36
abstract_inverted_index.results	169
abstract_inverted_index.trained	131
abstract_inverted_index.Finally,	89
abstract_inverted_index.datasets	147
abstract_inverted_index.features	94
abstract_inverted_index.generate	85
abstract_inverted_index.inspired	28
abstract_inverted_index.methods,	34
abstract_inverted_index.methods.	24, 173
abstract_inverted_index.modeling	33
abstract_inverted_index.proposed	164
abstract_inverted_index.research	2
abstract_inverted_index.temporal	16
abstract_inverted_index.SCUT-EPT)	152
abstract_inverted_index.attention	47, 82, 112
abstract_inverted_index.available	177
abstract_inverted_index.canonical	108
abstract_inverted_index.different	69
abstract_inverted_index.features,	100
abstract_inverted_index.features.	88
abstract_inverted_index.including	111
abstract_inverted_index.obtained.	106
abstract_inverted_index.organized	123
abstract_inverted_index.recurrent	116
abstract_inverted_index.addressing	5
abstract_inverted_index.comparable	168
abstract_inverted_index.sequential	86
abstract_inverted_index.Experiments	140
abstract_inverted_index.SCUT-HCCDoc	149
abstract_inverted_index.categories:	14
abstract_inverted_index.efficiently	122
abstract_inverted_index.handwritten	6, 145, 156
abstract_inverted_index.mechanisms,	113
abstract_inverted_index.recognition	8, 39
abstract_inverted_index.resolutions	70
abstract_inverted_index.global-local	50, 98
abstract_inverted_index.information.	52
abstract_inverted_index.connectionist	15
abstract_inverted_index.convolutional	61, 119
abstract_inverted_index.corresponding	97
abstract_inverted_index.cross-entropy	138
abstract_inverted_index.well-designed	102
abstract_inverted_index.classification	17
abstract_inverted_index.representation	103
abstract_inverted_index.encoder-decoder	23
abstract_inverted_index.fully-connected	114
abstract_inverted_index.state-of-the-art	172
abstract_inverted_index.segmentation-free	1
abstract_inverted_index.three-dimensional	45
abstract_inverted_index.https://github.com/Wukong90/3DAttention-MultiScaleTraining-for-HTR.	179
cited_by_percentile_year
corresponding_author_ids	https://openalex.org/A5100687847
countries_distinct_count	0
institutions_distinct_count	1
citation_normalized_percentile