Efficient Multi-Sample Approximate Computing for Scalable Analysis of Massive Distributed Datasets on Resource-Constrained Clusters Article Swipe

PDF

Alladoumbaye Ngueilbaye , Joshua Zhexue Huang , Yongda Cai , Xudong Sun ·

YOU? · · 2025 · Open Access · · DOI: https://doi.org/10.1609/aaaiss.v6i1.36030

The prolific explosion of data in today's digital sphere by modern AI applications has created new challenges and opportunities for business industries. This has necessitated the development of scalable methods for analyzing massive datasets stored in distributed systems. However, resource-constrained clusters often struggle to process such datasets due to memory constraints and the computational overhead of distributed AI algorithms. This paper proposes efficient multi-sample approximate computing (EMSAC), a novel approach designed to enable scalable analysis of massive distributed datasets on small clusters with limited memory. EMSAC leverages multiple small random samples, processed in parallel using sequential algorithms, to approximate the analysis of the entire dataset. The approach has been implemented in Spark using the LOGO computing framework to address three key challenges: (1) efficient generation of multiple small random samples from a massive distributed dataset; (2) conversion of these data block samples to a partial RSP data model and parallel execution of sequential algorithms on the partial RSP data model to mine frequent itemsets; and (3) aggregation of each data block result to produce the approximate set of frequent itemsets of D. To guarantee the quality of random data block samples, we theoretically provide a bound on the estimated number of data blocks to be selected from the distributed data file. Empirical evaluations on synthetic and real-world datasets demonstrate that EMSAC outperforms traditional distributed and sampling-based approaches in terms of scalability, accuracy, and computational efficiency. The findings have shown that EMSAC is suitable for processing massive distributed data and generating accurate approximate frequent itemsets with constrained clusters.

Related Topics

Concepts

Computer science Scalability SPARK (programming language) Overhead (engineering) Block (permutation group theory) Distributed computing Data mining Distributed memory Distributed database Distributed algorithm Sample (material) Resource (disambiguation) Distributed Computing Environment Parallel computing Database Shared memory Chemistry Geometry Chromatography Computer network Operating system Programming language Mathematics

Metadata

Type: article
Language: en
Landing Page: https://doi.org/10.1609/aaaiss.v6i1.36030
PDF: https://ojs.aaai.org/index.php/AAAI-SS/article/download/36030/38185
OA Status: diamond
Related Works: 10
OpenAlex ID: https://openalex.org/W4412840651

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4412840651

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.1609/aaaiss.v6i1.36030

Digital Object Identifier
Title: Efficient Multi-Sample Approximate Computing for Scalable Analysis of Massive Distributed Datasets on Resource-Constrained Clusters

Work title
Type: article

OpenAlex work type
Language: en

Primary language
Publication year: 2025

Year of publication
Publication date: 2025-08-01

Full publication date if available
Authors: Alladoumbaye Ngueilbaye, Joshua Zhexue Huang, Yongda Cai, Xudong Sun

List of authors in order
Landing page: https://doi.org/10.1609/aaaiss.v6i1.36030

Publisher landing page
PDF URL: https://ojs.aaai.org/index.php/AAAI-SS/article/download/36030/38185

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: diamond

Open access status per OpenAlex
OA URL: https://ojs.aaai.org/index.php/AAAI-SS/article/download/36030/38185

Direct OA link when available
Concepts: Computer science, Scalability, SPARK (programming language), Overhead (engineering), Block (permutation group theory), Distributed computing, Data mining, Distributed memory, Distributed database, Distributed algorithm, Sample (material), Resource (disambiguation), Distributed Computing Environment, Parallel computing, Database, Shared memory, Chemistry, Geometry, Chromatography, Computer network, Operating system, Programming language, Mathematics

Top concepts (fields/topics) attached by OpenAlex
Cited by: 0

Total citation count in OpenAlex
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4412840651
doi	https://doi.org/10.1609/aaaiss.v6i1.36030
ids.doi	https://doi.org/10.1609/aaaiss.v6i1.36030
ids.openalex	https://openalex.org/W4412840651
fwci	0.0
type	article
title	Efficient Multi-Sample Approximate Computing for Scalable Analysis of Massive Distributed Datasets on Resource-Constrained Clusters
biblio.issue	1
biblio.volume	6
biblio.last_page	66
biblio.first_page	66
topics[0].id	https://openalex.org/T11612
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9988999962806702
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1702
topics[0].subfield.display_name	Artificial Intelligence
topics[0].display_name	Stochastic Gradient Optimization Techniques
topics[1].id	https://openalex.org/T10764
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9955999851226807
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1702
topics[1].subfield.display_name	Artificial Intelligence
topics[1].display_name	Privacy-Preserving Technologies in Data
topics[2].id	https://openalex.org/T10720
topics[2].field.id	https://openalex.org/fields/17
topics[2].field.display_name	Computer Science
topics[2].score	0.9858999848365784
topics[2].domain.id	https://openalex.org/domains/3
topics[2].domain.display_name	Physical Sciences
topics[2].subfield.id	https://openalex.org/subfields/1703
topics[2].subfield.display_name	Computational Theory and Mathematics
topics[2].display_name	Complexity and Algorithms in Graphs
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C41008148
concepts[0].level	0
concepts[0].score	0.8430792689323425
concepts[0].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[0].display_name	Computer science
concepts[1].id	https://openalex.org/C48044578
concepts[1].level	2
concepts[1].score	0.8234586119651794
concepts[1].wikidata	https://www.wikidata.org/wiki/Q727490
concepts[1].display_name	Scalability
concepts[2].id	https://openalex.org/C2781215313
concepts[2].level	2
concepts[2].score	0.6185338497161865
concepts[2].wikidata	https://www.wikidata.org/wiki/Q3493345
concepts[2].display_name	SPARK (programming language)
concepts[3].id	https://openalex.org/C2779960059
concepts[3].level	2
concepts[3].score	0.6089156866073608
concepts[3].wikidata	https://www.wikidata.org/wiki/Q7113681
concepts[3].display_name	Overhead (engineering)
concepts[4].id	https://openalex.org/C2777210771
concepts[4].level	2
concepts[4].score	0.5921051502227783
concepts[4].wikidata	https://www.wikidata.org/wiki/Q4927124
concepts[4].display_name	Block (permutation group theory)
concepts[5].id	https://openalex.org/C120314980
concepts[5].level	1
concepts[5].score	0.5311692357063293
concepts[5].wikidata	https://www.wikidata.org/wiki/Q180634
concepts[5].display_name	Distributed computing
concepts[6].id	https://openalex.org/C124101348
concepts[6].level	1
concepts[6].score	0.48087814450263977
concepts[6].wikidata	https://www.wikidata.org/wiki/Q172491
concepts[6].display_name	Data mining
concepts[7].id	https://openalex.org/C91481028
concepts[7].level	3
concepts[7].score	0.4675178825855255
concepts[7].wikidata	https://www.wikidata.org/wiki/Q1054686
concepts[7].display_name	Distributed memory
concepts[8].id	https://openalex.org/C70061542
concepts[8].level	2
concepts[8].score	0.43562647700309753
concepts[8].wikidata	https://www.wikidata.org/wiki/Q989016
concepts[8].display_name	Distributed database
concepts[9].id	https://openalex.org/C130120984
concepts[9].level	2
concepts[9].score	0.43554043769836426
concepts[9].wikidata	https://www.wikidata.org/wiki/Q2835898
concepts[9].display_name	Distributed algorithm
concepts[10].id	https://openalex.org/C198531522
concepts[10].level	2
concepts[10].score	0.42391467094421387
concepts[10].wikidata	https://www.wikidata.org/wiki/Q485146
concepts[10].display_name	Sample (material)
concepts[11].id	https://openalex.org/C206345919
concepts[11].level	2
concepts[11].score	0.4203086495399475
concepts[11].wikidata	https://www.wikidata.org/wiki/Q20380951
concepts[11].display_name	Resource (disambiguation)
concepts[12].id	https://openalex.org/C3739613
concepts[12].level	2
concepts[12].score	0.4111369550228119
concepts[12].wikidata	https://www.wikidata.org/wiki/Q679003
concepts[12].display_name	Distributed Computing Environment
concepts[13].id	https://openalex.org/C173608175
concepts[13].level	1
concepts[13].score	0.37900638580322266
concepts[13].wikidata	https://www.wikidata.org/wiki/Q232661
concepts[13].display_name	Parallel computing
concepts[14].id	https://openalex.org/C77088390
concepts[14].level	1
concepts[14].score	0.21730247139930725
concepts[14].wikidata	https://www.wikidata.org/wiki/Q8513
concepts[14].display_name	Database
concepts[15].id	https://openalex.org/C133875982
concepts[15].level	2
concepts[15].score	0.15984460711479187
concepts[15].wikidata	https://www.wikidata.org/wiki/Q764810
concepts[15].display_name	Shared memory
concepts[16].id	https://openalex.org/C185592680
concepts[16].level	0
concepts[16].score	0.0
concepts[16].wikidata	https://www.wikidata.org/wiki/Q2329
concepts[16].display_name	Chemistry
concepts[17].id	https://openalex.org/C2524010
concepts[17].level	1
concepts[17].score	0.0
concepts[17].wikidata	https://www.wikidata.org/wiki/Q8087
concepts[17].display_name	Geometry
concepts[18].id	https://openalex.org/C43617362
concepts[18].level	1
concepts[18].score	0.0
concepts[18].wikidata	https://www.wikidata.org/wiki/Q170050
concepts[18].display_name	Chromatography
concepts[19].id	https://openalex.org/C31258907
concepts[19].level	1
concepts[19].score	0.0
concepts[19].wikidata	https://www.wikidata.org/wiki/Q1301371
concepts[19].display_name	Computer network
concepts[20].id	https://openalex.org/C111919701
concepts[20].level	1
concepts[20].score	0.0
concepts[20].wikidata	https://www.wikidata.org/wiki/Q9135
concepts[20].display_name	Operating system
concepts[21].id	https://openalex.org/C199360897
concepts[21].level	1
concepts[21].score	0.0
concepts[21].wikidata	https://www.wikidata.org/wiki/Q9143
concepts[21].display_name	Programming language
concepts[22].id	https://openalex.org/C33923547
concepts[22].level	0
concepts[22].score	0.0
concepts[22].wikidata	https://www.wikidata.org/wiki/Q395
concepts[22].display_name	Mathematics
keywords[0].id	https://openalex.org/keywords/computer-science
keywords[0].score	0.8430792689323425
keywords[0].display_name	Computer science
keywords[1].id	https://openalex.org/keywords/scalability
keywords[1].score	0.8234586119651794
keywords[1].display_name	Scalability
keywords[2].id	https://openalex.org/keywords/spark
keywords[2].score	0.6185338497161865
keywords[2].display_name	SPARK (programming language)
keywords[3].id	https://openalex.org/keywords/overhead
keywords[3].score	0.6089156866073608
keywords[3].display_name	Overhead (engineering)
keywords[4].id	https://openalex.org/keywords/block
keywords[4].score	0.5921051502227783
keywords[4].display_name	Block (permutation group theory)
keywords[5].id	https://openalex.org/keywords/distributed-computing
keywords[5].score	0.5311692357063293
keywords[5].display_name	Distributed computing
keywords[6].id	https://openalex.org/keywords/data-mining
keywords[6].score	0.48087814450263977
keywords[6].display_name	Data mining
keywords[7].id	https://openalex.org/keywords/distributed-memory
keywords[7].score	0.4675178825855255
keywords[7].display_name	Distributed memory
keywords[8].id	https://openalex.org/keywords/distributed-database
keywords[8].score	0.43562647700309753
keywords[8].display_name	Distributed database
keywords[9].id	https://openalex.org/keywords/distributed-algorithm
keywords[9].score	0.43554043769836426
keywords[9].display_name	Distributed algorithm
keywords[10].id	https://openalex.org/keywords/sample
keywords[10].score	0.42391467094421387
keywords[10].display_name	Sample (material)
keywords[11].id	https://openalex.org/keywords/resource
keywords[11].score	0.4203086495399475
keywords[11].display_name	Resource (disambiguation)
keywords[12].id	https://openalex.org/keywords/distributed-computing-environment
keywords[12].score	0.4111369550228119
keywords[12].display_name	Distributed Computing Environment
keywords[13].id	https://openalex.org/keywords/parallel-computing
keywords[13].score	0.37900638580322266
keywords[13].display_name	Parallel computing
keywords[14].id	https://openalex.org/keywords/database
keywords[14].score	0.21730247139930725
keywords[14].display_name	Database
keywords[15].id	https://openalex.org/keywords/shared-memory
keywords[15].score	0.15984460711479187
keywords[15].display_name	Shared memory
language	en
locations[0].id	doi:10.1609/aaaiss.v6i1.36030
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4389157828
locations[0].source.issn	2994-4317
locations[0].source.type	journal
locations[0].source.is_oa	True
locations[0].source.issn_l	2994-4317
locations[0].source.is_core	True
locations[0].source.is_in_doaj	False
locations[0].source.display_name	Proceedings of the AAAI Symposium Series
locations[0].source.host_organization
locations[0].source.host_organization_name
locations[0].license
locations[0].pdf_url	https://ojs.aaai.org/index.php/AAAI-SS/article/download/36030/38185
locations[0].version	publishedVersion
locations[0].raw_type	journal-article
locations[0].license_id
locations[0].is_accepted	True
locations[0].is_published	True
locations[0].raw_source_name	Proceedings of the AAAI Symposium Series
locations[0].landing_page_url	https://doi.org/10.1609/aaaiss.v6i1.36030
indexed_in	crossref
authorships[0].author.id	https://openalex.org/A5035666851
authorships[0].author.orcid	https://orcid.org/0000-0002-5853-9354
authorships[0].author.display_name	Alladoumbaye Ngueilbaye
authorships[0].countries	CN
authorships[0].affiliations[0].institution_ids	https://openalex.org/I180726961, https://openalex.org/I4210099586
authorships[0].affiliations[0].raw_affiliation_string	National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China Big Data Institute, College of Computer Science and Software Engineering, Shenzhen University, 518060, China
authorships[0].institutions[0].id	https://openalex.org/I4210099586
authorships[0].institutions[0].ror	https://ror.org/00z1gwf89
authorships[0].institutions[0].type	education
authorships[0].institutions[0].lineage	https://openalex.org/I4210099586
authorships[0].institutions[0].country_code	CN
authorships[0].institutions[0].display_name	Shenzhen Research Institute of Big Data
authorships[0].institutions[1].id	https://openalex.org/I180726961
authorships[0].institutions[1].ror	https://ror.org/01vy4gh70
authorships[0].institutions[1].type	education
authorships[0].institutions[1].lineage	https://openalex.org/I180726961
authorships[0].institutions[1].country_code	CN
authorships[0].institutions[1].display_name	Shenzhen University
authorships[0].author_position	first
authorships[0].raw_author_name	Alladoumbaye Ngueilbaye
authorships[0].is_corresponding	False
authorships[0].raw_affiliation_strings	National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China Big Data Institute, College of Computer Science and Software Engineering, Shenzhen University, 518060, China
authorships[1].author.id	https://openalex.org/A5003347359
authorships[1].author.orcid	https://orcid.org/0000-0002-6797-2571
authorships[1].author.display_name	Joshua Zhexue Huang
authorships[1].countries	CN
authorships[1].affiliations[0].institution_ids	https://openalex.org/I180726961, https://openalex.org/I4210099586
authorships[1].affiliations[0].raw_affiliation_string	National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China Big Data Institute, College of Computer Science and Software Engineering, Shenzhen University, 518060, China Guangdong Laboratory of Artificial Intelligence and Digital Economy, Shenzhen, 518107, China
authorships[1].institutions[0].id	https://openalex.org/I4210099586
authorships[1].institutions[0].ror	https://ror.org/00z1gwf89
authorships[1].institutions[0].type	education
authorships[1].institutions[0].lineage	https://openalex.org/I4210099586
authorships[1].institutions[0].country_code	CN
authorships[1].institutions[0].display_name	Shenzhen Research Institute of Big Data
authorships[1].institutions[1].id	https://openalex.org/I180726961
authorships[1].institutions[1].ror	https://ror.org/01vy4gh70
authorships[1].institutions[1].type	education
authorships[1].institutions[1].lineage	https://openalex.org/I180726961
authorships[1].institutions[1].country_code	CN
authorships[1].institutions[1].display_name	Shenzhen University
authorships[1].author_position	middle
authorships[1].raw_author_name	Joshua Zhexue Huang
authorships[1].is_corresponding	False
authorships[1].raw_affiliation_strings	National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China Big Data Institute, College of Computer Science and Software Engineering, Shenzhen University, 518060, China Guangdong Laboratory of Artificial Intelligence and Digital Economy, Shenzhen, 518107, China
authorships[2].author.id	https://openalex.org/A5087905293
authorships[2].author.orcid	https://orcid.org/0000-0002-3321-879X
authorships[2].author.display_name	Yongda Cai
authorships[2].countries	CN
authorships[2].affiliations[0].institution_ids	https://openalex.org/I180726961, https://openalex.org/I4210099586
authorships[2].affiliations[0].raw_affiliation_string	National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China Big Data Institute, College of Computer Science and Software Engineering, Shenzhen University, 518060, China
authorships[2].institutions[0].id	https://openalex.org/I4210099586
authorships[2].institutions[0].ror	https://ror.org/00z1gwf89
authorships[2].institutions[0].type	education
authorships[2].institutions[0].lineage	https://openalex.org/I4210099586
authorships[2].institutions[0].country_code	CN
authorships[2].institutions[0].display_name	Shenzhen Research Institute of Big Data
authorships[2].institutions[1].id	https://openalex.org/I180726961
authorships[2].institutions[1].ror	https://ror.org/01vy4gh70
authorships[2].institutions[1].type	education
authorships[2].institutions[1].lineage	https://openalex.org/I180726961
authorships[2].institutions[1].country_code	CN
authorships[2].institutions[1].display_name	Shenzhen University
authorships[2].author_position	middle
authorships[2].raw_author_name	Yongda Cai
authorships[2].is_corresponding	False
authorships[2].raw_affiliation_strings	National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, China Big Data Institute, College of Computer Science and Software Engineering, Shenzhen University, 518060, China
authorships[3].author.id	https://openalex.org/A5031783134
authorships[3].author.orcid	https://orcid.org/0009-0005-2171-0081
authorships[3].author.display_name	Xudong Sun
authorships[3].countries	CN
authorships[3].affiliations[0].institution_ids	https://openalex.org/I180726961
authorships[3].affiliations[0].raw_affiliation_string	College of Management, Shenzhen University, China
authorships[3].institutions[0].id	https://openalex.org/I180726961
authorships[3].institutions[0].ror	https://ror.org/01vy4gh70
authorships[3].institutions[0].type	education
authorships[3].institutions[0].lineage	https://openalex.org/I180726961
authorships[3].institutions[0].country_code	CN
authorships[3].institutions[0].display_name	Shenzhen University
authorships[3].author_position	last
authorships[3].raw_author_name	Xudong Sun
authorships[3].is_corresponding	False
authorships[3].raw_affiliation_strings	College of Management, Shenzhen University, China
has_content.pdf	True
has_content.grobid_xml	True
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://ojs.aaai.org/index.php/AAAI-SS/article/download/36030/38185
open_access.oa_status	diamond
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	Efficient Multi-Sample Approximate Computing for Scalable Analysis of Massive Distributed Datasets on Resource-Constrained Clusters
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T03:46:38.306776
primary_topic.id	https://openalex.org/T11612
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9988999962806702
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1702
primary_topic.subfield.display_name	Artificial Intelligence
primary_topic.display_name	Stochastic Gradient Optimization Techniques
related_works	https://openalex.org/W3009866696, https://openalex.org/W127900883, https://openalex.org/W17303578, https://openalex.org/W997248972, https://openalex.org/W3154587653, https://openalex.org/W2368240274, https://openalex.org/W2539081058, https://openalex.org/W2013919567, https://openalex.org/W2509957587, https://openalex.org/W2008246492
cited_by_count	0
locations_count	1
best_oa_location.id	doi:10.1609/aaaiss.v6i1.36030
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4389157828
best_oa_location.source.issn	2994-4317
best_oa_location.source.type	journal
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l	2994-4317
best_oa_location.source.is_core	True
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	Proceedings of the AAAI Symposium Series
best_oa_location.source.host_organization
best_oa_location.source.host_organization_name
best_oa_location.license
best_oa_location.pdf_url	https://ojs.aaai.org/index.php/AAAI-SS/article/download/36030/38185
best_oa_location.version	publishedVersion
best_oa_location.raw_type	journal-article
best_oa_location.license_id
best_oa_location.is_accepted	True
best_oa_location.is_published	True
best_oa_location.raw_source_name	Proceedings of the AAAI Symposium Series
best_oa_location.landing_page_url	https://doi.org/10.1609/aaaiss.v6i1.36030
primary_location.id	doi:10.1609/aaaiss.v6i1.36030
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4389157828
primary_location.source.issn	2994-4317
primary_location.source.type	journal
primary_location.source.is_oa	True
primary_location.source.issn_l	2994-4317
primary_location.source.is_core	True
primary_location.source.is_in_doaj	False
primary_location.source.display_name	Proceedings of the AAAI Symposium Series
primary_location.source.host_organization
primary_location.source.host_organization_name
primary_location.license
primary_location.pdf_url	https://ojs.aaai.org/index.php/AAAI-SS/article/download/36030/38185
primary_location.version	publishedVersion
primary_location.raw_type	journal-article
primary_location.license_id
primary_location.is_accepted	True
primary_location.is_published	True
primary_location.raw_source_name	Proceedings of the AAAI Symposium Series
primary_location.landing_page_url	https://doi.org/10.1609/aaaiss.v6i1.36030
publication_date	2025-08-01
publication_year	2025
referenced_works_count	0
abstract_inverted_index.a	67, 131, 143, 194
abstract_inverted_index.AI	11, 57
abstract_inverted_index.D.	181
abstract_inverted_index.To	182
abstract_inverted_index.be	204
abstract_inverted_index.by	9
abstract_inverted_index.in	5, 35, 92, 110, 227
abstract_inverted_index.is	241
abstract_inverted_index.of	3, 27, 55, 75, 101, 125, 137, 151, 167, 177, 180, 186, 200, 229
abstract_inverted_index.on	79, 154, 196, 213
abstract_inverted_index.to	43, 48, 71, 97, 117, 142, 160, 172, 203
abstract_inverted_index.we	191
abstract_inverted_index.(1)	122
abstract_inverted_index.(2)	135
abstract_inverted_index.(3)	165
abstract_inverted_index.RSP	145, 157
abstract_inverted_index.The	0, 105, 235
abstract_inverted_index.and	17, 51, 148, 164, 215, 224, 232, 248
abstract_inverted_index.due	47
abstract_inverted_index.for	19, 30, 243
abstract_inverted_index.has	13, 23, 107
abstract_inverted_index.key	120
abstract_inverted_index.new	15
abstract_inverted_index.set	176
abstract_inverted_index.the	25, 52, 99, 102, 113, 155, 174, 184, 197, 207
abstract_inverted_index.LOGO	114
abstract_inverted_index.This	22, 59
abstract_inverted_index.been	108
abstract_inverted_index.data	4, 139, 146, 158, 169, 188, 201, 209, 247
abstract_inverted_index.each	168
abstract_inverted_index.from	130, 206
abstract_inverted_index.have	237
abstract_inverted_index.mine	161
abstract_inverted_index.such	45
abstract_inverted_index.that	219, 239
abstract_inverted_index.with	82, 254
abstract_inverted_index.EMSAC	85, 220, 240
abstract_inverted_index.Spark	111
abstract_inverted_index.block	140, 170, 189
abstract_inverted_index.bound	195
abstract_inverted_index.file.	210
abstract_inverted_index.model	147, 159
abstract_inverted_index.novel	68
abstract_inverted_index.often	41
abstract_inverted_index.paper	60
abstract_inverted_index.shown	238
abstract_inverted_index.small	80, 88, 127
abstract_inverted_index.terms	228
abstract_inverted_index.these	138
abstract_inverted_index.three	119
abstract_inverted_index.using	94, 112
abstract_inverted_index.blocks	202
abstract_inverted_index.enable	72
abstract_inverted_index.entire	103
abstract_inverted_index.memory	49
abstract_inverted_index.modern	10
abstract_inverted_index.number	199
abstract_inverted_index.random	89, 128, 187
abstract_inverted_index.result	171
abstract_inverted_index.sphere	8
abstract_inverted_index.stored	34
abstract_inverted_index.address	118
abstract_inverted_index.created	14
abstract_inverted_index.digital	7
abstract_inverted_index.limited	83
abstract_inverted_index.massive	32, 76, 132, 245
abstract_inverted_index.memory.	84
abstract_inverted_index.methods	29
abstract_inverted_index.partial	144, 156
abstract_inverted_index.process	44
abstract_inverted_index.produce	173
abstract_inverted_index.provide	193
abstract_inverted_index.quality	185
abstract_inverted_index.samples	129, 141
abstract_inverted_index.today's	6
abstract_inverted_index.(EMSAC),	66
abstract_inverted_index.However,	38
abstract_inverted_index.accurate	250
abstract_inverted_index.analysis	74, 100
abstract_inverted_index.approach	69, 106
abstract_inverted_index.business	20
abstract_inverted_index.clusters	40, 81
abstract_inverted_index.dataset.	104
abstract_inverted_index.dataset;	134
abstract_inverted_index.datasets	33, 46, 78, 217
abstract_inverted_index.designed	70
abstract_inverted_index.findings	236
abstract_inverted_index.frequent	162, 178, 252
abstract_inverted_index.itemsets	179, 253
abstract_inverted_index.multiple	87, 126
abstract_inverted_index.overhead	54
abstract_inverted_index.parallel	93, 149
abstract_inverted_index.prolific	1
abstract_inverted_index.proposes	61
abstract_inverted_index.samples,	90, 190
abstract_inverted_index.scalable	28, 73
abstract_inverted_index.selected	205
abstract_inverted_index.struggle	42
abstract_inverted_index.suitable	242
abstract_inverted_index.systems.	37
abstract_inverted_index.Empirical	211
abstract_inverted_index.accuracy,	231
abstract_inverted_index.analyzing	31
abstract_inverted_index.clusters.	256
abstract_inverted_index.computing	65, 115
abstract_inverted_index.efficient	62, 123
abstract_inverted_index.estimated	198
abstract_inverted_index.execution	150
abstract_inverted_index.explosion	2
abstract_inverted_index.framework	116
abstract_inverted_index.guarantee	183
abstract_inverted_index.itemsets;	163
abstract_inverted_index.leverages	86
abstract_inverted_index.processed	91
abstract_inverted_index.synthetic	214
abstract_inverted_index.algorithms	153
abstract_inverted_index.approaches	226
abstract_inverted_index.challenges	16
abstract_inverted_index.conversion	136
abstract_inverted_index.generating	249
abstract_inverted_index.generation	124
abstract_inverted_index.processing	244
abstract_inverted_index.real-world	216
abstract_inverted_index.sequential	95, 152
abstract_inverted_index.aggregation	166
abstract_inverted_index.algorithms,	96
abstract_inverted_index.algorithms.	58
abstract_inverted_index.approximate	64, 98, 175, 251
abstract_inverted_index.challenges:	121
abstract_inverted_index.constrained	255
abstract_inverted_index.constraints	50
abstract_inverted_index.demonstrate	218
abstract_inverted_index.development	26
abstract_inverted_index.distributed	36, 56, 77, 133, 208, 223, 246
abstract_inverted_index.efficiency.	234
abstract_inverted_index.evaluations	212
abstract_inverted_index.implemented	109
abstract_inverted_index.industries.	21
abstract_inverted_index.outperforms	221
abstract_inverted_index.traditional	222
abstract_inverted_index.applications	12
abstract_inverted_index.multi-sample	63
abstract_inverted_index.necessitated	24
abstract_inverted_index.scalability,	230
abstract_inverted_index.computational	53, 233
abstract_inverted_index.opportunities	18
abstract_inverted_index.theoretically	192
abstract_inverted_index.sampling-based	225
abstract_inverted_index.resource-constrained	39
cited_by_percentile_year
countries_distinct_count	1
institutions_distinct_count	4
citation_normalized_percentile.value	0.13982805
citation_normalized_percentile.is_in_top_1_percent	False
citation_normalized_percentile.is_in_top_10_percent	True