A Structured Reasoning Framework for Unbalanced Data Classification Using Probabilistic Models Article Swipe

PDF

Junliang Du , Sergio Suarez Dou , Bin Yang , Jinxia Hu , Tai An ·

YOU? · · 2025 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2502.03386

This paper studies a Markov network model for unbalanced data, aiming to solve the problems of classification bias and insufficient minority class recognition ability of traditional machine learning models in environments with uneven class distribution. By constructing joint probability distribution and conditional dependency, the model can achieve global modeling and reasoning optimization of sample categories. The study introduced marginal probability estimation and weighted loss optimization strategies, combined with regularization constraints and structured reasoning methods, effectively improving the generalization ability and robustness of the model. In the experimental stage, a real credit card fraud detection dataset was selected and compared with models such as logistic regression, support vector machine, random forest and XGBoost. The experimental results show that the Markov network performs well in indicators such as weighted accuracy, F1 score, and AUC-ROC, significantly outperforming traditional classification models, demonstrating its strong decision-making ability and applicability in unbalanced data scenarios. Future research can focus on efficient model training, structural optimization, and deep learning integration in large-scale unbalanced data environments and promote its wide application in practical applications such as financial risk control, medical diagnosis, and intelligent monitoring.

Related Topics

Computer Science

Artificial Intelligence

Machine Learning

Data Mining

Concepts

Probabilistic logic Computer science Artificial intelligence Machine learning Data mining

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2502.03386
PDF: https://arxiv.org/pdf/2502.03386
OA Status: green
Cited By: 1
Related Works: 10
OpenAlex ID: https://openalex.org/W4407231761

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4407231761

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2502.03386

Digital Object Identifier
Title: A Structured Reasoning Framework for Unbalanced Data Classification Using Probabilistic Models

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2025

Year of publication
Publication date: 2025-02-05

Full publication date if available
Authors: Junliang Du, Sergio Suarez Dou, Bin Yang, Jinxia Hu, Tai An

List of authors in order
Landing page: https://arxiv.org/abs/2502.03386

Publisher landing page
PDF URL: https://arxiv.org/pdf/2502.03386

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2502.03386

Direct OA link when available
Concepts: Probabilistic logic, Computer science, Artificial intelligence, Machine learning, Data mining

Top concepts (fields/topics) attached by OpenAlex
Cited by: 1

Total citation count in OpenAlex
Citations by year (recent): 2025: 1

Per-year citation counts (last 5 years)
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4407231761
doi	https://doi.org/10.48550/arxiv.2502.03386
ids.doi	https://doi.org/10.48550/arxiv.2502.03386
ids.openalex	https://openalex.org/W4407231761
fwci
type	preprint
title	A Structured Reasoning Framework for Unbalanced Data Classification Using Probabilistic Models
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T11652
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9125000238418579
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1702
topics[0].subfield.display_name	Artificial Intelligence
topics[0].display_name	Imbalanced Data Classification Techniques
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C49937458
concepts[0].level	2
concepts[0].score	0.724424421787262
concepts[0].wikidata	https://www.wikidata.org/wiki/Q2599292
concepts[0].display_name	Probabilistic logic
concepts[1].id	https://openalex.org/C41008148
concepts[1].level	0
concepts[1].score	0.6354570984840393
concepts[1].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[1].display_name	Computer science
concepts[2].id	https://openalex.org/C154945302
concepts[2].level	1
concepts[2].score	0.49408796429634094
concepts[2].wikidata	https://www.wikidata.org/wiki/Q11660
concepts[2].display_name	Artificial intelligence
concepts[3].id	https://openalex.org/C119857082
concepts[3].level	1
concepts[3].score	0.45268407464027405
concepts[3].wikidata	https://www.wikidata.org/wiki/Q2539
concepts[3].display_name	Machine learning
concepts[4].id	https://openalex.org/C124101348
concepts[4].level	1
concepts[4].score	0.3570767343044281
concepts[4].wikidata	https://www.wikidata.org/wiki/Q172491
concepts[4].display_name	Data mining
keywords[0].id	https://openalex.org/keywords/probabilistic-logic
keywords[0].score	0.724424421787262
keywords[0].display_name	Probabilistic logic
keywords[1].id	https://openalex.org/keywords/computer-science
keywords[1].score	0.6354570984840393
keywords[1].display_name	Computer science
keywords[2].id	https://openalex.org/keywords/artificial-intelligence
keywords[2].score	0.49408796429634094
keywords[2].display_name	Artificial intelligence
keywords[3].id	https://openalex.org/keywords/machine-learning
keywords[3].score	0.45268407464027405
keywords[3].display_name	Machine learning
keywords[4].id	https://openalex.org/keywords/data-mining
keywords[4].score	0.3570767343044281
keywords[4].display_name	Data mining
language	en
locations[0].id	pmh:oai:arXiv.org:2502.03386
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2502.03386
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2502.03386
locations[1].id	doi:10.48550/arxiv.2502.03386
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2502.03386
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5010332378
authorships[0].author.orcid	https://orcid.org/0000-0002-2794-2327
authorships[0].author.display_name	Junliang Du
authorships[0].author_position	first
authorships[0].raw_author_name	Du, Junliang
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5055282724
authorships[1].author.orcid	https://orcid.org/0000-0002-7929-9468
authorships[1].author.display_name	Sergio Suarez Dou
authorships[1].author_position	middle
authorships[1].raw_author_name	Dou, Shiyu
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5025719998
authorships[2].author.orcid	https://orcid.org/0000-0001-6127-3385
authorships[2].author.display_name	Bin Yang
authorships[2].author_position	middle
authorships[2].raw_author_name	Yang, Bohuan
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5035725126
authorships[3].author.orcid	https://orcid.org/0009-0003-3559-1023
authorships[3].author.display_name	Jinxia Hu
authorships[3].author_position	middle
authorships[3].raw_author_name	Hu, Jiacheng
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5074138033
authorships[4].author.orcid
authorships[4].author.display_name	Tai An
authorships[4].author_position	last
authorships[4].raw_author_name	An, Tai
authorships[4].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2502.03386
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	A Structured Reasoning Framework for Unbalanced Data Classification Using Probabilistic Models
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T11652
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9125000238418579
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1702
primary_topic.subfield.display_name	Artificial Intelligence
primary_topic.display_name	Imbalanced Data Classification Techniques
related_works	https://openalex.org/W2961085424, https://openalex.org/W4306674287, https://openalex.org/W4387369504, https://openalex.org/W3046775127, https://openalex.org/W4394896187, https://openalex.org/W3170094116, https://openalex.org/W4386462264, https://openalex.org/W3107602296, https://openalex.org/W4364306694, https://openalex.org/W4312192474
cited_by_count	1
counts_by_year[0].year	2025
counts_by_year[0].cited_by_count	1
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2502.03386
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2502.03386
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2502.03386
primary_location.id	pmh:oai:arXiv.org:2502.03386
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2502.03386
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2502.03386
publication_date	2025-02-05
publication_year	2025
referenced_works_count	0
abstract_inverted_index.a	3, 88
abstract_inverted_index.By	35
abstract_inverted_index.F1	128
abstract_inverted_index.In	84
abstract_inverted_index.as	102, 125, 176
abstract_inverted_index.in	29, 122, 144, 162, 172
abstract_inverted_index.of	15, 24, 52, 81
abstract_inverted_index.on	152
abstract_inverted_index.to	11
abstract_inverted_index.The	55, 112
abstract_inverted_index.and	18, 40, 49, 61, 70, 79, 97, 110, 130, 142, 158, 167, 182
abstract_inverted_index.can	45, 150
abstract_inverted_index.for	7
abstract_inverted_index.its	138, 169
abstract_inverted_index.the	13, 43, 76, 82, 85, 117
abstract_inverted_index.was	95
abstract_inverted_index.This	0
abstract_inverted_index.bias	17
abstract_inverted_index.card	91
abstract_inverted_index.data	146, 165
abstract_inverted_index.deep	159
abstract_inverted_index.loss	63
abstract_inverted_index.real	89
abstract_inverted_index.risk	178
abstract_inverted_index.show	115
abstract_inverted_index.such	101, 124, 175
abstract_inverted_index.that	116
abstract_inverted_index.well	121
abstract_inverted_index.wide	170
abstract_inverted_index.with	31, 67, 99
abstract_inverted_index.class	21, 33
abstract_inverted_index.data,	9
abstract_inverted_index.focus	151
abstract_inverted_index.fraud	92
abstract_inverted_index.joint	37
abstract_inverted_index.model	6, 44, 154
abstract_inverted_index.paper	1
abstract_inverted_index.solve	12
abstract_inverted_index.study	56
abstract_inverted_index.Future	148
abstract_inverted_index.Markov	4, 118
abstract_inverted_index.aiming	10
abstract_inverted_index.credit	90
abstract_inverted_index.forest	109
abstract_inverted_index.global	47
abstract_inverted_index.model.	83
abstract_inverted_index.models	28, 100
abstract_inverted_index.random	108
abstract_inverted_index.sample	53
abstract_inverted_index.score,	129
abstract_inverted_index.stage,	87
abstract_inverted_index.strong	139
abstract_inverted_index.uneven	32
abstract_inverted_index.vector	106
abstract_inverted_index.ability	23, 78, 141
abstract_inverted_index.achieve	46
abstract_inverted_index.dataset	94
abstract_inverted_index.machine	26
abstract_inverted_index.medical	180
abstract_inverted_index.models,	136
abstract_inverted_index.network	5, 119
abstract_inverted_index.promote	168
abstract_inverted_index.results	114
abstract_inverted_index.studies	2
abstract_inverted_index.support	105
abstract_inverted_index.AUC-ROC,	131
abstract_inverted_index.XGBoost.	111
abstract_inverted_index.combined	66
abstract_inverted_index.compared	98
abstract_inverted_index.control,	179
abstract_inverted_index.learning	27, 160
abstract_inverted_index.logistic	103
abstract_inverted_index.machine,	107
abstract_inverted_index.marginal	58
abstract_inverted_index.methods,	73
abstract_inverted_index.minority	20
abstract_inverted_index.modeling	48
abstract_inverted_index.performs	120
abstract_inverted_index.problems	14
abstract_inverted_index.research	149
abstract_inverted_index.selected	96
abstract_inverted_index.weighted	62, 126
abstract_inverted_index.accuracy,	127
abstract_inverted_index.detection	93
abstract_inverted_index.efficient	153
abstract_inverted_index.financial	177
abstract_inverted_index.improving	75
abstract_inverted_index.practical	173
abstract_inverted_index.reasoning	50, 72
abstract_inverted_index.training,	155
abstract_inverted_index.diagnosis,	181
abstract_inverted_index.estimation	60
abstract_inverted_index.indicators	123
abstract_inverted_index.introduced	57
abstract_inverted_index.robustness	80
abstract_inverted_index.scenarios.	147
abstract_inverted_index.structural	156
abstract_inverted_index.structured	71
abstract_inverted_index.unbalanced	8, 145, 164
abstract_inverted_index.application	171
abstract_inverted_index.categories.	54
abstract_inverted_index.conditional	41
abstract_inverted_index.constraints	69
abstract_inverted_index.dependency,	42
abstract_inverted_index.effectively	74
abstract_inverted_index.integration	161
abstract_inverted_index.intelligent	183
abstract_inverted_index.large-scale	163
abstract_inverted_index.monitoring.	184
abstract_inverted_index.probability	38, 59
abstract_inverted_index.recognition	22
abstract_inverted_index.regression,	104
abstract_inverted_index.strategies,	65
abstract_inverted_index.traditional	25, 134
abstract_inverted_index.applications	174
abstract_inverted_index.constructing	36
abstract_inverted_index.distribution	39
abstract_inverted_index.environments	30, 166
abstract_inverted_index.experimental	86, 113
abstract_inverted_index.insufficient	19
abstract_inverted_index.optimization	51, 64
abstract_inverted_index.applicability	143
abstract_inverted_index.demonstrating	137
abstract_inverted_index.distribution.	34
abstract_inverted_index.optimization,	157
abstract_inverted_index.outperforming	133
abstract_inverted_index.significantly	132
abstract_inverted_index.classification	16, 135
abstract_inverted_index.generalization	77
abstract_inverted_index.regularization	68
abstract_inverted_index.decision-making	140
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	5
citation_normalized_percentile