GuardReasoner: Towards Reasoning-based LLM Safeguards Article Swipe

PDF

Yue Liu , Hongcheng Gao , Suodi Zhai , Jun Xia , Tianyi Wu , Zhiwei Xue , Yulin Chen , Kenichi Kawaguchi , J. J. Zhang , Bryan Hooi ·

YOU? · · 2025 · Open Access · · DOI: https://doi.org/10.48550/arxiv.2501.18492

As LLMs increasingly impact safety-critical applications, ensuring their safety using guardrails remains a key challenge. This paper proposes GuardReasoner, a new safeguard for LLMs, by guiding the guard model to learn to reason. Concretely, we first create the GuardReasonerTrain dataset, which consists of 127K samples with 460K detailed reasoning steps. Then, we introduce reasoning SFT to unlock the reasoning capability of guard models. In addition, we present hard sample DPO to further strengthen their reasoning ability. In this manner, GuardReasoner achieves better performance, explainability, and generalizability. Extensive experiments and analyses on 13 benchmarks of 3 guardrail tasks demonstrate its superiority. Remarkably, GuardReasoner 8B surpasses GPT-4o+CoT by 5.74% and LLaMA Guard 3 8B by 20.84% F1 score on average. We release the training data, code, and models with different scales (1B, 3B, 8B) of GuardReasoner : https://github.com/yueliu1999/GuardReasoner/.

Related Topics

Computer Science

Concepts

Computer science Political science

Metadata

Type: preprint
Language: en
Landing Page: http://arxiv.org/abs/2501.18492
PDF: https://arxiv.org/pdf/2501.18492
OA Status: green
Cited By: 2
Related Works: 10
OpenAlex ID: https://openalex.org/W4407012568

All OpenAlex metadata

Raw OpenAlex JSON

OpenAlex ID: https://openalex.org/W4407012568

Canonical identifier for this work in OpenAlex
DOI: https://doi.org/10.48550/arxiv.2501.18492

Digital Object Identifier
Title: GuardReasoner: Towards Reasoning-based LLM Safeguards

Work title
Type: preprint

OpenAlex work type
Language: en

Primary language
Publication year: 2025

Year of publication
Publication date: 2025-01-30

Full publication date if available
Authors: Yue Liu, Hongcheng Gao, Suodi Zhai, Jun Xia, Tianyi Wu, Zhiwei Xue, Yulin Chen, Kenichi Kawaguchi, J. J. Zhang, Bryan Hooi

List of authors in order
Landing page: https://arxiv.org/abs/2501.18492

Publisher landing page
PDF URL: https://arxiv.org/pdf/2501.18492

Direct link to full text PDF
Open access: Yes

Whether a free full text is available
OA status: green

Open access status per OpenAlex
OA URL: https://arxiv.org/pdf/2501.18492

Direct OA link when available
Concepts: Computer science, Political science

Top concepts (fields/topics) attached by OpenAlex
Cited by: 2

Total citation count in OpenAlex
Citations by year (recent): 2025: 2

Per-year citation counts (last 5 years)
Related works (count): 10

Other works algorithmically related by OpenAlex

Full payload

id	https://openalex.org/W4407012568
doi	https://doi.org/10.48550/arxiv.2501.18492
ids.doi	https://doi.org/10.48550/arxiv.2501.18492
ids.openalex	https://openalex.org/W4407012568
fwci
type	preprint
title	GuardReasoner: Towards Reasoning-based LLM Safeguards
biblio.issue
biblio.volume
biblio.last_page
biblio.first_page
topics[0].id	https://openalex.org/T12034
topics[0].field.id	https://openalex.org/fields/17
topics[0].field.display_name	Computer Science
topics[0].score	0.9628000259399414
topics[0].domain.id	https://openalex.org/domains/3
topics[0].domain.display_name	Physical Sciences
topics[0].subfield.id	https://openalex.org/subfields/1710
topics[0].subfield.display_name	Information Systems
topics[0].display_name	Digital and Cyber Forensics
topics[1].id	https://openalex.org/T13999
topics[1].field.id	https://openalex.org/fields/17
topics[1].field.display_name	Computer Science
topics[1].score	0.9495999813079834
topics[1].domain.id	https://openalex.org/domains/3
topics[1].domain.display_name	Physical Sciences
topics[1].subfield.id	https://openalex.org/subfields/1710
topics[1].subfield.display_name	Information Systems
topics[1].display_name	Digital Rights Management and Security
is_xpac	False
apc_list
apc_paid
concepts[0].id	https://openalex.org/C41008148
concepts[0].level	0
concepts[0].score	0.3715004324913025
concepts[0].wikidata	https://www.wikidata.org/wiki/Q21198
concepts[0].display_name	Computer science
concepts[1].id	https://openalex.org/C17744445
concepts[1].level	0
concepts[1].score	0.3343525528907776
concepts[1].wikidata	https://www.wikidata.org/wiki/Q36442
concepts[1].display_name	Political science
keywords[0].id	https://openalex.org/keywords/computer-science
keywords[0].score	0.3715004324913025
keywords[0].display_name	Computer science
keywords[1].id	https://openalex.org/keywords/political-science
keywords[1].score	0.3343525528907776
keywords[1].display_name	Political science
language	en
locations[0].id	pmh:oai:arXiv.org:2501.18492
locations[0].is_oa	True
locations[0].source.id	https://openalex.org/S4306400194
locations[0].source.issn
locations[0].source.type	repository
locations[0].source.is_oa	True
locations[0].source.issn_l
locations[0].source.is_core	False
locations[0].source.is_in_doaj	False
locations[0].source.display_name	arXiv (Cornell University)
locations[0].source.host_organization	https://openalex.org/I205783295
locations[0].source.host_organization_name	Cornell University
locations[0].source.host_organization_lineage	https://openalex.org/I205783295
locations[0].license
locations[0].pdf_url	https://arxiv.org/pdf/2501.18492
locations[0].version	submittedVersion
locations[0].raw_type	text
locations[0].license_id
locations[0].is_accepted	False
locations[0].is_published	False
locations[0].raw_source_name
locations[0].landing_page_url	http://arxiv.org/abs/2501.18492
locations[1].id	doi:10.48550/arxiv.2501.18492
locations[1].is_oa	True
locations[1].source.id	https://openalex.org/S4306400194
locations[1].source.issn
locations[1].source.type	repository
locations[1].source.is_oa	True
locations[1].source.issn_l
locations[1].source.is_core	False
locations[1].source.is_in_doaj	False
locations[1].source.display_name	arXiv (Cornell University)
locations[1].source.host_organization	https://openalex.org/I205783295
locations[1].source.host_organization_name	Cornell University
locations[1].source.host_organization_lineage	https://openalex.org/I205783295
locations[1].license
locations[1].pdf_url
locations[1].version
locations[1].raw_type	article
locations[1].license_id
locations[1].is_accepted	False
locations[1].is_published
locations[1].raw_source_name
locations[1].landing_page_url	https://doi.org/10.48550/arxiv.2501.18492
indexed_in	arxiv, datacite
authorships[0].author.id	https://openalex.org/A5052785781
authorships[0].author.orcid	https://orcid.org/0000-0001-5188-5943
authorships[0].author.display_name	Yue Liu
authorships[0].author_position	first
authorships[0].raw_author_name	Liu, Yue
authorships[0].is_corresponding	False
authorships[1].author.id	https://openalex.org/A5110370692
authorships[1].author.orcid
authorships[1].author.display_name	Hongcheng Gao
authorships[1].author_position	middle
authorships[1].raw_author_name	Gao, Hongcheng
authorships[1].is_corresponding	False
authorships[2].author.id	https://openalex.org/A5001856496
authorships[2].author.orcid	https://orcid.org/0000-0003-2220-359X
authorships[2].author.display_name	Suodi Zhai
authorships[2].author_position	middle
authorships[2].raw_author_name	Zhai, Shengfang
authorships[2].is_corresponding	False
authorships[3].author.id	https://openalex.org/A5075655523
authorships[3].author.orcid	https://orcid.org/0000-0002-9864-7835
authorships[3].author.display_name	Jun Xia
authorships[3].author_position	middle
authorships[3].raw_author_name	Xia, Jun
authorships[3].is_corresponding	False
authorships[4].author.id	https://openalex.org/A5101956446
authorships[4].author.orcid	https://orcid.org/0000-0002-8719-6821
authorships[4].author.display_name	Tianyi Wu
authorships[4].author_position	middle
authorships[4].raw_author_name	Wu, Tianyi
authorships[4].is_corresponding	False
authorships[5].author.id	https://openalex.org/A5015109542
authorships[5].author.orcid	https://orcid.org/0000-0002-9761-0838
authorships[5].author.display_name	Zhiwei Xue
authorships[5].author_position	middle
authorships[5].raw_author_name	Xue, Zhiwei
authorships[5].is_corresponding	False
authorships[6].author.id	https://openalex.org/A5100398899
authorships[6].author.orcid	https://orcid.org/0000-0002-7902-1167
authorships[6].author.display_name	Yulin Chen
authorships[6].author_position	middle
authorships[6].raw_author_name	Chen, Yulin
authorships[6].is_corresponding	False
authorships[7].author.id	https://openalex.org/A5054821925
authorships[7].author.orcid	https://orcid.org/0000-0002-9301-6321
authorships[7].author.display_name	Kenichi Kawaguchi
authorships[7].author_position	middle
authorships[7].raw_author_name	Kawaguchi, Kenji
authorships[7].is_corresponding	False
authorships[8].author.id	https://openalex.org/A5031399206
authorships[8].author.orcid
authorships[8].author.display_name	J. J. Zhang
authorships[8].author_position	middle
authorships[8].raw_author_name	Zhang, Jiaheng
authorships[8].is_corresponding	False
authorships[9].author.id	https://openalex.org/A5065675832
authorships[9].author.orcid	https://orcid.org/0000-0002-5645-1754
authorships[9].author.display_name	Bryan Hooi
authorships[9].author_position	last
authorships[9].raw_author_name	Hooi, Bryan
authorships[9].is_corresponding	False
has_content.pdf	False
has_content.grobid_xml	False
is_paratext	False
open_access.is_oa	True
open_access.oa_url	https://arxiv.org/pdf/2501.18492
open_access.oa_status	green
open_access.any_repository_has_fulltext	False
created_date	2025-10-10T00:00:00
display_name	GuardReasoner: Towards Reasoning-based LLM Safeguards
has_fulltext	False
is_retracted	False
updated_date	2025-11-06T06:51:31.235846
primary_topic.id	https://openalex.org/T12034
primary_topic.field.id	https://openalex.org/fields/17
primary_topic.field.display_name	Computer Science
primary_topic.score	0.9628000259399414
primary_topic.domain.id	https://openalex.org/domains/3
primary_topic.domain.display_name	Physical Sciences
primary_topic.subfield.id	https://openalex.org/subfields/1710
primary_topic.subfield.display_name	Information Systems
primary_topic.display_name	Digital and Cyber Forensics
related_works	https://openalex.org/W4391375266, https://openalex.org/W2899084033, https://openalex.org/W2748952813, https://openalex.org/W2390279801, https://openalex.org/W4391913857, https://openalex.org/W2358668433, https://openalex.org/W4396701345, https://openalex.org/W2376932109, https://openalex.org/W2001405890, https://openalex.org/W4396696052
cited_by_count	2
counts_by_year[0].year	2025
counts_by_year[0].cited_by_count	2
locations_count	2
best_oa_location.id	pmh:oai:arXiv.org:2501.18492
best_oa_location.is_oa	True
best_oa_location.source.id	https://openalex.org/S4306400194
best_oa_location.source.issn
best_oa_location.source.type	repository
best_oa_location.source.is_oa	True
best_oa_location.source.issn_l
best_oa_location.source.is_core	False
best_oa_location.source.is_in_doaj	False
best_oa_location.source.display_name	arXiv (Cornell University)
best_oa_location.source.host_organization	https://openalex.org/I205783295
best_oa_location.source.host_organization_name	Cornell University
best_oa_location.source.host_organization_lineage	https://openalex.org/I205783295
best_oa_location.license
best_oa_location.pdf_url	https://arxiv.org/pdf/2501.18492
best_oa_location.version	submittedVersion
best_oa_location.raw_type	text
best_oa_location.license_id
best_oa_location.is_accepted	False
best_oa_location.is_published	False
best_oa_location.raw_source_name
best_oa_location.landing_page_url	http://arxiv.org/abs/2501.18492
primary_location.id	pmh:oai:arXiv.org:2501.18492
primary_location.is_oa	True
primary_location.source.id	https://openalex.org/S4306400194
primary_location.source.issn
primary_location.source.type	repository
primary_location.source.is_oa	True
primary_location.source.issn_l
primary_location.source.is_core	False
primary_location.source.is_in_doaj	False
primary_location.source.display_name	arXiv (Cornell University)
primary_location.source.host_organization	https://openalex.org/I205783295
primary_location.source.host_organization_name	Cornell University
primary_location.source.host_organization_lineage	https://openalex.org/I205783295
primary_location.license
primary_location.pdf_url	https://arxiv.org/pdf/2501.18492
primary_location.version	submittedVersion
primary_location.raw_type	text
primary_location.license_id
primary_location.is_accepted	False
primary_location.is_published	False
primary_location.raw_source_name
primary_location.landing_page_url	http://arxiv.org/abs/2501.18492
publication_date	2025-01-30
publication_year	2025
referenced_works_count	0
abstract_inverted_index.3	94, 110
abstract_inverted_index.:	134
abstract_inverted_index.a	12, 19
abstract_inverted_index.13	91
abstract_inverted_index.8B	102, 111
abstract_inverted_index.As	0
abstract_inverted_index.F1	114
abstract_inverted_index.In	63, 76
abstract_inverted_index.We	118
abstract_inverted_index.by	24, 105, 112
abstract_inverted_index.of	42, 60, 93, 132
abstract_inverted_index.on	90, 116
abstract_inverted_index.to	29, 31, 55, 70
abstract_inverted_index.we	34, 51, 65
abstract_inverted_index.3B,	130
abstract_inverted_index.8B)	131
abstract_inverted_index.DPO	69
abstract_inverted_index.SFT	54
abstract_inverted_index.and	84, 88, 107, 124
abstract_inverted_index.for	22
abstract_inverted_index.its	98
abstract_inverted_index.key	13
abstract_inverted_index.new	20
abstract_inverted_index.the	26, 37, 57, 120
abstract_inverted_index.(1B,	129
abstract_inverted_index.127K	43
abstract_inverted_index.460K	46
abstract_inverted_index.LLMs	1
abstract_inverted_index.This	15
abstract_inverted_index.hard	67
abstract_inverted_index.this	77
abstract_inverted_index.with	45, 126
abstract_inverted_index.5.74%	106
abstract_inverted_index.Guard	109
abstract_inverted_index.LLMs,	23
abstract_inverted_index.LLaMA	108
abstract_inverted_index.Then,	50
abstract_inverted_index.code,	123
abstract_inverted_index.data,	122
abstract_inverted_index.first	35
abstract_inverted_index.guard	27, 61
abstract_inverted_index.learn	30
abstract_inverted_index.model	28
abstract_inverted_index.paper	16
abstract_inverted_index.score	115
abstract_inverted_index.tasks	96
abstract_inverted_index.their	7, 73
abstract_inverted_index.using	9
abstract_inverted_index.which	40
abstract_inverted_index.20.84%	113
abstract_inverted_index.better	81
abstract_inverted_index.create	36
abstract_inverted_index.impact	3
abstract_inverted_index.models	125
abstract_inverted_index.safety	8
abstract_inverted_index.sample	68
abstract_inverted_index.scales	128
abstract_inverted_index.steps.	49
abstract_inverted_index.unlock	56
abstract_inverted_index.further	71
abstract_inverted_index.guiding	25
abstract_inverted_index.manner,	78
abstract_inverted_index.models.	62
abstract_inverted_index.present	66
abstract_inverted_index.reason.	32
abstract_inverted_index.release	119
abstract_inverted_index.remains	11
abstract_inverted_index.samples	44
abstract_inverted_index.ability.	75
abstract_inverted_index.achieves	80
abstract_inverted_index.analyses	89
abstract_inverted_index.average.	117
abstract_inverted_index.consists	41
abstract_inverted_index.dataset,	39
abstract_inverted_index.detailed	47
abstract_inverted_index.ensuring	6
abstract_inverted_index.proposes	17
abstract_inverted_index.training	121
abstract_inverted_index.Extensive	86
abstract_inverted_index.addition,	64
abstract_inverted_index.different	127
abstract_inverted_index.guardrail	95
abstract_inverted_index.introduce	52
abstract_inverted_index.reasoning	48, 53, 58, 74
abstract_inverted_index.safeguard	21
abstract_inverted_index.surpasses	103
abstract_inverted_index.GPT-4o+CoT	104
abstract_inverted_index.benchmarks	92
abstract_inverted_index.capability	59
abstract_inverted_index.challenge.	14
abstract_inverted_index.guardrails	10
abstract_inverted_index.strengthen	72
abstract_inverted_index.Concretely,	33
abstract_inverted_index.Remarkably,	100
abstract_inverted_index.demonstrate	97
abstract_inverted_index.experiments	87
abstract_inverted_index.increasingly	2
abstract_inverted_index.performance,	82
abstract_inverted_index.superiority.	99
abstract_inverted_index.GuardReasoner	79, 101, 133
abstract_inverted_index.applications,	5
abstract_inverted_index.GuardReasoner,	18
abstract_inverted_index.explainability,	83
abstract_inverted_index.safety-critical	4
abstract_inverted_index.generalizability.	85
abstract_inverted_index.GuardReasonerTrain	38
abstract_inverted_index.https://github.com/yueliu1999/GuardReasoner/.	135
cited_by_percentile_year
countries_distinct_count	0
institutions_distinct_count	10
citation_normalized_percentile