Conditional Language Policy: A General Framework for Steerable Multi-Objective Finetuning

Exploring foci of: arXiv (Cornell University) Conditional Language Policy: A General Framework for Steerable Multi-Objective Finetuning July 2024 • Kaiwen Wang, Rahul Kidambi, Ryan Sullivan, A. Agarwal, Christoph Dann, Andrea Michi, Marco Gelmi, Yunxuan Li, Raghav Gupta, Avinava Dubey, Alexandre … Reward-based finetuning is crucial for aligning language policies with intended behaviors (e.g., creativity and safety). A key challenge is to develop steerable language models that trade-off multiple (conflicting) objectives in a flexible and efficient manner. This paper presents Conditional Language Policy (CLP), a general framework for finetuning language models on multiple objectives. Building on techniques from multi-task training and parameter-efficient finetuning, CLP learn steerable models that effectively… Open Article Page

Computer Science Open Article