Yinzhuo Chen YOU? Author Swipe

Last 10y

PMoL: Parameter Efficient MoE for Preference Mixing of LLM Alignment Open

Deyu Liu, Bing Xu, Yinzhuo Chen, Baiping Xu, Wenpeng Lü , et al. · 2024

Reinforcement Learning from Human Feedback (RLHF) has been proven to be an effective method for preference alignment of large language models (LLMs) and is widely used in the post-training process of LLMs. However, RLHF struggles with hand…