Przejdź do trybu offline z Player FM !
RLHF Workflow: From Reward Modeling to Online RLHF
Manage episode 418218460 series 3524393
The paper introduces Online Iterative Reinforcement Learning from Human Feedback (RLHF) workflow, achieving superior performance in large language models using open-source datasets and proxy human feedback.
https://arxiv.org/abs//2405.07863
YouTube: https://www.youtube.com/@ArxivPapers
TikTok: https://www.tiktok.com/@arxiv_papers
Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016
Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers
--- Support this podcast: https://podcasters.spotify.com/pod/show/arxiv-papers/support
1137 odcinków
Manage episode 418218460 series 3524393
The paper introduces Online Iterative Reinforcement Learning from Human Feedback (RLHF) workflow, achieving superior performance in large language models using open-source datasets and proxy human feedback.
https://arxiv.org/abs//2405.07863
YouTube: https://www.youtube.com/@ArxivPapers
TikTok: https://www.tiktok.com/@arxiv_papers
Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016
Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers
--- Support this podcast: https://podcasters.spotify.com/pod/show/arxiv-papers/support
1137 odcinków
Wszystkie odcinki
×Zapraszamy w Player FM
Odtwarzacz FM skanuje sieć w poszukiwaniu wysokiej jakości podcastów, abyś mógł się nią cieszyć już teraz. To najlepsza aplikacja do podcastów, działająca na Androidzie, iPhonie i Internecie. Zarejestruj się, aby zsynchronizować subskrypcje na różnych urządzeniach.