Рет қаралды 591
최근 AI 빅테크들은 막대한 자원을 바탕으로 인공지능 모델, 특히 대형언어모델 (LLM)의 추론 능력을 극한으로 끌어올리고 있다. 이러한 발전에는 LLM의 출력 분포를 인간 선호에 맞게 정렬하는 Reinforcement Learning from Human Feedback (RLHF) 학습 방식이 핵심적인 역할을 했다. RLHF는 인간 선호도 데이터셋을 이용해 강화학습 기반으로 모델을 fine-tuning하는 방식인데, 이렇게 학습함으로써 LLM은 더 유용하고 안전한 답변을 생성할 수 있게 된다. 2023년 5월, 이 RLHF 방식에서 보상 모델 학습 없이 인간 선호도 데이터셋만을 이용해 LLM을 직접 fine-tuning하는 Direct Preference Optimization (DPO)이 등장했다. 보상 모델을 명시적으로 정의하지 않고도 인간 선호를 대형 모델에 바로 학습시킬 수 있는 DPO가 공개되자, LLM뿐만 아니라 text-to-image 생성모델, 특히 디퓨전 모델에도 이 기법을 적용하려는 시도가 진행되었다. 이번 세미나에선 RLHF 및 DPO의 개념을 살펴보고 이를 디퓨전 모델에 적용한 두 연구, Diffusion-DPO와 Direct Consistency Optimization에 대해 알아본다.
참고자료:
[1] Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30.
[2] Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2024). Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36.
[3] Wallace, B., Dang, M., Rafailov, R., Zhou, L., Lou, A., Purushwalkam, S., ... & Naik, N. (2023). Diffusion model alignment using direct preference optimization. arXiv preprint arXiv:2311.12908.
[4] Lee, K., Kwak, S., Sohn, K., & Shin, J. (2024). Direct Consistency Optimization for Compositional Text-to-Image Personalization. arXiv preprint arXiv:2402.12004.