No video

[Open DMQA Seminar] Direct Preference Optimization with Diffusion Models

  Рет қаралды 591

‍김성범[ 교수 / 산업경영공학부 ]

‍김성범[ 교수 / 산업경영공학부 ]

Күн бұрын

최근 AI 빅테크들은 막대한 자원을 바탕으로 인공지능 모델, 특히 대형언어모델 (LLM)의 추론 능력을 극한으로 끌어올리고 있다. 이러한 발전에는 LLM의 출력 분포를 인간 선호에 맞게 정렬하는 Reinforcement Learning from Human Feedback (RLHF) 학습 방식이 핵심적인 역할을 했다. RLHF는 인간 선호도 데이터셋을 이용해 강화학습 기반으로 모델을 fine-tuning하는 방식인데, 이렇게 학습함으로써 LLM은 더 유용하고 안전한 답변을 생성할 수 있게 된다. 2023년 5월, 이 RLHF 방식에서 보상 모델 학습 없이 인간 선호도 데이터셋만을 이용해 LLM을 직접 fine-tuning하는 Direct Preference Optimization (DPO)이 등장했다. 보상 모델을 명시적으로 정의하지 않고도 인간 선호를 대형 모델에 바로 학습시킬 수 있는 DPO가 공개되자, LLM뿐만 아니라 text-to-image 생성모델, 특히 디퓨전 모델에도 이 기법을 적용하려는 시도가 진행되었다. 이번 세미나에선 RLHF 및 DPO의 개념을 살펴보고 이를 디퓨전 모델에 적용한 두 연구, Diffusion-DPO와 Direct Consistency Optimization에 대해 알아본다.
참고자료:
[1] Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30.
[2] Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., & Finn, C. (2024). Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36.
[3] Wallace, B., Dang, M., Rafailov, R., Zhou, L., Lou, A., Purushwalkam, S., ... & Naik, N. (2023). Diffusion model alignment using direct preference optimization. arXiv preprint arXiv:2311.12908.
[4] Lee, K., Kwak, S., Sohn, K., & Shin, J. (2024). Direct Consistency Optimization for Compositional Text-to-Image Personalization. arXiv preprint arXiv:2402.12004.

Пікірлер: 2
@user-rl9px9jg5e
@user-rl9px9jg5e 2 ай бұрын
좋은 강의 너무 잘 들었습니다. 감사합니다
@user-uz7xk8ov1i
@user-uz7xk8ov1i Ай бұрын
알찬 내용이었습니다 감사드려요
Why Does Diffusion Work Better than Auto-Regression?
20:18
Algorithmic Simplicity
Рет қаралды 293 М.
[Open DMQA Seminar] Conditional Diffusion Models
38:00
‍김성범[ 교수 / 산업경영공학부 ]
Рет қаралды 9 М.
Unveiling my winning secret to defeating Maxim!😎| Free Fire Official
00:14
Garena Free Fire Global
Рет қаралды 11 МЛН
女孩妒忌小丑女? #小丑#shorts
00:34
好人小丑
Рет қаралды 87 МЛН
小丑把天使丢游泳池里#short #angel #clown
00:15
Super Beauty team
Рет қаралды 48 МЛН
Violet Beauregarde Doll🫐
00:58
PIRANKA
Рет қаралды 40 МЛН
PR-453: Direct Preference Optimization
37:12
JoonHo LEE
Рет қаралды 3,8 М.
[Open DMQA Seminar] Class Mismatch in Domain Adaptation
29:41
‍김성범[ 교수 / 산업경영공학부 ]
Рет қаралды 464
Has Generative AI Already Peaked? - Computerphile
12:48
Computerphile
Рет қаралды 968 М.
[Open DMQA Seminar] Machine Learning for Combinatorial Optimization
44:41
‍김성범[ 교수 / 산업경영공학부 ]
Рет қаралды 662
[Open DMQA Seminar] Image Denoising
31:18
‍김성범[ 교수 / 산업경영공학부 ]
Рет қаралды 793
[Open DMQA Seminar] Neural Combinatorial Optimization
1:06:25
‍김성범[ 교수 / 산업경영공학부 ]
Рет қаралды 773
How AI 'Understands' Images (CLIP) - Computerphile
18:05
Computerphile
Рет қаралды 196 М.
[Open DMQA Seminar]  Domain Adaptation
1:27:57
‍김성범[ 교수 / 산업경영공학부 ]
Рет қаралды 1,3 М.
Unveiling my winning secret to defeating Maxim!😎| Free Fire Official
00:14
Garena Free Fire Global
Рет қаралды 11 МЛН