Рет қаралды 393
오늘 소개해드릴 논문은 "How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs"입니다. 이 논문은 Virginia Tech, Stanford University, UC Davis 연구팀이 LLMs(Large Language Models)의 설득적 공격(persuasive adversarial prompts, PAP)을 연구하여, 인간적인 설득 방식을 통해 모델의 안전성을 도전하는 새로운 관점을 제시합니다.