🛡️ GPT-4도 속아넘어간다?! 설득형 공격의 비밀 : How Johnny Can Persuade LLMs to Jailbreak Them

  Рет қаралды 393

딥러닝논문읽기모임

딥러닝논문읽기모임

Күн бұрын

오늘 소개해드릴 논문은 "How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs"입니다. 이 논문은 Virginia Tech, Stanford University, UC Davis 연구팀이 LLMs(Large Language Models)의 설득적 공격(persuasive adversarial prompts, PAP)을 연구하여, 인간적인 설득 방식을 통해 모델의 안전성을 도전하는 새로운 관점을 제시합니다.

Пікірлер: 1
@Rosariajo-g1b
@Rosariajo-g1b 2 ай бұрын
좋은 정보 감사합니다~^^ 항상 응원합니다!
Chain of Thought Reasoning Without Prompting
24:32
딥러닝논문읽기모임
Рет қаралды 508
黑天使被操控了#short #angel #clown
00:40
Super Beauty team
Рет қаралды 61 МЛН
黑天使只对C罗有感觉#short #angel #clown
00:39
Super Beauty team
Рет қаралды 36 МЛН
Quilt Challenge, No Skills, Just Luck#Funnyfamily #Partygames #Funny
00:32
Family Games Media
Рет қаралды 55 МЛН
DeepSeek-R1 Paper Review
56:13
JoonHo LEE
Рет қаралды 2,8 М.
[웨비나] HCI 칼리제 제7기 입학 설명회
1:04:44
컴패노이드 랩스 Companoid Labs
Рет қаралды 120
AIKU 25-1 Seminar 4회 : 'Deep' to the future
11:15
AIKU : 고려대학교 정보대학 딥러닝 학회
Рет қаралды 16