[Paper Review] Training Large Language Models to Reason in a Continuous Latent Space

  Рет қаралды 698

서울대학교 산업공학과 DSBA 연구실

서울대학교 산업공학과 DSBA 연구실

Күн бұрын

발표자: 박사과정 김재희
1. 논문 제목: Training Large Language Models to Reason in a Continuous Latent Space
2. 논문 링크: arxiv.org/abs/...
3. Overview:
latent mode를 활용한 reasoning 유도 학습/추론 프레임워크 제안
continuous reasoning 시 모델의 추론 방식에 대한 다양한 분석 진행
기존 CoT 방식 대비 성능 소폭 개선 및 추론 토큰 수 감소

Пікірлер: 1
[Paper Review] Byte Latent Transformer: Patches Scale Better Than Tokens
36:10
서울대학교 산업공학과 DSBA 연구실
Рет қаралды 1,2 М.
[Paper Review] Large Language Models for Time Series Anomaly Detection
1:12:14
서울대학교 산업공학과 DSBA 연구실
Рет қаралды 702
The evil clown plays a prank on the angel
00:39
超人夫妇
Рет қаралды 53 МЛН
1% vs 100% #beatbox #tiktok
01:10
BeatboxJCOP
Рет қаралды 67 МЛН
CompTIA Network+ Certification Video Course
3:46:51
PowerCert Animated Videos
Рет қаралды 9 МЛН
Atoms and Light: The Interaction and Nature of Light and Matter
3:47:31
Jason Kendall
Рет қаралды 478 М.
[Paper Review] MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark
29:44
서울대학교 산업공학과 DSBA 연구실
Рет қаралды 516
[Paper Review] AgentInstruct:Toward Generative Teaching with Agentic Flows
32:56
서울대학교 산업공학과 DSBA 연구실
Рет қаралды 513
XAI 1주차 Introduction - Part 1
49:10
서울대학교 산업공학과 DSBA 연구실
Рет қаралды 795
Deep Learning Interview Prep Course
3:59:50
freeCodeCamp.org
Рет қаралды 539 М.
[Paper Review] MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning
49:05
서울대학교 산업공학과 DSBA 연구실
Рет қаралды 266
Attention in transformers, step-by-step | DL6
26:10
3Blue1Brown
Рет қаралды 2,1 МЛН