DETR: End-to-End Object Detection with Transformers (꼼꼼한 딥러닝 논문 리뷰와 코드 실습)

Рет қаралды 57,399

Күн бұрын

본 논문은 Facebook Research 팀이 2020년 8월에 ECCV에서 발표한 이미지 내 객체 탐지(Object Detection) 방법에 관한 논문으로, 기존의 객체 탐지 기술과 비교했을 때 매우 간단한 아키텍처를 가지면서 높은 성능을 내는 방법을 제안하였습니다. 발표된 지 얼마 안 되었으나 많은 이목을 끌고 있어 리뷰해 보았습니다.
본 시리즈의 동영상에서 사용된 강의 자료(PPT)와 코드는 다음의 깃허브 저장소에 업로드됩니다.
github.com/ndb...

Пікірлер: 26

@MK-md7dd 4 жыл бұрын

ㄷㄷㄷ 이 시간에 이렇게 좋은 영상을

@TheDavidROK 3 жыл бұрын

정말 좋은 리뷰 감사합니다. 아주 큰 도움이 되었습니다. 왜 이제야 이 채널을 알게됐는지 아쉬울 정도네요 하핳 최근 Train Epoch을 50으로 감소시키고도 정확도 개선을 이루어낸 Deformable DETR이 발표되었는데 혹시 리뷰하실 생각이 있으신지 여쭤보고싶습니다!

@kahuz616 4 жыл бұрын

이런 귀한 자료를.. 감사합니다 ㅎㅎ

@sotasonna1304 Жыл бұрын

와우 리뷰 최고네요 감탄하고 갑니다

@peytonhong 3 жыл бұрын

감사합니다!

@conanshin2511 2 жыл бұрын

안녕하세요. 영상 잘 보고 있습니다. 감사합니다. DETR 예제코드를 깃헙에서 열람할 수 없던데 혹시 다운받을 수 있는 주소가 있을까요?

@김동섭-v4g 2 жыл бұрын

감사합니다

@letsgrow4412 3 жыл бұрын

Seems like great content, can you please do English videos as well

@qg939 4 жыл бұрын

동빈님 영어공부 어떻게 하셨나요? 현재 저는 스택오버는 어느 정도 볼 줄 아는데 저런 논문이나 긴 글은 아직 힘드네요. 읽다가 지쳐가지구ㅠ 읽으실 때 핵심만 보시는지(전공 단어 같은거) 아니면 전체적으로 보시는지 궁금합니다.

@dongbinna 4 жыл бұрын

기술적인 부분 말고 영어 독해만 말씀하시는 거라면 개인차가 있는 것 같습니다. 저는 개인적으로 영어만 보았을 때 논문이 스택 오버플로우보다 더 읽기 쉽더라구요. 일단 학술 영어는 문법에 맞게 잘 쓰이기 때문에, 수능 영어에 익숙한 우리에게 상당히 잘 읽히는 것 같습니다. 반면에 스택 오버플로우나 포럼은 조금 다른 것 같아요. 그리고 가능하면 시간 투자해서 전체 본문을 다 읽으려고 노력하는 편입니다.

@wwle5591 3 жыл бұрын

저는 논문 빼먹지 않고 다 보려고 하다보니까 자연스레 논문읽는 스킬이 생기던데요. 영어는 공부라기 보단, 정확히 영어문법에 따라 리딩만 할줄 알면은 익숙해 지시는게 좋을듯요..

@wwle5591 3 жыл бұрын

항상 영상 잘 보고 있습니다!. 질문 있는데, object query사 learnt positional encoding이라고 하면, object query를 입력으로 받는 디코더는 이미 GT의 위치를 알고 있다는 것인가요? fully supervised에 가까운 개념인 것 같아서요. object query를 얻는 과정에 대한 설명이 논문에 없어서 이부분이 햇갈리네요. 결국 object query를 디코더에 입력하는데 이 N개라고 정의하는 object query 자체가 매우 중요한 역할을 할 것 같은데용..

@순후추-j3e 4 жыл бұрын

동빈이형 또 노래 커버 영상 올려주세요 이 밤이 지나면 커버보고 깜짝 놀랐자나요6

@JiyuKim-sr1mi 2 жыл бұрын

anchor box와 bounding box의 차이점이 뭔가요?

@ktjjang01se 4 жыл бұрын

Thank you for this great review and walkthrough!

@user-yg3qf1zt5i 4 жыл бұрын

이분 매칭을진행할때 실제 정답 값이랑 비교한다는거면 object가 2개의 위치에대한 것도 미리 구해놔서 학습을 시켜주는건가요??

@dongbinna 4 жыл бұрын

Object Detection은 일반적으로 지도 학습의 한 갈래이므로, 학습 과정에서는 정답을 알려주면서 모델을 학습시킵니다. 학습을 진행할 때(training phase)에는, 실제 정답 값(Ground-truth)과 모델의 예측 결과를 비교합니다. 만약 현재 학습하고 있는 이미지에 2개의 강아지 인스턴스가 있다고 해봅시다. N = 5라고 설정했다면, 다음과 같이 정답 데이터를 미리 만들어 놓은 뒤에 학습을 진행합니다. (c1=dog, b1=첫 번째 강아지 위치) (c2=dog, b2=두 번째 강아지 위치) (c3=no object, b3) (c4=no object, b4) (c5=no object, b5) 말씀하신 대로 학습을 진행할 때에는 "각 학습 이미지 내에 존재하는 모든 인스턴스의 클래스와 바운딩 박스에 대한 정보를 입력으로 넣어 주어야" 합니다. 그렇게 학습이 다 끝난 이후에 평가를 진행할 때에는, 모델이 내보낸 예측 결과(output)만 가지고 평가용 이미지 내에 물체가 있을 법한 위치를 예측할 수 있습니다.

@user-yg3qf1zt5i 4 жыл бұрын

동빈나 감사합니다😀

@joonwonlee3419 4 жыл бұрын

안녕하세요. 이쪽 분야에 대한 관심을 막 갖기 시작한 학생입니다. 학습하고 있는 이미지에 개가 두마리가 있다고 가정한다는 것은 문맥상 prior information을 의미하는 것인가요? 기존의 데이터가 많을 때 그 데이터로 학습 대상 이미지에 대한 확률분포를 추정한 것이 prior information이라고 이해해도 될까요. 그리고 이 prior information은 기존의 parametric 방법을 통해 추정을 하고 학습 이미지를 통한 예측과 실제 대상의 오차를 비교하는 것은 nonparametric한 것으로 이해되는데 맞는지 모르겠습니다.