Staggered DiD의 중요한 가정중 treatment 시점에대한 random assignment가 가정이 되어야하는걸로 아는데, 게임패치의 타이밍이 random한지에 대한 여부에대해 의문점이 있습니다. 게임패치 타이밍 자체가 랜덤하지 않는건 당연하다고 생각하는데(ex 유저 요청에 따라 패치 타이밍이 조정될수있다는 점), 이 부분에 대한 디스커션이 있는지요?
@causaldatascience25 күн бұрын
Staggered DID 에서 처치 시점에 대한 무작위 배정에 대한 가정이 있는 것은 맞지만, 이는 standard DID 및 여타 준실험 방법론에도 모두 적용되는 일반적인 가정입니다. 다만, 여기서 무작위 배정의 의미는 실제 동전 던지기와 같은 방식으로 무작위 배정이 되어야 한다기 보다는, 관심 대상이 되는 결과변수(또는 그러한 변수에 영향을 줄 수 있는 교란요인)와 무관하게 (외생적으로) 배정되어야 한다는 의미로 이해해야 합니다. 따라서, 본 강의에서 "보스 클리어 타임"에 대한 효과를 분석할 경우에, 만약 게임 밸런스 패치가 이와 무관한 순서로 순차적으로 적용이 되었다면 해당 가정은 충족할 수 있다고 볼 수 있습니다. 물론, 이를 parallel pre-trends 를 통해 통계적으로도 검증할 수 있을 것입니다. 또한, 이는 staggered DID 가 왜 standard DID 에 비해 유리한지에 대해 설명해주기도 합니다. 처치가 한 시점에 발생하는 standard DID 의 경우 특정 시점에서의 처치 배정과 결과변수 간의 관계가 외생적이라는 것을 주장해야 하기 때문에, 해당 시점에 발생한 다양한 교란 요인들로 인해 가정이 성립하지 않을 수 있습니다. 하지만, staggered DID 의 경우에는 서로 다른 샘플에 서로 다른 시점에 배정되는 처치와 결과변수 간의 관계에 대한 외생성을 가정하기 때문에, 서로 다른 샘플에 서로 다른 시점에 발생하는 교란 요인만 고려하면 되고 이러한 가능성은 훨씬 낮기 때문에 외생성 가정을 충족하기 보다 용이하고, 이러한 이유로 staggered DID 가 더 선호되곤 합니다.
@madwon874129 күн бұрын
강의 정말 잘하시네요 감사드립니다!
@justicehappiness1524Ай бұрын
이 노벨수상자들의 논리가 잘못된 것 같은데요.. A: 정착민 사망률, B:포용적 제도, C: 경제성장이라고 할 때, 이들이 이야기한 바는 (1) if 북미, A→B→C, (2) if 아프리카, ~A→~B→~C. 하지만 (1)과 (2)로 부터는A→B→C, 그리고 ~A→~B→~C임을 '보편적'으로 주장할 수 없습니다. 즉, 추가적으로 필요한 검증은 아래처럼 (3) if 북미, A→~B→~C (즉, 북미에서라도 만일 중국식 경제가 도입되었다면 성장할 수 없었다) 그리고 (4) if 아프리카, ~A→B→C (즉, 정착민 사망률이 높기 마련인 아프리카에서도 만일 식민지 침략이 없이 자생적으로 만일 포용적 제도가 도입되었다면 성장할 수 있었다) 인데, 그들은 이 (3)과 (4)에 대하여 함구하고 있음 (만일 3과 4가 성립하지 못한다면, 그들의 주장은 사실 붕괴됨). 그리고, "잠재적 결과"로 인과성을 파악할 수 있다는 논리도 함정이 있는 듯 한데요, 예를 들어, X→Y and X→Z 이고, ~X → ~Y and ~X → ~Z 인 경우, Y가 Z보다 시간적으로 선행한다고 하더라도, 그리고 Y와 Z의 상관이 높다고 하더라도 (예를 들자면 Granger Test 결과가 이를 시사한다고 하더라도), Y는 원인으로 간주할 수 없음.. 하지만 회귀분석시는 마치 . Y→Z, ~Y→ ~Z 으로 보여지기에 Y는 Z의 원인으로 착각할 수 있음 (예. X: 폭우가 온다, Y: 우산이 훨씬 많이 팔린다, Z: 홍수가 난다).
@causaldatascienceАй бұрын
모든 연구들은 비판과 반증의 대상이고, 노벨상 수상 연구들도 예외는 아닐 것입니다. 다만, 본 영상에서 방법론에 대해서 자세히 다루지는 못했지만, 오히려 도구변수의 활용은 제기하신 비판을 해결하기 위한 대안으로 고려되었다고 볼 수 있습니다. 즉, if 북미 vs. if 아프리카 를 비교하게 되면, 두 대륙 간에 수많은 정치적, 사회적, 경제적 차이들이 존재하기 때문에 사회제도의 인과적인 효과만을 분리하여 추론할 수 없습니다. 그래서 본 연구자들의 아이디어는 여러 대륙에 걸쳐 다양하게 나타난 수백년 전의 정착민 사망률을 통해 현 시점에서의 대륙 간의 다양한 차이와 무관한 사회제도의 차이만을 추정할 수 있었고, 이를 통해서 인과추론이 가능했습니다. 이렇게 교란 요인들과 무관한 원인을 외생적이라고 하며, 도구변수의 역할은 원인 변수에서 내생적 요인을 배제하고 외생적 요인만을 추려냄으로써 인과추론을 가능케 하는 것이라고 볼 수 있습니다.
@justicehappiness1524Ай бұрын
@@causaldatascience 제 요지는, 내생성을 피한다 하면서 소위 IV로서 정착민 사망률(X)이라는 것을 집어넣는 것은 사람들의 시선을 엉뚱한 곳으로 집중시켜 주의를 분산시켜 마치 인과관계가 있는 것처럼 착각하게하는 “눈속임”이라는 것입니다. 포용적 제도를 Y라고 경제성장을 Z라고 할 때, 이들은 내생성을 피한다는 구실로 Y→Z을 직접 검증하는 대신 IV로서의 X를 이용하여 X→Z 그리고 X→Y를 끼워넣음으로써, X→Y→Z을 완성시키려고 시도하고 있는데, 이 논리에 함정이 있다는 것입니다. 예를 들자면, 만일 식민지가 아니었던 아프리카에 포용적 제도Y가 도입되었더라도 항상 Z이 결과될 수 있었다는 주장은 할 수 없습니다 (Y→~Z도 가능). 마찬가지로 북미의 경우에 있어서, 유럽 대신 현대의 권위주의적 중국이 이주하였더라도 Z이 결과될 수 있겠지요 (~Y→Z도 가능). 다시말하자면, 위에서 IV로 사용된 X는 사실 ‘단독적’으로 사용된 외생변수가 아니라, ‘유럽인이 식민지를 침범하였더라면’이라는, 간과하면 안되는 암묵적 가정이 숨어 있는 것입니다. 그럼에도 불구하고, 저자들은 Y→Z을 보편적으로 주장하고 있는 것이고, 이러한 오류는 사실 IV변수를 사용하여 내생성을 피한다고 하더라도 해소되지 않는 논리적 결함인 듯 보입니다. 또한 참고로, 그들의 2001년 논문을 보면, 포용적 제도 Y 대신, 외국인의 투자자산을 강제로 몰수할 위험을 변수로 이용하면서 마치 그 변수가 사적소유권 내지는 포용적 제도를 대변하고 있다고 가정하고 있습니다. 그리하여 그 위험이 낮으면 포용적이라는 생각을 하고 있지만, 이 논리도 무수한 문제점을 가지고 있는 듯 합니다. 외국인에게는 관대하지만, 자국민에게는 ‘착취적 제도’도 당연히 존재하고 (칠레 피노체트 정권), 물론 반대의 경우도 존재하겠지요. 또한 그 위험과 경제성장과의 관계도 문제… 그 위험이 높지만 경제성장이 빠른 경우도 있고 (중국), 그 위험이 낮지만 경제 성장이 더딘 경우도 있고 (위의 칠레). 마지막으로, 계량경제학에서의 인과는 작용인으로서의 인과관계는 절대로 될 수 없고, 단순 상관관계, 혹은 시계열상 상관관계에 불과합니다 (참고로 David Hume의 불가지론). 즉, 어떤 경우에는 Y는 원인이 아니라, 어떤 다른 원인에 의한 결과 중의 하나이거나, 혹은 Z을 달성하는 여러 수단 중 하나의 ‘수단’에 불과할 수 있다는 것입니다. 위의 경우, 이 "포용적 제도"가 과연 원인일까요, 아니면, 하나의 "수단"일까요.. 혹은, 다른 변수에 의하여 결과되는 또다른 결과일까요..예를 들자면, 우리는 종종 생산력 (광의의.. 기술, 조직 등등)이라는 표현을 사용하는데, 영국의 경우 북미 식민지에서는 이러한 생산력을 이전하였고, 아프리카에서는 이전하지 않았기에 성장에 영향을 미친 것이고, 이때 사적 소유권 등은 그러한 생산력을 이전하는 수단이라고 볼 수도 있겠지요. 반면, 중국이 북미 식민지를 개척하였다면,사적 소유권이 아닌, 사회주의 체제라는 ‘수단’을 통하여 그 생산력을 이전할 수 있는 것이겠지요. 즉, 포용적 제도 = 사적 소유권은 원인이 아닐 수 있다는 이야기입니다. IV method가 과연 이에 대한 판단을 할 수 있을까요?
@realpark7493Ай бұрын
진짜 이렇게 이해하기 쉽게 가르치시는게 정말 대단하시네요
@지현-q1oАй бұрын
안녕하세요 교수님, 친절한 설명 감사합니다. 패널데이터를 가지고 과제 연구를 하고 있는데 궁금한 점이 있어서요. 질문을 남겨도될까요? 연구의 시작은 y의 차이가 지역별 x의 차이에서 비롯되었을 것이다 였습니다. 지역이 17개라서 샘플수를 위해 10년치 자료를 수집하여서 분석해보자 했는데, 지역별 고정효과를 생각해야 한다고 하더라구요. 1) 랜덤효과로 돌렸을 때는 x가 유의하다고 하였는데, 지역을 고정하는방법(더미변수로 넣기엔 샘플수가 조금 작은거 같아서, within estimator방법으로) 분석을 돌렸을때는 x가 유의하지 않다고 하면 어떻게 해석을 해야하는 것일까요? 2) 처음 생각은 지역별 x의 차이를 살펴보는 것이었는데 지역고정항을 추가하면 x차이도 고정항에 흡수되어버리지는 않는지, 그렇다면 혹시 연도를 고정효과로 두고 분석을 하게되면 틀린 것일까요? 구체적으로 쓰자면, x1은 y의 선행요건으로 생각되는, 그 효과가 너무 확실한 변수라서 넣고, 제가 관심있는것은 x2의 효과인데요. Y= ax1 + bx2 + cx1×x2 + e 이렇게 모델을 잡고 분석을 했습니다.
@causaldatascienceАй бұрын
패널데이터에서 시간에 따라 변하지 않고 고정되어 있는 지역 변수 x 는 지역별 고정효과에 의해서 모두 흡수되어 버리고 효과 추정이 불가합니다 (Within estimator 등의 방법으로 추정치가 도출되었다고 하더라도 의미없는 계수일 가능성이 높습니다). 따라서, 연구의 목적이 고정된 지역 변수의 효과를 추정하는 것이라면 랜덤효과를 적용할 수 밖에 없지 않을까 생각되며, 연도에 따른 고정효과는 지역별 고정효과와는 별개로 추가하는 것이 일반적이기도 합니다.
@tdckhАй бұрын
안녕하세요! 혹시 실무로 통하는 인과추론 특강은 더 이상 진행되지 않는 건가요??
@causaldatascienceАй бұрын
<실무로 통하는 인과추론> 특강은 내부 사정으로 촬영이 조금 지연되고 있지만, 후반부 파트도 연말부터 다시 업로드 될 예정입니다!
@티라노서우루스2 ай бұрын
제가 찾던 강의예요! 좋은 내용 감사합니다.
@stellakim58712 ай бұрын
논문을 보고싶은데, 혹시 발표 자료는 어디서 받아볼수있을까요? Site 방문했는데, 어디서 받아야하는지 모르겠네요.
@causaldatascienceАй бұрын
해당 발표자료를 sites.google.com/view/causal-inference2024/program 에 업로드 했습니다.
@jheeywork2 ай бұрын
교차실험(interleaving)은 샘플이 더 작아도 빠르게 결과 보기에는 괜찮군요 ㅎㅎㅎㅎ 인간의 분산이 생각보다 더 다양해서 실제 A/B test와 미묘한 차이가 있는 게 아닐까요~ A/B Test를 피해갈 수 없는 건 아쉽지만 1년에 딱 52번만 실험하기엔 아쉽다면 교차실험도 고려해볼만하네요 !
@projectmanagerray99862 ай бұрын
좋은 강의 입니다...ㅎ 화질과 글씨크기가 좀 아쉽네요ㅜ 그리고 ML을 잘 모르는 제 지식도...ㅎㅎ 혹시 강의도 하시나요?
@causaldatascienceАй бұрын
머신러닝에 관한 기초 강의는 별도로 다루지 않지만, 인과추론을 위한 머신러닝 강의는 추후 진행 예정입니다.
@dsg8012 ай бұрын
실무에서 적용하려면 여러가지 고려할 사항이 많겠군요 🥲
@sunhookim90082 ай бұрын
와 ML이랑 데이터 공부하다가 찾았는데, 정말 대단하십니다
@azalea44322 ай бұрын
매번 큰 도움 감사드립니다. 공부하면서 생긴 궁금했던 부분들이 영상 통해서 많이 해결되었습니다.
@공구리sja182 ай бұрын
너무 유익합니다. 영상 잘봤습니다 감사합니다~
@어딘가에서-k3n2 ай бұрын
어땠을까 ~ 인과추론. 어려운 채널인데 왜 자꾸 제 알고리즘에 뜨는지. 제 머리를 깨우는 주제를 다루네요.
@한여진-s2n2 ай бұрын
7:09 에서 다른 영상 재생된 줄 알았습니다 ㅋㅋㅋㅋㅋ
@dsg8012 ай бұрын
좋은 내용 감사합니다~
@BHJeung3 ай бұрын
막연하게 뭉뜽그려서 고민하던 영역에 명쾌한 프레임워크를 소개해주셔서 감사합니다. 정말 큰 깨달음이 됐습니다!
@BHJeung3 ай бұрын
산업디자인 분야에서도 강력하게 작동할 수 있을것 같습니다!
@시청자1-q8z3 ай бұрын
감사합니다 !
@0hmygot3 ай бұрын
의학분야에서 관찰연구만 접하다가 이렇게 온라인마케팅에 적용방법을 아니까 너무 명확해졌습니다. 책에는 아무래도 이론적인 내용을 담다보니까 기본적인 통계지식을 알아도 아리송했는데, 너무 좋은 영상 감사드립니다 !!
@MYTube-u1x3 ай бұрын
챕터 4장 내용이군요 감사합니다
@MYTube-u1x3 ай бұрын
최소 표본크기 산정 = 검정력 80%, 유의수준 5%
@MYTube-u1x3 ай бұрын
예시가 인상깊습니다. 잘 봤습니다
@what26053 ай бұрын
강의력 GOAT
@박성인-i5j3 ай бұрын
안녕하세요 .인과추론 공부하며 채널 속 강의 정말 잘 보고 있는 대학생입니다. 혹시 강의 또는 채널에 있는 영상 속 데이터셋을 접해볼 수 있을까요? 따로 더 실제 데이터셋을 만져보고 싶은 와중에 인과추론 관련 데이터셋 플랫폼이나 자료 구하기가 어려워 여쭙습니다.
@causaldatascience3 ай бұрын
연사들의 프로젝트 경험을 바탕으로 소개하는 사례에 대해서는 데이터 공유가 어렵지만, <실무로 통하는 인과추론 with 파이썬>에 활용되는 모든 데이터와 코드는 github.com/matheusfacure/causal-inference-in-python-code 에서 확인하실 수 있습니다.
@hansaecho99934 ай бұрын
좋은 발표 감사합니다!
@Ordinary884 ай бұрын
안녕하세요! 좋은 강의 감사드립니다. 35:30 초쯤에 조건부 독립 statement 말씀해 주셨는데(Z와 W가 독립이다. S,X가 컨디셔닝 되어있을 때), 이게 어떻게 도출 된건지 알 수 있을까요? 그냥 diagram 모델 하에서 자동으로 나오는 건가요? 감사합니다~
@causaldatascience4 ай бұрын
네 맞습니다. Causal diagram 이 주어지면 해당 구조에 따라서 조건부 독립관계를 추론할 수 있으며, 관련 내용은 kzbin.info/www/bejne/qJO9ZZiYj6h7g7s 를 참고해주세요.
@Ordinary884 ай бұрын
좋은 설명, 좋은 영상 너무 감사드립니다. 궁금한 게 한가지 있는데요. 그렇다면 2SLS와 Control function 두개를 동시에 고려하여 분석해도 괜찮을까요? 2SLS로 LATE 통한 인과추론도 가능하고, Control function을 통한 error term의 endogeneity까지 고려되기 때문에 더 효과적이지 않나 싶더군요. 감사합니다!
@causaldatascience4 ай бұрын
2SLS 와 Control Function 을 동시에 고려하는 것이 불가능한 것은 아니지만, 큰 이점 없이 모델의 해석만 복잡해질 여지가 있어서 실제로 두 모델을 함께 사용하는 경우는 거의 없는 것으로 알고 있습니다.
@김도균-y4e4 ай бұрын
강의 너무 잘 듣고 있습니다. 그런데 도구변수를 활용하여 분석을 해보았는데 r square값이 다소 낮게 나오는데, 도구변수를 사용했을 때 설명력이 낮아지는 것은 당연한 수순인거지 궁금합니다!!
@causaldatascience4 ай бұрын
도구변수를 활용하게 되면 2단계 추정에서 원변수가 아니라 도구변수에 의해 예측된 변수를 활용하기 때문에 경우에 따라서는 설명력이 낮아질 수 있습니다. 하지만, 인과추론을 목적으로 한다면 내생성을 해결하여 해당 변수의 계수를 consistent & unbiased 추정하는 것이 단순히 모델의 설명력을 높이는 것(R-squared 를 높이는 것) 보다 훨씬 더 중요하기 때문에 대부분 r-squared 는 크게 신경쓰지 않습니다. 즉, 인과추론 여부는 도구변수가 내생성을 해결하기 위해 갖춰야 할 조건들을 얼마나 충족하는지에 의해 결정됩니다.
@Ordinary884 ай бұрын
복잡한 내용을 이렇게 말로 쉽게 전달하시다니 대단한 것 같습니다. 덕분에 좋은 공부하고 갑니다~
@ERICA-kv9gm4 ай бұрын
계량경제학 학회지를 읽다가 인과추론에 관심이 생겨 찾아들어오게 된 3학년 대학생입니다. 좋은 강의 감사합니다!
@김도균-y4e4 ай бұрын
너무 좋은 강의인 것 같아요.
@박성인-i5j5 ай бұрын
안녕하세요 준비해주신 자료와 강의들 정말 잘 보고 있습니다! 한 가지 여쭙고 싶은것이 매칭/회귀분석의 경우는 통제변수를 고정시킴으로써 조건부 독립을 만든다 이해했고 영상 속 설명에서 가중치와 매칭/회귀분석의 차이에서 weighting은 고정시키는게 아니라 랜덤에 가깝게 (통제변수 상관없이) 조건부 독립을 달성한다로 이해했습니다. 두 방법 다 조건부 독립을 만들고 그 방식의 차이가 있다로 이해한게 맞는지 궁급합니다
@causaldatascience5 ай бұрын
매칭/회귀분석/역확률가중 모두 통제변수들의 영향을 제거하기 위한 방법입니다. 하지만 목적을 달성하기 위한 방식의 차이가 있는데, 말씀하신 것처럼 매칭과 회귀분석은 통제변수를 고정시킴으로써 조건부 독립을 만드는 방식이 맞습니다. 반면에, 역확률 가중치 방법은 샘플에 적절한 가중치를 부여해서 (조건부가 아닌) 통제변수들와 처치 간의 독립 관계가 성립하는 새로운 샘플(weighted sample = pseudo-population)을 구성하여 분석하는 방법입니다.
@박성인-i5j5 ай бұрын
영상 정말 잘 보았습니다!다만 책과 병행해 공부하는 중인데 FWL에 관한 부분이 영상에서 다뤄지지 않아 혹시 관련 부가 설명을 들을 수 있는 방법이 있는지 여쭙습니다
@causaldatascience5 ай бұрын
Frisch-Waugh-Lovell (FWL) Theorem 은 회귀분석에서 통제변수를 추가했을 때 처치변수의 계수가 갖는 의미를 명확히 해준다는 점에서 의의가 있다고 할 수 있습니다. FWL Theorem 에 따르면, Y = a0 + a1*X (처치변수) + a2*C (통제변수) + e 에서 a1 은 다음과 같은 절차로 구할 수 있습니다. (i) Y = b0 + b1*C + e1 을 추정한 후에 잔차(e1 = residual_Y) 계산 (ii) X = c0 + c1*C + e2 을 추정한 후에 잔차(e2 = residual_X) 계산 (iii) residual_Y = d0 + d1*residual_X + e3 를 추정하면, d1 = a1. 위의 절차를 해석해보자면, (i) 단계에서는 통제변수가 결과변수에 미치는 영향을 모델링하고 통제변수로 설명할 수 없는 부분에 해당하는 잔차(residual)를 구하게 됩니다. 그러면 결국 residual_Y 는 통제변수의 영향이 모두 배제된, 즉 통제변수와 독립인 결과변수 부분을 의미하게 됩니다. 마찬가지로, (ii) 단계에서 구한 residual_X 는 통제변수와 독립인 처치변수 부분을 나타내고, 결국 회귀분석에서 통제변수를 추가한다는 의미는, (iii) 단계에서처럼 이들의 영향을 모두 배제한 후에 결과변수와 처치변수 간의 관계를 구하는 것과 같다는 의미가 됩니다. 물론 회귀분석을 활용하고 있기 때문에 함수 형태에 대한 가정(위 예제에서는 선형함수)이 수반되어야 합니다. 이렇게 통제변수의 영향을 배제함으로써 처치집단과 통제집단에 상관없이 통제변수의 영향을 0 으로 같게 만들게 되고, 이러한 이유로 회귀분석은 구체적인 방식과 가정만 다를뿐 본질적으로 매칭과 같은 역할을 하게 되는 것입니다.
@jihyunma68335 ай бұрын
우연히 causal inference 관련 동영상을 찾다가 들르게 되었습니다. AI의 활용에 대한 우려와 제안, 그리고 연구나 코딩에 활용할 수 있는 다양한 tool들에 대한 소개 감사드립니다! 자주 찾게될 것 같습니다.
@eunsukim-qh8lc5 ай бұрын
안녕하세요 교수님. Tcounterfactual이 그럼 무엇이라고 정의할 수 있는걸까요? Tcounterfactual에 대해 정확하게 이해가 가지않아서 댓글남깁니다. 감사합니다!
@causaldatascience5 ай бұрын
DID 에서 T_counterfactual 은 '처치를 받은 사람들이 만약 처치를 받지 않았다면 어땠을까?'에 대한 답이라고 볼 수 있습니다. 즉, 처치집단에서의 처치 이후의 결과를 T_post 라고 한다면, 처치집단이 만약 이런 처치를 받지 않았다면 있었을 잠재적인 결과를 T_counterfactual 로 정의할 수 있을 것입니다.
@김도균-y4e5 ай бұрын
정말 잘 듣고 있습니다!! 혹시 해당 금융 데이터가 따로 있을까요??
@causaldatascience5 ай бұрын
<실무로 통하는 인과추론 with 파이썬>에 활용되는 모든 데이터와 코드는 github.com/matheusfacure/causal-inference-in-python-code 에서 확인하실 수 있습니다.
@임종언-e8b5 ай бұрын
좋은 내용 공유해주셔서 감사합니다 !
@JKTo-m6c6 ай бұрын
안녕하세요 :) 시간이 많이 지나서 질문을 받으실지는 모르시겠지만, FCI 알고리즘 예제에 대해서 많이 헷갈리는 부분이 있습니다. 24:16 에서, X -> Y <- Z 의 경우에는, X 와 Z 사이가 unconditionally independent 했었기 때문에 X 와 Z 사이 Edge를 제거할 수 있었고, X 와 Z 가 conditionally dependent given Y 했기때문에, collider로서 방향을 그렇게 정하신게 이해가 잘 갑니다. 하지만, Y -> Z <- W 의 경우에는, 우선적으로 저희가 Y 와 W 가 conditionally independent given Z 였기때문에 그 사이 edge를 제거할 수 있던 것 아닌가요? 그 이후에 다시 어떻게 해서 Y-> Z <- W 처럼 Y 와 W 가 conditionally dependent given Z가 되는지 모르겠습니다. 실제 ground truth graph 에서도 Y, Z, W (including U)는 Fork 처럼 생겼다고 전 생각이 들었거든요 U -> Z -> W 이기때문에... 정리하자면 제 질문은 다음과 같습니다. 1. Y ~ W 사이 edge를 제거하는데에 Y become independent with W | Z 를 사용한게 아닌가요? 2. Y -> Z <- W 를 결정할때 어떻게 Y become dependent with W | Z 가 되는건가요?
@JKTo-m6c6 ай бұрын
추가) DAGitty 웹페이지에서는 같은 ground truth graph에 대해서 testable implications를 다음과 같이 결과로 알려주고 있어서 X ⊥ Z X ⊥ W Y ⊥ W | Z 이 내용으로 우선 edge를 지워서 skeleton이 만들어진것 같은데, 이후에 어떻게 Y 와 W 가 Z를 conditioning 하면 dependent해지는지 정말 모르겠습니다 ㅠㅠ
@causaldatascience6 ай бұрын
예리한 지적 감사합니다. 저도 Glymour et al. (2019) 논문에서의 Figure 2 를 그대로 가져왔는데, 다시보니 오류가 있는 것 같네요. 논문에서 "In the same way, Y-Z-W is found to be a collider." 라고 얘기하고 있는 걸 봐서 Ground Truth 자체에 오류가 있는 것 같은데, Z -> W 가 아니라 Z <- W 가 되어야 할 것 같습니다. 그럼 X-Y-Z 와 Y-Z-W 관계가 서로 동일한 구조를 갖게 될 것입니다. Glymour, C., Zhang, K. and Spirtes, P., 2019. Review of causal discovery methods based on graphical models. Frontiers in genetics, 10, p.524.
@JKTo-m6c6 ай бұрын
@@causaldatascience 답변 감사합니다. 저도 Ground Truth에 문제가 있는것 같은데, 다른 사람들이 아무도 지적을 안하길래... 제가 틀렸나 싶었네요. 조금 늦은 소개지만, 저는 현재 University of Toronto에서 박사과정으로 수학중인 학생입니다. 올려주신 강의 정말 감사하게 잘 들어서, 지금 연구에도 적극적으로 사용하고 있습니다 :)
@causaldatascience6 ай бұрын
일부 내용이 추가되어 영상이 재업로드 되었습니다.
@papapa37376 ай бұрын
안녕하세요~ 너무 좋은 강의 감사합니다! 제가 분석하고자 하는 데이터가 never treated control group이 없는데 이럴 경우 later treated group의 comparison 그룹은 callaway estimate 활용시 무엇이 되는지 궁금합니다. 정리하자면, never treated group이 없는 경우 가장 마지막으로 treat된 group의 경우 not yet treated group이 없게 되는데 이 경우엔 어떻게 CS DID가 어떻게 estimate되는 건지 여쭤봐도 될까요? 그리고 강의 중에 stata 세션도 하실 계획이라고 하셨는데 언제 open하는지 궁금합니다! 다시 한번 감사합니다!!
@causaldatascience6 ай бұрын
CS DID 에서는 not-yet-treated (later-treated) group 과 never-treated group 이 control group 의 역할로 활용되는데, 만약 후자가 없다면 전자만 활용될 것입니다. Not-yet-treated group 은 상대적으로 정해지기 때문에 가장 마지막에 treat 된 집단의 경우에는 비교 대상이 없게 되고, 결과적으로 local DID 분석이 불가능해서 CS DID 추정에서 누락되게 될 것입니다. 실습세션의 경우에는 가급적 라이브 특강에서 다루고자 하며, 추후에도 특강 기회가 있으면 커뮤니티 글에 공지할 예정입니다.
@Soyun-kz9bf6 ай бұрын
이번 강의도 잘 봤습니다 감사합니다 ^^
@HBN_CDT6 ай бұрын
잘봤습니다.👍
@대희-w1q6 ай бұрын
전문용어를 이해하기에 어려워 GPT를 활용하여 이해하고 있습니다. 특히 빈도주의 관점 부분은 정말 이해하기 어렵네요