텍스트마이닝 - 토픽모델링 🔑 topic modeling | R | LDA() | 단어주머니 bag-of-words

텍스트마이닝 - 토픽모델링 🔑 topic modeling | R | LDA() | 단어주머니 bag-of-words | LDA Latent Dirichlet Allocation

Рет қаралды 9,139

곽기영

Күн бұрын

Пікірлер: 12

@kykwahk 4 жыл бұрын

29:10 예에서 사용하는 불용어(stopword) 벡터 mystopwords

@송일선학생행정학과 3 жыл бұрын

교수님. 감사합니다. 공부하는데 많은 도움이 됩니다.^^

@-qf9cv533 3 жыл бұрын

교수님 혹시 워드클라우드나 텍스트마이닝 네트워크 분석, 군집분석 등과 관련된 영상은 따로 없을까요?~감사합니다

@kykwahk 3 жыл бұрын

1. 워드클라우드는 '머신러닝과 텍스트마이닝' 재생목록의 다음 강좌에서 볼 수 있습니다. 텍스트마이닝 - 빈도분석(kzbin.info/www/bejne/bqKypmmXe9qkp9U) 텍스트마이닝 - 감성분석(kzbin.info/www/bejne/hGjUq52li7R0gMk) 텍스트마이닝 - 분류분석(kzbin.info/www/bejne/hqfZo5iue9Z5erc) 2. 또한 '웹 스크레이핑과 데이터분석/시각화' 재생목록의 사례를 다룬 여러 강좌에서 워드클라우드나 워드 간 네트워크 분석을 살펴볼 수 있습니다. 예를 들어, 다음 강좌에서 볼 수 있습니다. 웹 스크레이핑과 데이터분석/시각화 - XPath - 사례: 911테러 @New York Times(kzbin.info/www/bejne/q3_FnWmqgs-ZqK8) 웹 스크레이핑과 데이터분석/시각화 - XPath - 사례: 영화 리뷰 분석 @네이버(kzbin.info/www/bejne/oaXEdJZqodOfq68) 웹 스크레이핑과 데이터분석/시각화 - XPath - 사례: 뉴스기사 분석 @네이버(kzbin.info/www/bejne/l6Cbfaikd9eNeNE) 3. 군집분석은 '통계데이터분석' 재생목록의 다음 강좌에서 볼 수 있습니다. 통계데이터분석 - 군집분석 - 유사도 측정(kzbin.info/www/bejne/mYu3lqGmpdihn7c) 통계데이터분석 - 군집분석 - 계층적 군집분석(kzbin.info/www/bejne/aorafXSJiaeYr7M) 통계데이터분석 - 군집분석 - k-평균 군집분석(kzbin.info/www/bejne/q4ici5WenZZ3rdk) 통계데이터분석 - 군집분석 - PAM 군집분석(kzbin.info/www/bejne/p5unZWyqmtqXrZo)

@-qf9cv533 3 жыл бұрын

@@kykwahk 바쁘신데 직접 친절히 답변 달아주셔서 진심으로 감사드립니다. 교수님께서 쓰신 책들이 많이 도움이 되었습니다. 나중에 네트워크 분석도 올려주시면 감사드리겠습니다! 건강유의하세요!

@고마네-s2t 3 жыл бұрын

교수님, 안녕하세요. 영상을 따라 토픽모델링을 어느정도 이해할 수 있었습니다. 친절한 영상에 감사드립니다. 혹시, 한글로 기사를 이용하여 영상과 같은 방법으로 토픽모델링을 진행할 때 기사의 본문 한글 데이터 전처리는 어떻게 해야될까요.. 전처리 없이 영상의 코드를 활용하여 56번째 줄까지 입력했더니, 바랍니다. 어떻게. 있는데. 아무런. 있도록. 있어서 등과 같이 명사가 아닌 단어들이 도출이 되었습니다. 토픽모델링 이전에 단어 전처리를 통해 명사만이라도 추출 한 뒤 토픽모델링을 해보고 싶습니다.. 바쁘시겠지만, 도움을 부탁드립니다. 감사합니다.

@kykwahk 3 жыл бұрын

한글 텍스트를 분석하기 위해서는 형태소 분석을 통해 텍스트로부터 단어를 추출해야 합니다. 한글 형태소 분석기로는 KoNLP 패키지가 많이 사용됩니다. 한글 텍스트를 분석한 다음 동영상을 참고하세요. 웹 스크레이핑과 데이터분석/시각화 - XPath - 사례: 영화 리뷰 분석 @네이버(kzbin.info/www/bejne/oaXEdJZqodOfq68) 웹 스크레이핑과 데이터분석/시각화 - XPath - 사례: 뉴스기사 분석 @네이버(kzbin.info/www/bejne/l6Cbfaikd9eNeNE)

@김선재-b2h 3 жыл бұрын

교수님! 토픽모델링 결과를 시각화 하는 과정에서 궁금한게 있습니다. ggplot2 패키지를 이용해 토픽별로 상위 10개 단어에 대한 막대그래프를 그리는 작업을 수행했는데, 토픽수가 9개 이하일 때는 토픽번호 순서대로 배열이 되지만 10을 넘어가는 순간부터 배열이 흐트러지는걸 볼 수 있었습니다. 배열되는 형태를 보면 1,10,11,12,...2,3,4,...,9와 같이 나타나 예상컨데 10,11을 하나의 정수로 인식하지 못하는듯 합니다. 그래서 대안으로 01,02,03...과같이 번호를 붙여주고자 하는데 어떻게 수행을 해야할까요? 감사합니다!!

@김선재-b2h 3 жыл бұрын

코드를 조금 수정해서 해보니 영상에서 알려주신대로 토픽번호에 paste()함수를 이용해 Topic이라는 글자를 붙이게 되면 수를 글자로 인식하게 되어 이런 오류가 생기는듯합니다! Topic을 붙이지 않고 수행을 하게되면 토픽번호 순서에 맞게 배열이 잘 되었습니다.

@kykwahk 3 жыл бұрын

말씀하신 대로 "01, 02, 03..."과 같이 처리해야 할 때도 있습니다. 그럴 때는 stringr 패키지의 str_pad() 함수가 유용합니다. 예를 들어, 10 미만의 숫자 앞에 0을 붙여 1부터 12까지의 숫자를 모두 동일하게 두 자리가 되도록 만들고 싶다고 해보겠습니다. 그러면 다음과 같이 str_pad() 함수를 이용할 수 있습니다. 날짜 텍스트를 전처리할 때, 간혹 월을 두 자리로 만들어야 할 경우 유용합니다. > library(stringr) > mon str_pad(mon, width=2, side="left", pad="0") [1] "01" "02" "03" "04" "05" "06" "07" "08" "09" "10" "11" "12"

@김선재-b2h 3 жыл бұрын

@@kykwahk 답변을 이제 보았네요ㅠㅠ 정말 감사합니다!!!!