LDA에 대해서 #2 - 왜 Dirichlet인가?

앞선 글과 관련해서 LDA에서 왜 하필 Dirichlet distribution을 사용하였는지에 대해 내 개인적인 생각을 늘어놓아 보도록 하겠다.

나는 통계학 공부를 따로 했던 사람이 아니고 그저 LDA 논문을 이해하고자 위키피디아나 다른 참고문헌을 발췌해서 부분적으로만 읽은 것이 다 이기 때문에 이 내용은 틀릴 수도 있다. 개인적인 해석에 불과하므로 제대로 아시는 분이 있다면 꼭 알려줬으면 한다.

기본적으로 우리는 특정 문서가 갖는 주제 분포로부터 단어별 주제를 뽑고 싶다. 주제가 여러 가지가 있고 그 주제들의 분포에서 특정 주제를 뽑아내는 행위를 모델링 하기 위해서 multinomial distribution을 사용하면 된다. 우리는 베이지안 방법을 사용할 것이고 posterior distribution이 multinomial distribution이므로 그 conjugate prior인 Dirichlet distribution을 prior probability distribution으로 사용하는 것이 자연스럽다. Conjugate prior를 택하는 이유는 직관적인 이해와 더불어서 계산의 편의를 도모하기 위함이다.

위의 글이 내가 이해하는 `왜 Dirichlet distribution인가?'에 대한 답이다. 사실 이 내용이야말로 완전 개인적인 추측에 불과해서 거짓말일 가능성이 농후하다. 제발 누가 나에게 좀 제대로 된 설명을 해줬으면 좋겠다.

통계학 공부가 필요하다고 느끼는 때가 매우 많지만 특히 그런 생각이 드는 경우가 바로 위와 같은 센스가 요구되는 경우이다. 특정 표본을 뽑았을 때 모집단의 분포에 대한 예측을 한다던지와 같은 분포에 대한 감이 요구될 때 답답한 느낌이 든다. 언젠가는 먹어치워야 할 녀석일 텐데 아직은 그날이 꽤 멀리 있는 것 같아 조금 안타깝다.

Next : 도메인 날리지, 모델링, 현실 세계
Prev : LDA에 대해서
2 Replies

mixture model이랑 기타 등등을 찾아보면 조금 더 잘 이해할 수 있을 텐데 시간이 없다.

2010-12-17 18:26:28

오늘 수업 듣다가 알게 되었는데 이게 사실이었어! multinomial distribution의 conjugate prior인 dirichlet distribution이 예쁘게 모델끼리 붙기 때문에 사용하는 것이었다!

2012-03-06 18:17:05

E-mail은 비공개이며 스팸 확인용으로 사용됩니다. 댓글은 마크업 사용이 불가능하되 링크는 자동으로 링크가 걸리며 줄바꿈을 인식합니다.