도리도리의 통계 공부

잠재 디리클레 할당(LDA)을 통한 토픽모델링 기법

도리도리1026 2021. 11. 20. 23:09

* 이번에 잠재 디리클레 할당 방법을 통한 토픽모델링 기법을 적용하여 페이퍼를 작성해보고자 한다. 토픽모델링 기법을 적용해 최근 핫한 주제에 대한 시사점을 제공해보고자 하는게 내가 지금쓰고 있는 페이퍼의 목적이다.

 

* 토픽모델링을 하기 위해서는 분석자료에 대해 전처리 과정(+데이터 클리닝)과 키워드 분석 과정이 중요하다.

 

* 분석자료는 한국언론진흥재단의 데이터베이스인 빅카인즈(2017)를 활용해보고자 한다. 사용법은 추후에 기회되면 포스팅해보고자 한다.

 

* 전처리(preprocessing) 과정에서 일반적인 용어를 제외하고 단어 정규화(word nomalization) 과정을 통해 유사한 의미의 단어를 일치시킬 것이다. 한글 텍스트 중 불필요한 공란, 숫자, 특수기호, 문장부호와 의존명사(건, 개, 명, 년, 학기 등), 1글자 키워드는 불용어(stopwords) 처리하고 어근 동일화 과정을 거칠 것이다. 그리고 문서 내에서 의미가 없다고 판단되는 단어(수준, 대상, 포함 등)를 불용어로 지정하여 추가적으로 제거할 생각이다.

 

* 언론기사의 주요 주제어(keywords)를 도출하기 위해, 일반적으로 텍스트 분석에서 단어 빈도(TF)나 역문서 빈도(TF-IDF)값을 사용하여 단어의 중요도를 판단한다(김나영, 홍미영, 2020). TF는 특정단어가 어떤 문서에서 얼마나 자주 등장하는지를 나타내는 수치이며, TF-IDF는 어떤 단어가 특정 문서에서 얼마나 중요한지를 나타내는 통계적 수치이다(권순보, 유진은, 2018). 고유명사나 새로운 개념 분석시 중요도가 과소 또는 과대 추정될 수 있다(임화진, 박성현, 2015). . TF-IDF는 0과 1사이의 값을 가지고 모든 문서에서 사용될수록 0에 가까우며, 소수 문서에서 사용될수록 1에 가깝다.

 

* 빈도값 3이상인 키워드만 포함하고,  그리고 TF-IDF 값이 0.1미만의 키워드는 제외할 것이다.

 

 

 

- 이를 위해 선행연구를 공부하면서 정리한 내용은 다음과 같다.

 

 

- 대표적인 텍스트 마이닝 방법으로 토픽모델링(Topic Modeling)은 대용량의 문헌, 문서, 자료의 텍스트에서 비슷한 주제별로 묶어낼 수 있는 특징을 찾는 방법이자, 문서를 구성하는 추상적이고 잠재적인 주제(Topic) 구조를 밝히는 통계적 분석방법이다(강범일, 송민, 조화순, 2013; 황서이, 황동열, 2018).

 

- 대표적인 토픽 모델링 기법 중 하나이자 생성적 확률모형의 일종으로써 '잠재 디리클레 할당(Latent Dirichlet Allocation: LDA)'은 Blei 등(2003)에 의해서 제안되었으며 문서의 집합으로부터 어떠한 토픽이 존재하는지 알아내기 위한 알고리즘이다.

 

- LDA에서는 문서는 토픽들의 혼합이고 토픽은 문서를 구성하는 단어들 중 서로 연관성이 높은 단어들의 집합으로 볼 수 있기에 확률적 분포를 갖는다고 가정한다(이석민, 2019; 백영민, 2019). 다시 말해 각 문서는 자신이 가진 토픽의 분포와 각 토픽들이 가진 단어들의 분포에 기반하여 추출된 단어들로 구성된다고 볼 수 있다. 문서-토픽, 단어-토픽으로 문서를 재현할 때 원 문서와 얼마나 일치하는지 평가하고 이 과정을 반복적으로 수행하면서 컴퓨터가 토픽을 수정해가는 모델이자, 최종적으로는 원래의 문서에 가장 근접한 문서-토픽, 단어-토픽 관계를 도출하는 것이 이 기법의 알고리즘이다.

 

LDA 모형에서 문서 내 토픽 분류 과정을 살펴보면 다음과 같다(사이람, 2018; 김나영, 홍미영, 2020).

 

- LDA는 베이지안 통계학적 관점을 따르고 있으므로 관측된 데이터 뿐만 아니라 사전정보를 고려하여 모수를 추정한다.

 

- 구체적으로, 사전정보로서 문서 내 토픽 분포를 나타내는 α와 토픽별 단어 분포를 나타내는 β를 사전모수로 활용한다.

 

- 이때 말뭉치(corpus) 가 m개의 문서(document)로 구성된다면, θ는 문서별 토픽분포로서 α를 모수로 하는 디리클레 분포에서 표집된다.

 

 

- 또한, 토픽 수가 k개 존재한다면, φ는 토픽별 단어분포로 β를 모수로 하는 디리클레 분포에서 표집되는 벡터를 의미한다.

 

 

- 다음으로 다항분포 θ와 φ가 선택되었다면, Ζ는 θ를 모수로 하는 다항분포에서 문서에 등장하는 각 단어에 주제를 할당(topic assignment) 하는 모수를 의미하며, W는 φ를 모수로 하는 다항 분포에서 각 문서에 단어를 할당(word assignment)하는 과정을 거쳐 관찰된 자료(observed word)의 형태로 나타난다(곽민호 등, 2019; 유예림, 백순근, 2016).

 

 

- 그렇기에 토픽 모델링은 문헌 텍스트의 주제와 주제별 단어의 생성 확률에 기초한 분석이기 때문에 토픽모델링을 적용한 연구들은 문서나 문헌 텍스트에 잠재된 토픽을 추출하여 주요 연구주제를 분석하는 것이 핵심이다. LDA 모형과 같은 토픽모델링 기법에서는 최적의 토픽수를 설정하는 것이 매우 중요하다(김나영, 홍미영, 2020).

 

- 이때, 토픽 모델 생성 반복횟수와 분석 시간은 반비례 관계에 있기 때문에 효율성과 정확성을 모두 얻기 위해서는 적당한 수의 반복횟수(iteration)를 설정해 주어야 하며, 이를 위해 보통 1,000에서 2,000 사이의 값으로 설정하는 것을 권고하고 있다(이수상, 2014).

 

- 분석 이전에 토픽의 수를 결정해야 하는데, 토픽의개수를 결정하는 것은 가진 문가의 단하는 방법 적인 근을 위해 통계적인 계산 결과로 단하는 방법이 존재한다(이석민, 2019)

 

 

 

 

[참고문헌]

 

강범일, 민, 조화(2013). 토픽모델 이용한  오피니언 마이닝에 대한 연구. 한국문보학회,47(4):,315-334.

권순보, 유진은(2018). 텍스트 마이닝 기법을 통한 수능 절대평가 개편안에 대한 언론과 여론 분석. 열린 교육연구, 26(2), 57-79.

김나영, 홍미영(2020). 토픽모델링을 활용한 교권침해 관련 언론 기사 분석. 교사교육연구 59(3), 475-496.

백영민 (2019). R을 이용한 텍스트 마이닝. 서울: 한울아 카데미.

안주영, 안규빈, (2016). 스트마이닝을 이용한 매체별  주제 분석. 한국문보학회, 50(2), 289-307.

이석(2019). 인문사 위한 빅데이터 분석방법. 서울: 성사.

이수상(2014). 언어트워크분석방법을 활용한 술논문의 내용분석. 관리학회, 31(4): 49- 68.

최가희, (2020). 영화스와 구전(WoM) 상관관계 연구. 한국방학보, 34(1), 289-326.

David Blei, Andrew Ng, Michael Jordan(2003). Latent Dirichlet Allocation. Journal of Machine Learning Research, vol.3, 993-1022.