Text Mining (Topic Modeling) 토픽 모델링 (Topic Modeling)은 텍스트 본문의 숨겨진 의미구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 중 하나로, 수집된 문서에 어떤 주제들이 존재하는지를 찾아내는 것을 목적으로 한다. 즉, 특정 주제에 관한 문헌에는 그 주제에 관한 단어가 다른 단어들에 비해 더 자주 등장한다는 것을 기반으로 자주 함께 나타나는 단어들을 군집함으로써 잠재된 주제를 추론하는 모형이라고 할 수 있다. 토픽 모델링 모형 중에서는 잠재 디리클레 할당 (Latent Dirichlet Allocation, LDA) 모형이 가장 많이 사용되고 있다. LDA는 주어진 문서에 대하여 각 문서에 어떤 주제들이 존재하는지에 대한 확률모형으로서, 주제별 단어의 분포나 문서별 주제의 분포를 모두 추정할 수 있다. LDA 모형.. Text Mining (Buzz Analysis) 버즈 (Buzz)란 온라인상에서 특정 주제에 대해 언급된 횟수, 즉 관심 정도를 의미한다. 버즈 분석 (Buzz Analysis)을 통해 신제품에 대한 반응을 확인하거나, 특정 이슈의 여론 형성이 어디로 흘러가는지 확인할 수 있으며, 상용 서비스 및 제품에 대한 반응을 끊임없이 모니터링하는 버즈 모니터링 (Buzz Monitoring)을 통해 실시간으로 발생한 문제를 해결하거나, 반응과 요구사항을 바로 파악할 수 있다. 다른 텍스트 마이닝 기법과 마찬가지로 버즈 분석 또한 포털 사이트, 블로그, SNS 등과 같은 무수한 온라인 소스를 확인하고 분석하는 과정을 포함하며, 주로 그 결과를 수치화하고 시각화하여 마케팅적 인사이트를 도출하고자 한다. 또한, 버즈 분석은 타 분석 기법과의 연계를 통해 소비자가 온.. Text Mining (Frequency Analysis) 빈도 분석은 전체 문서 또는 문서별 단어 출현 빈도를 분석하는 기법으로, 특정 문서 내에 많이 출현하는 단어를 파악하여 핵심 단어를 추출하기 위한 목적으로 수행된다. 또한, 빈도 분석은 수학적 개념이나 알고리즘에 대한 지식 없이도 문서의 핵심적인 내용을 이해할 수 있도록 도와주기 때문에 본격적인 텍스트 마이닝 전에 자료에 대한 이해와 흐름을 살펴보기 위한 기초 분석 단계에서 많이 활용된다. 빈도 분석의 결과는 표나 그래프 형태뿐만 아니라 워드클라우드 (Word Cloud) 형태로도 많이 표현된다. 워드클라우드는 단어 출현 빈도를 시각적으로 나타냄으로써 핵심 단어들을 파악할 수 있으며, 특히 문서별 핵심 단어 비교를 통해 문서 특징의 차이를 한눈에 확인할 수 있다. 특히, 정치 상황이나 여론, 유명인들의 .. Text Mining (Web Scraping) 텍스트 마이닝 (Text Mining)이란 비정형 텍스트 데이터에서 의미 있는 정보를 추출하고, 가공하는 일련의 분석과정을 의미하며, 이를 통해 분석자는 원하는 정보나 생각하지 못한 새로운 정보를 추출하여 통찰을 얻을 수 있다. 가령, 소비자 리뷰 텍스트 데이터를 통해서 제품에 대해 전반적으로 어떤 기대 혹은 불만을 갖고 있는지 혹은 소비자가 브랜드에 대해 갖고 있는 전반적인 이미지를 파악함으로써 마케팅 전략을 세우는 데 도움을 줄 수 있다. 텍스트 마이닝이 다루는 데이터는 소위 빅 데이터 (Big Data)인데, 엄밀하게 말해 빅 데이터는 세 가지 유형으로 나눌 수 있다 [그림 1 참조]. 우선, 앞서 우리가 다루어왔던 정형 데이터 (Structured Data)는 구조화되어 있는 데이터를 통칭하는 것.. Collaborative Filtering 협업 필터링 (Collaborative Filtering)은 사용자 행동이나 아이템 정보로부터 사용자가 선호할 만한 아이템을 추측하여 제시하는 추천 시스템 (Recommendation System)의 한 유형이다. 추천 시스템에는 협업 필터링 외에도 콘텐츠 기반 필터링 (Content-Based Filtering) 기법이 있다. 콘텐츠 기반 필터링은 사용자가 선호하는 특정 아이템을 분석하여 그 아이템과 유사한 콘텐츠를 가진 아이템을 추천하는 방식이다. 우리가 앞서 다루었던 연관규칙 분석 역시 추천 대상의 아이템을 분석하여 추천 항목을 도출하는 것이므로 일종의 콘텐츠 기반 필터링 기법 중 하나라고 할 수 있다. [그림 1] 추천 시스템 모형의 분류 협업 필터링은 많은 사용자로부터 얻은 기호정보를 분석하여 .. Association Analysis (Apriori) 연관규칙 분석 (Association Analysis)은 두 개 이상의 거래나 사건에 포함되어 있는 항목(아이템)들 간의 관련성을 파악하는 탐색적 데이터 분석방법이다. 이 연관규칙 분석을 고객이 구매한 상품 항목에 적용할 경우 장바구니 분석 (Market Basket Analysis)이라 부른다. 연관규칙 분석은 거래 데이터로부터 상품 간 혹은 서비스 간의 연관성 정도를 측정하여 연관규칙 (Associative Rule)을 도출하는데, 연관규칙은 다음과 같이 표현한다. if 절은 ‘선행조건 (antecedent)’, then 절은 ‘후행조건 (Consequent)’이라고 한다. 예를 들어, 식료품 마트의 판매 데이터에서 발견된 ‘{양파, 아스파라거스} ⇒ {소고기}’ 규칙은 고객이 양파와 아스파라거스을 .. 이전 1 2 3 4 5 다음