상세 컨텐츠

본문 제목

[데이터 마이닝] 데이터마이닝의 개념 및 어떤 것들이 있는지 알아보자

IT/프로그래밍

by James Lee. 2015. 12. 6. 20:06

본문

오늘 머신러닝 스터디의 첫 발표가 있었다.

주제는 데이터 마이닝에 대한 Overview였다.


발표자료는 회사 소유기때문에 올릴 수는 없지만, 내가 학습한 내용을 정리해보겠다.


오늘은  데이터 마이닝이라는 개념에 대하여 깊지는 않지만 전체적인 부분을 살펴보았다.


데이터마이닝이란 단어에서 마이닝(Mining)의 원래 뜻은 채굴, 채광을 의미한다.


따라서 데이터 마이닝은 산처럼 쌓인 데이터에서 값진 데이터를 추출해내는 기법이라고 할 수 있다. (산에서 금을 채광하는 것을 떠올려보면 쉽다.)



즉 여러가지 분석 기법을 통해 데이터에서 값진 의미를 채광한다..라는 의미라고 생각할 수 있을 것 같다.


데이터를 분석하는 레벨은 여러 단계로 나뉠 수 있다.


어느 고등학교 학생들의 과목 성적표를 분석해본다고 가정하자.


레벨 1. 3학년 1반 각 학생들의 1년간 과목별 최고점수, 최저점수, 평균

레벨 2. 최근 3년간 고3 학생들의 과목별 - 단원별 - 문제유형별 - 시기별 총득점, 오답율, 점수추이

레벨 3. 수학을 못하는 학생들의 특징, 점수 패턴이 비슷한 학생들끼리 그룹핑, 학생들이 주로 틀리는 문제들 사이의 관계


레벨 1과 2는 계산기만 있으면 누구나 할 수 있겠지만 레벨 3은 단순한 분석보다는, 주어진 데이터값에서 의미를 추출해내는 것이다.

이것을 Hidden knowledge라고 한다.


이것들을 어떻게 구할까?


만약 데이터가 적고 단순하다면

그냥 한눈에 알거나, 엑셀을 조금 만지작거리면 된다.


데이터가 많고 조금 복잡하다면..?

그래도 시간을 좀 투자하거나, 좋은 DB와 엔지니어들이 모여서 이것저것 될 때까지 해보면 된다.


하지만.

요즘같은 빅 데이터 시대에는..

페이스북 사용자들의 모든 행동 패턴을 수동으로 일일히 찾고 의미를 도출해 내는것은 거의 불가능하다.


하지만 이러한 것은 분명 가치가 있다!

따라서 우리는 특별한 방법이 필요하다.


데이터 마이닝은 아래와 같이 나뉜다.

  •  Supervised Clustering(교사 학습을 통한 단위 묶기)
    •  - Making Decision Tree
  • Unsupervised Clustering (비교사 학습 단위 묶기)
    •  - K means Clustering
  • Market Basket Anlysis (장바구니 분석)
    •  - Association Rule Mining 


각각의 자세한 방법들은 다음 포스팅에서 설명하도록 하겠다.

관련글 더보기

댓글 영역