본문 바로가기

개발

[Data Mining] 데이터마이닝 프로세스 개요

반응형

1. 데이터 모델링 과정 

  목적결정 > 데이터 수집 > 데이터탐색 및 정제 > 데이터마이닝 방법 결정 > 최종모델 결정 > 성능평가 > 적용 


2. 데이터 마이닝의 핵심 아이디어 

분류 : 

예측 : 예측하고자 하는 변수가 범주형으로 표현된 클래스 > 분류문제

        예측하고자 하는 변수가 숫자로 표현된 연속형 변수 > 예측문제

연관규칙 : 연관규칙을 이용해 다양한 추천시스템 운영

예측분석 : 분류, 예측 그리고 연관성 분석들을 예측분석이라 한다.

데이터 축소 : 대용량의 데이터를 필요한 만큼의 데이터로 축소

데이터 탐색 : 서로 상관관계가 큰 변수들의 켤합을 통해 적은 수의 변수들로 축소하고 관측지들도 서로 비슷한 성질을 갖고 있는 것 끼리 통합

시각화 : 데이터를 잘 이해하기 위한 방법 중 한가지 

           히스토그램, 상자도표, 막대도표, 산점도 등 


3. 교사학습과 비교사 학습

 교사학습기법 : 분류 혹은 예측하고자 하는 변수가 존재할 경우 이를 종속변수로 놓고 독립변수와의 관계를 통해 모델링

비교사학습기법 : 예측하거나 분류하고자 하는 변수가 없을때. 특정모델 구축보다는 데이터 내의 연관규칙을 찾아 차원을 축소하며 비슷한 관측치끼리 군집하는 작업을 한다.

즉 종속변수가 있으면 교사학습 없으면 비교사학습

반응형

'개발' 카테고리의 다른 글

[jquery] 속성 값 필터링을 이용하여 객체 가져오기  (0) 2020.10.30
brew 로 패키지 설치시 link 깨질때  (0) 2019.02.10
[Android] 런타임에 권한 요청  (0) 2017.03.26
트리  (0) 2015.09.11
소프트웨어공학  (0) 2015.07.04