데이터마이닝.기계학습 8

분류모델성능평가 -오분류비용(what if분석)

분류모델성능평가 -오분류비용(what if분석) 비대칭적 오분류비용_직접마케팅 활용예시 1. 우편물을 통한 구매제한 1000개의 메일중 1%(10명) 응답 응답 실제 비구매(0) 구매(1) 예측 비구매(0 970 2 구매(1) 20 8 오분류율 = 2+20/1000 = 2.2% 2. 이득계산 . 가정 이득: 실구매(1) = $10 우편발송비용 = $1 . 결과 예측 비구매(0)에게 아무것도 안함 = 972명 예측 구매(1)에게 메일발송 = 28명 예측 구매(1) - 비구매(0) = 20명*1 = -20$ 예측 구매(1) - 구매(1) = 8명 * $10 = $80 순이익 $60 이득 실제 비구매(0) 구매(1) 예측 비구매(0 0 0 메일미발송 구매(1) -$20 $80 메일발송 3. 비용계산 . 가정 ..

데이터마트 : 요약변수,파생변수

요약변수 . 수집된 정보를 분석에 맞게 종합한 변수이다 . 데이터마트에서 가장 기본적인 변수로 총 구매금액, 금액, 횟수, 구매여부 등 데이터 분석을 위해 만들어 지는 변수이다. . 많은 모델을 공통으로 사용될수 있어 재활용성이 높다 . 합계, 횟수와 같이 간단한 구조이므로 자동화하여 상황에 맞게 또는 일반적인 자동화프로그램으로 구축 가능하다 . 요약변수의 단점은 얼마 이상이면 구매하더라도 기준값의 의미 해석이 애매할 수 있다. 이러한 경우, 연속형 변수를 그룹핑해 사용하는 것이 좋다. 기간별 구매 금액, 횟수여부 고객의 구매 패턴을 볼 수 있는 변수이다 위클리 쇼퍼 구매 시기를 통해 고객의 특성을 추정하는데 활용 가능하다 상품별 구매 금액, 회수여부 고객의 라이프 스테이지와 라이프 스타일 등을 이해하는..

데이터마이닝이란

데이터마이닝 데이터 마이닝은 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다. 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 찾아내는 방법을 통칭한다. 데이터마이닝의 분석 방법 Supervisied Data Prediction(지도학습) Unsupervised Data Prediction(비지도학습) . 의사결정나무(Decision Tree) . 인공신경망(ANN, Artificial Neural Network) . 일반화 선형 모형(GLM, Generalized Linear Model) . 회귀분석(Regression Analysis) . 로지스틱 회귀분석(Logistic ..

예측모델 평가척도

예측모델 평가척도 예측모델 평가척도는 평균을 사용해서 오차를 확인한다. 따라서 이상치에 영향을 크게 받기 때문에 이상치를 제거해야 한다. 1. 평균오차(AE : Average Error) . 예측값이 평균적으로 반응의 예측을 초과하거나 미달하는지 확인한다. . 즉, 실제 값하고 평균 값하고 차이를 의미하며 자승을 하지 않았기 때문에 차이가 없으면 0에 가까운 값이 나온다. . 절대값을 사용하지 않았기 때문에 초과와 미달을 확인할 수가 있다. . 음의 오차는 동일한 크기의 양의 오차를 상쇄 시킨다. 2. 절대평균오차(MAE : Mean Absolute Error) . 절대값을 사용해서 오차를 확인한다. 3. 평균백분율오차(MPE : Mean Percentage Error) . 예측값이 실제 값과 얼마나 벗..

연관규칙

연관규칙 연관규칙분석(Association Analysis)의 개념 . 연관성 분석은 흔히 장바구니분석( Market Basket Analysis)또는 서열분석(Sequence Analysis)이라고 불린다 . 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용한다 . 장바구니 분석 : '장바누기에 무엇이 같이 들어 있는지에 대한 분석' . 서열분석 : 'A를 산 다음에 B를 산다' 연관규칙의 형태 . 조건과 반응의 형태(if -thebn)로 이루어져 있다 . (Item set A) -> (Item set B) If A then B : 만일 A가 일어나면 B가 일어난다 '아메리카노를 마시는 손님 중 10%가 초콜릿을 먹는다' '샌드위치를 먹는 고객의 ..

이익도표(Lift chart)

이익도표(Lift chart) 이익도표란 . 이익도표는 분류모형의 성능을 평가하기 위한 척도로, 분류된 관측치에 대해 얼마나 예측이 잘 이루어졌는지를 나타내기 위해 임의로 나눈 각 등급별로 반응검출율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표이다. . 2000명의 전체고객 중 381명이 상품을 구매한 경우에 대해 이익도표를 만드는 과정을 예로 들어보면, 먼저 데이터넷의 각 관측치에 대한 예측확률을 내림차순으로 정렬한다. 이후 데이터를 10개의 구간으로 나눈 다음 각 구간의 반응률(% response)을 산출한다. 또한 기본 향상도(baseline lift)에 비해 반응률이 몇 배나 높은지를 계산하는데 이것을 향상도(Lift)라고 한다. . 이익도표의 각 등급은 예측확률에 따라 매겨진 순위이기 ..

로지스틱 회귀분석 : glm summary 결과 해석

a :z:) (Intercept) -27.831 5.434 -5.122 3.02e-07 *** Sepal.Length 5.140 1.007 5.107 3.28e-07 *** --- signif. codes : 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance : 138.629 on 99 degres of freedom Residual deviance : 64.211 on 98 degress of freedom AIC : 68.211 Number of Fisher Scoring iterations : 6 해석 . Sepal.Length가 한 단위 ..

정오행렬(Confusion Matrix)

정오행렬 /분류행렬( Confusion Matrix) [1] 기준 ,알고 싶은 변수(Positivie) [0](Negative) 정확도 (Accuracy) vs 오류율(Error Rate) 정확도 (Accuracy) 클래스 0과 1 모두를 정확하게 분류 TN+TP/TN+TP+FP+FN 오류율(Error Rate) 클래스 0과 1 모두를 정확하게 분류하지 못함 FP+FN/TN+TP+FP+FN or 1-Accuracy TPR(True Positive Rate) vs FPR(False Positive Rate) TPR(True Positive Rate) 실제 Class 1중에 잘 맞춘 것 TP/FN+TP FPR(False Positive Rate) 실제 Class 0중에 못 맞춘 것 FP/TN+FP 민감도(S..