R programing 명령어정리
R programing 명령어정리
* 도움말
help()
?()
* 예제보기
example()
* R에서 제공하는 Data set보기
data()
* Data 보기
head() 앞에서 6개보기
tail() 뒤에서 6개보기
str() 자료구조
summary() 기본통계량확인
class() 자료형확인
length() vector개수
colnames() 컬럼이름
attach() ~ detach()
describe() 기본통계량 library(psych)
describeBy(컬럼명+컬럼명+...., 기준컬럼, data =) library(psych)
table() 빈도수
cut() 범위보고 데이터를 자름
sort() 정렬, 벡터만 가능
* 메모리
Is() :메모리에 있는 변수보기
rm(): 메모리에 올라간 변수 삭제
save(변수1,변수2,etc.., file=' .확장자') 메모리에 있는 데이터 그대로저장
load() R로 불러오기
*csv file로 저장하기
write.csv(파일명, ' .csv')
read.csv(' ')
* 연산자
sum()
mean()
max()
min()
median()
var()
sd()
skew() 왜도
kurtosi() 첨도
sqrt() 제곱근
runif() 난수
trunc() 소수점이하 버림
round() 반올림
range() 최대값, 최소값
diff(range()) 최대값-최소값
mean(변수명, trim = 0.1) 절단평균, 양쪽 0.05씩 빼주기
weighted.mean(평균, 가중값) 가중평균
geometric.mean()-1 기하평균 library(psych)
harmonic.mean() 조화평균
* 표준화 자료로 변환
transform(표준화시킬 컬럼명, new컬럼명 = scale(변수명))
* 집합
union() 합집합
intersect() 교집합
setdiff() 차집합
* vector 생성
c()
append()
* 반복데이터
seq() 등차수열
rep() 반복
* 상대빈도(%)
prop.table(table())
* 자료형확인
is.numeric()
is.logical()
is.integer()
is.double(x)
is.data.frame()
is.factor()
is.na()
* 자료형변환
as.numeric() 정수형으로 변환
as.logical() 논리형으로 변환
as.double() 실수형으로 변환
as.data.frame() data frame으로 변환
as.factor() factor로변환
as.Date("2021/01/01", "%Y/%m/%d") 날짜형으로 변환
* 서식을 이용한 출력
sprintf() 문자열:%S , 소수점자릿수:%f, 정수%i
cat()
* 중복제거
unique()
* 문자열 관련함수
paste() 문자열로 다 합침
* 행렬 합치기
rbind() rowbind
cbind() column bind
* Metrics 열이름
colnames()
* 데이터프레임
data.frame()
read.table() txt파일 dataframe생성
read.csv() csv파일 dataframe생성
read_excel() excel파일 dataframe생성
ncol() dataframe의 column개수
nrow() dataframe의 row개수
t() 회전, dataframe에서 metrix로 변경
apply() 데이터프레임에 함수적용
tapply()
subset() 부분집합
merge()
addmargins(변수명, margin = 1) 행 백분율(1), 열 백분율(2), 전체 백분율(margin = NULL)
substr(컬럼명, from,to) 부분추출
row.names() 열이름
* List
list()
unlist() : lis를 vector로 분리하기
* 문자열처리
install.packages('stringr')
library(stringr)
str_length() : 문자열처리
str_c() :문자열연결
str_sub():범위에 해당하는 문자열 생성
str_split():구분자를 기준으로 문자열을 분리하여 부분생성
str_replace():기존문자열을 특정 문자열로 변환
str_replace_all()
str_extract():문자열에서 특정 문자열 패턴의 첫번째 문자열 추출
str_extract_all(): 문자열에서 모든 문자열 추출
str_locate():문자열에서 특정문자열 패턴의 위치 하나만 찾기
str_locate_all(): 문자열에서 특정 문자열 패턴의 위치모두 찾기
str_to_upper(): 대문자변환
str_to_lower(): 소문자변환
* 제어문,조건문에 사용하는 명령어들
readline(): 사용자가 화면에 입력
ifelse(조건, TRUE, FALSE)
*factor로 조정
factor()
*데이터정렬
install.packages('doBy')
library(doBy)
orderBy(~기준값, data) 올림차순
orderBy(~-기준값, data) 내림차순
* 그룹연산함수
aggregate( column명 ~ 기준점, data, 연산) : 기준점별 column의 연산수행
* crosstable
install.prackages('gmodels')
library(gmodels)
CrossTable()
* 2차 데이터 개체수를 data로 인식
xtabs(행 ~ 열+열, data = )
*그래프
options(scipen=100) 지수(e)없애기
split.screen(c(2,2)) : screen(1) barplot(), screen(2)hist(), screen(3)boxplot(), screen(4)pie() 그래프한눈에보기
par(no.readonly=TRUE) / par(mfrow=c(1,2)) #행,열
par(no.readonly=TRUE) /layout(matrix(c(1,1,2,3),2,2 byrow=TRUE)
plot() 꺽은선 그래프
barplot()막대그래프
pie()
mosaicplot() 모자이크그래프
hist()
boxplot()
stem()
ggplot() 원데이터바로 사용 , library(ggplot2)
pie3D() library(plotrix)
sunflowerplot()
qplot()
*확률분포함수
rnorm() 정규분포함수
dnorm() 확률밀도함수
pnomr() 누적분포함수
* 가설검정 test
chisq.test() 카이제곱검정
fisher.test() 피셔검정
shapiro.test() 정규분포검정, 비모수통계 p>0.05
wilcox.test() 비모수통계, p<0.05
t.test() t.검정
cor() 상관계수
cor.test() 상관계수검정
lm() 회귀분석, abline()
step() 변수선택
prcomp() 주성분분석, biplot()
var.test()등분산검정
* 샘플링
sample()
createDatepartition() library(caret) ,조건:정렬되어있어야함
*머신러닝
nnet() 인공신경망, library(nnet)
predict()
ctree() 의사결정나무, library(party)
randomForest() 랜덤포레스트, library(randomForest)
svm() 서포트벡터머신 , library(e1071)
mulitnom() 다항로지스틱, library(nnet)
naiveBayes(예측변수, data = ) library(e1071)