R

R programing 명령어정리

Nova 2021. 3. 29. 09:53

R programing 명령어정리

 

* 도움말

help()

?()

 

* 예제보기

example()

 

* R에서 제공하는 Data set보기

data()

 

* Data 보기

head()   앞에서 6개보기

tail()     뒤에서 6개보기

str()      자료구조

summary() 기본통계량확인

class()  자료형확인

length() vector개수

colnames() 컬럼이름

attach() ~ detach()

describe() 기본통계량 library(psych)

describeBy(컬럼명+컬럼명+...., 기준컬럼, data =) library(psych)

table()  빈도수

cut() 범위보고 데이터를 자름

sort() 정렬, 벡터만 가능

 

 

* 메모리

Is() :메모리에 있는 변수보기

rm(): 메모리에 올라간 변수 삭제

save(변수1,변수2,etc.., file='  .확장자') 메모리에 있는 데이터 그대로저장

load() R로 불러오기

 

*csv file로 저장하기

write.csv(파일명, '     .csv')

read.csv(' ')

 

* 연산자

sum()

mean()

max()

min()

median()

var()

sd()

skew() 왜도

kurtosi() 첨도

sqrt()   제곱근

runif()   난수

trunc()  소수점이하 버림

round()  반올림

range() 최대값, 최소값

diff(range()) 최대값-최소값

mean(변수명, trim = 0.1) 절단평균, 양쪽 0.05씩 빼주기

weighted.mean(평균, 가중값) 가중평균

geometric.mean()-1 기하평균 library(psych)

harmonic.mean() 조화평균

 

 

* 표준화 자료로 변환

transform(표준화시킬 컬럼명, new컬럼명 = scale(변수명))

 

* 집합

union() 합집합

intersect() 교집합

setdiff()  차집합

 

* vector 생성

c()

append()

 

* 반복데이터

seq() 등차수열 

rep() 반복

 

* 상대빈도(%)

prop.table(table())

 

* 자료형확인

is.numeric()

is.logical()

is.integer()

is.double(x)

is.data.frame()

is.factor()

is.na()

 

* 자료형변환

as.numeric()  정수형으로 변환

as.logical()    논리형으로 변환

as.double()   실수형으로 변환

as.data.frame() data frame으로 변환

as.factor()       factor로변환

as.Date("2021/01/01", "%Y/%m/%d")  날짜형으로 변환

 

* 서식을 이용한 출력

sprintf()  문자열:%S , 소수점자릿수:%f, 정수%i

cat()

 

* 중복제거

unique()

 

* 문자열 관련함수

paste() 문자열로 다 합침

 

* 행렬 합치기

rbind()  rowbind

cbind()  column bind

 

* Metrics 열이름

colnames()

 

* 데이터프레임 

data.frame()

read.table()  txt파일 dataframe생성

read.csv()    csv파일 dataframe생성

read_excel() excel파일 dataframe생성

ncol()         dataframe의 column개수

nrow()        dataframe의 row개수

t()             회전, dataframe에서 metrix로 변경

apply()       데이터프레임에 함수적용

tapply()

subset()      부분집합

merge()

addmargins(변수명, margin = 1) 행 백분율(1), 열 백분율(2), 전체 백분율(margin = NULL) 

substr(컬럼명, from,to)      부분추출

row.names()  열이름

 

 

* List

list()

unlist() : lis를 vector로 분리하기

 

* 문자열처리

install.packages('stringr')

library(stringr)

str_length() : 문자열처리

str_c() :문자열연결

str_sub():범위에 해당하는 문자열 생성

str_split():구분자를 기준으로 문자열을 분리하여 부분생성

str_replace():기존문자열을 특정 문자열로 변환

str_replace_all()

str_extract():문자열에서 특정 문자열 패턴의 첫번째 문자열 추출

str_extract_all(): 문자열에서 모든 문자열 추출

str_locate():문자열에서 특정문자열 패턴의 위치 하나만 찾기

str_locate_all(): 문자열에서 특정 문자열 패턴의 위치모두 찾기

str_to_upper(): 대문자변환

str_to_lower(): 소문자변환

 

 

* 제어문,조건문에 사용하는 명령어들

readline(): 사용자가 화면에 입력

ifelse(조건, TRUE, FALSE)

 

*factor로 조정

factor()

 

 

*데이터정렬

install.packages('doBy')

library(doBy)

orderBy(~기준값, data) 올림차순

orderBy(~-기준값, data) 내림차순

 

 

* 그룹연산함수

aggregate( column명 ~ 기준점, data, 연산) : 기준점별 column의 연산수행

 

* crosstable

install.prackages('gmodels')

library(gmodels)

CrossTable()

 

* 2차 데이터 개체수를 data로 인식

xtabs(행 ~ 열+열, data =  )

 

 

 

*그래프

options(scipen=100)  지수(e)없애기

split.screen(c(2,2)) : screen(1) barplot(), screen(2)hist(), screen(3)boxplot(), screen(4)pie()  그래프한눈에보기 

par(no.readonly=TRUE) / par(mfrow=c(1,2)) #행,열

par(no.readonly=TRUE) /layout(matrix(c(1,1,2,3),2,2 byrow=TRUE)

 

plot() 꺽은선 그래프

barplot()막대그래프

pie()

mosaicplot() 모자이크그래프

hist()

boxplot()

stem()

ggplot() 원데이터바로 사용 , library(ggplot2)

pie3D() library(plotrix)

sunflowerplot()

qplot()

 

*확률분포함수

rnorm()  정규분포함수

dnorm()  확률밀도함수

pnomr()  누적분포함수

 

 

* 가설검정 test

chisq.test() 카이제곱검정

fisher.test() 피셔검정

shapiro.test() 정규분포검정, 비모수통계 p>0.05

wilcox.test() 비모수통계, p<0.05

t.test()  t.검정

cor()  상관계수

cor.test() 상관계수검정

lm() 회귀분석, abline()

step() 변수선택

prcomp() 주성분분석, biplot()

var.test()등분산검정

 

 

* 샘플링

sample()

createDatepartition() library(caret) ,조건:정렬되어있어야함

 

*머신러닝

nnet() 인공신경망, library(nnet)

predict() 

ctree() 의사결정나무, library(party)

randomForest() 랜덤포레스트, library(randomForest)

svm() 서포트벡터머신 , library(e1071)

mulitnom() 다항로지스틱, library(nnet)

naiveBayes(예측변수, data =   ) library(e1071)