R programing 명령어정리

Nova 2021. 3. 29. 09:53

R programing 명령어정리

* 도움말

help()

?()

* 예제보기

example()

* R에서 제공하는 Data set보기

data()

* Data 보기

head() 앞에서 6개보기

tail() 뒤에서 6개보기

str() 자료구조

summary() 기본통계량확인

class() 자료형확인

length() vector개수

colnames() 컬럼이름

attach() ~ detach()

describe() 기본통계량 library(psych)

describeBy(컬럼명+컬럼명+...., 기준컬럼, data =) library(psych)

table() 빈도수

cut() 범위보고 데이터를 자름

sort() 정렬, 벡터만 가능

* 메모리

Is() :메모리에 있는 변수보기

rm(): 메모리에 올라간 변수 삭제

save(변수1,변수2,etc.., file=' .확장자') 메모리에 있는 데이터 그대로저장

load() R로 불러오기

*csv file로 저장하기

write.csv(파일명, ' .csv')

read.csv(' ')

* 연산자

sum()

mean()

max()

min()

median()

var()

sd()

skew() 왜도

kurtosi() 첨도

sqrt() 제곱근

runif() 난수

trunc() 소수점이하 버림

round() 반올림

range() 최대값, 최소값

diff(range()) 최대값-최소값

mean(변수명, trim = 0.1) 절단평균, 양쪽 0.05씩 빼주기

weighted.mean(평균, 가중값) 가중평균

geometric.mean()-1 기하평균 library(psych)

harmonic.mean() 조화평균

* 표준화 자료로 변환

transform(표준화시킬 컬럼명, new컬럼명 = scale(변수명))

* 집합

union() 합집합

intersect() 교집합

setdiff() 차집합

* vector 생성

c()

append()

* 반복데이터

seq() 등차수열

rep() 반복

* 상대빈도(%)

prop.table(table())

* 자료형확인

is.numeric()

is.logical()

is.integer()

is.double(x)

is.data.frame()

is.factor()

is.na()

* 자료형변환

as.numeric() 정수형으로 변환

as.logical() 논리형으로 변환

as.double() 실수형으로 변환

as.data.frame() data frame으로 변환

as.factor() factor로변환

as.Date("2021/01/01", "%Y/%m/%d") 날짜형으로 변환

* 서식을 이용한 출력

sprintf() 문자열:%S , 소수점자릿수:%f, 정수%i

cat()

* 중복제거

unique()

* 문자열 관련함수

paste() 문자열로 다 합침

* 행렬 합치기

rbind() rowbind

cbind() column bind

* Metrics 열이름

colnames()

* 데이터프레임

data.frame()

read.table() txt파일 dataframe생성

read.csv() csv파일 dataframe생성

read_excel() excel파일 dataframe생성

ncol() dataframe의 column개수

nrow() dataframe의 row개수

t() 회전, dataframe에서 metrix로 변경

apply() 데이터프레임에 함수적용

tapply()

subset() 부분집합

merge()

addmargins(변수명, margin = 1) 행 백분율(1), 열 백분율(2), 전체 백분율(margin = NULL)

substr(컬럼명, from,to) 부분추출

row.names() 열이름

* List

list()

unlist() : lis를 vector로 분리하기

* 문자열처리

install.packages('stringr')

library(stringr)

str_length() : 문자열처리

str_c() :문자열연결

str_sub():범위에 해당하는 문자열 생성

str_split():구분자를 기준으로 문자열을 분리하여 부분생성

str_replace():기존문자열을 특정 문자열로 변환

str_replace_all()

str_extract():문자열에서 특정 문자열 패턴의 첫번째 문자열 추출

str_extract_all(): 문자열에서 모든 문자열 추출

str_locate():문자열에서 특정문자열 패턴의 위치 하나만 찾기

str_locate_all(): 문자열에서 특정 문자열 패턴의 위치모두 찾기

str_to_upper(): 대문자변환

str_to_lower(): 소문자변환

* 제어문,조건문에 사용하는 명령어들

readline(): 사용자가 화면에 입력

ifelse(조건, TRUE, FALSE)

*factor로 조정

factor()

*데이터정렬

install.packages('doBy')

library(doBy)

orderBy(~기준값, data) 올림차순

orderBy(~-기준값, data) 내림차순

* 그룹연산함수

aggregate( column명 ~ 기준점, data, 연산) : 기준점별 column의 연산수행

* crosstable

install.prackages('gmodels')

library(gmodels)

CrossTable()

* 2차 데이터 개체수를 data로 인식

xtabs(행 ~ 열+열, data = )

*그래프

options(scipen=100) 지수(e)없애기

split.screen(c(2,2)) : screen(1) barplot(), screen(2)hist(), screen(3)boxplot(), screen(4)pie() 그래프한눈에보기

par(no.readonly=TRUE) / par(mfrow=c(1,2)) #행,열

par(no.readonly=TRUE) /layout(matrix(c(1,1,2,3),2,2 byrow=TRUE)

plot() 꺽은선 그래프

barplot()막대그래프

pie()

mosaicplot() 모자이크그래프

hist()

boxplot()

stem()

ggplot() 원데이터바로 사용 , library(ggplot2)

pie3D() library(plotrix)

sunflowerplot()

qplot()

*확률분포함수

rnorm() 정규분포함수

dnorm() 확률밀도함수

pnomr() 누적분포함수

* 가설검정 test

chisq.test() 카이제곱검정

fisher.test() 피셔검정

shapiro.test() 정규분포검정, 비모수통계 p>0.05

wilcox.test() 비모수통계, p<0.05

t.test() t.검정

cor() 상관계수

cor.test() 상관계수검정

lm() 회귀분석, abline()

step() 변수선택

prcomp() 주성분분석, biplot()

var.test()등분산검정

* 샘플링

sample()

createDatepartition() library(caret) ,조건:정렬되어있어야함

*머신러닝

nnet() 인공신경망, library(nnet)

predict()

ctree() 의사결정나무, library(party)

randomForest() 랜덤포레스트, library(randomForest)

svm() 서포트벡터머신 , library(e1071)

mulitnom() 다항로지스틱, library(nnet)

naiveBayes(예측변수, data = ) library(e1071)

저작자표시 (새창열림)