Ferramentas do usuário

Ferramentas do site


r_statistics

Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

Link para esta página de comparações

Próxima revisão
Revisão anterior
r_statistics [2018/11/16 19:46] – criada rtsaboyar_statistics [2018/11/16 20:04] (atual) – [Subsetting] rtsaboya
Linha 1: Linha 1:
-==== R Snippets ==== +===== R Snippets ===== 
-=== Subsetting === +==== Subsetting ==== 
-<code r>+<code rsplus>
 # Selecionar apenas as linhas com determinados valores (lidando com NA) # Selecionar apenas as linhas com determinados valores (lidando com NA)
 dataset[which(dataset$variable>4),] dataset[which(dataset$variable>4),]
 +
 +# Remove rows with NA values
 +dataset<-dataset[complete.cases(dataset),]
 +
 +# Subset com base em uma string contida num campo
 +subset<-dataset[!grepl("string",dataset$variable),] # A última vírgula é porque seria possível ainda inserir critérios para as colunas
  
 # Selecionar apenas as linhas com determinados valores # Selecionar apenas as linhas com determinados valores
Linha 19: Linha 25:
 writeLines(c("Hello","World"), fileConn) writeLines(c("Hello","World"), fileConn)
 close(fileConn) close(fileConn)
 +</code>
 +
 +====Dplyr====
 +
 +<code rsplus>
 +
 +# selecionar apenas as linhas desejadas
 +newdataset<-filter(dataset,variable>30)
 +
 +# com mais de uma coluna como critério:
 +newdataset<-filter(dataset,variable1>30 & variable2<50)
 +
 +# Criar novo campo só quando uma condição for verdadeira
 +rawData<-mutate(rawData, newvariable = ifelse((usoBase==1),[valor caso verdadeiro],[valor caso falso]))
 +
 +# Sumarizar
 +dataset<-group_by(data, variable) # dataset e a coluna que será usada para indicar os grupos
 +newdataset<-summarize(dataset,
 +                      newVariable1=mean(variable1),
 +                      newVariable2=max(variable2),
 +                      newVariable3=median(variable3),
 +                      newVariable4=sum(NumJanelas[NumDoPavto<5], na.rm = TRUE), # Testa condição em outro campo para saber se soma ou não.
 +                      HighVisibility=sum(Visibilidade=="AV", na.rm = TRUE), # Conta valores específicos de um campo
 +                      NumberPlots=n_distinct(Lote), # Conta quantidade de valores únicos dentro de um campo
 +                      Quant=n(), # conta quantos elementos dentro de cada valor usado para agrupar
 +                      
 +                      # Testa duas condições. Se TRUE, atribui primeiro valor (poderia ser uma operação entre campos); se FALSE, atribui último valor:
 +                      residentialGround = ifelse((uso=="Residencial" & numPavimento==1),area,0)
 +                      
 +                      ) #vai usar os grupos indicados no comando anterior
 +
 +# se houver valores nulos em alguma variável, pode dar erro. Solução:
 +newdataset<-summarize(dataset, newVariable1=mean(variable1,na.rm=TRUE), newVariable2=max(variable2),newVariable3=median(variable3)) #vai usar os grupos indicados no comando anterior
 +
 +# Criar uma nova coluna para realçar possíveis erros com base em uma combinação de valores de outras colunas
 +checa<-mutate(rawData,
 +              x=ifelse(pavtosBase == 0 & pavtosTorre != 0, 1, 0) # condição, valor caso TRUE, valor caso FALSE
 +)
 </code> </code>
r_statistics.1542404803.txt.gz · Última modificação: 2018/11/16 19:46 por rtsaboya

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki