Análisis exploratorio en R

Dentro de las actividades de análisis de datos, está el análisis exploratorio de los datos fuente. Datos fuente que se utilizarán en diferentes tipos de procesos: integración de datos, reporting, modelos predictivos, etc..

Dicho análisis se basa en gráficos y estadísticos que permiten explorar la distribución identificando características tales como: frecuencias, valores atípicos o outliers, saltos o discontinuidades, concentraciones de valores, disperión, forma de la distribución, correlaciones, etc...

Es un paso básico y necesario en lo que llamamos data science y en general muchas actividades relacionadas con el análisis y tratamiento avanzado de datos.

Análisis exploratorio con R

El lenguaje estadístico R https://www.r-project.org/ dispone de una gran cantidad de funciones y utilidades que facilitan este trabajo. A continuación listamos algunas de las más importantes y útiles con ejemplos. Los pasos del ejemplo se basan en un dataset creado en el paso inicial, lo cual facilita su reproducción.

# Análisis exploratorio

# dataset de ejemplo: dataf

producto <- sample(c("P1","P2","P3","P4","P5","P6"), 1000, replace=TRUE,

prob=c(0.2,0.3,0.2,0.1,0.1,0.1))

centro <- character()

for (i in 1:1000){

centro[i] <- paste("C", sample(1:50,1), sep="")

}

ventas <- round(rnorm(1000, mean=20, sd=5), digits=2)

fecha <- rep(as.Date("2015/1/1"),1000)

for (i in 1:1000){

fecha[i] <- fecha[i] + sample(1:200,1)

}

dataf <- data.frame(producto=producto,centro=centro,

fecha=fecha, ventas=ventas)

# resumen del tipo de datos

str(dataf)

# primeros 10 regs

muestra1 <- head(dataf,10)

# ultimos 10 regs

muestra2 <- tail(dataf,10)

# Obtener una muestra de 20 regs

muestra3 <- dataf[sample(1:nrow(dataf),20),]

# Obtener valores únicos

unique(dataf$producto)

# tablas de frecuencia

table(dataf$producto)

pie(table(dataf$producto)) # gráfico de tarta

table(dataf$centro)

# Divide en tramos un valor numérico y hace un conteo

table(cut(dataf$venta, breaks=5))

# Valores medios

mean(dataf$ventas)

# Desviación estandar

sd(dataf$ventas)

# percentiles

quantile(dataf$ventas, 0.95) # valor por debajo del cual están el 95% de los valores

quantile(dataf$ventas, 0.50) # valor por debajo del cual están el 50% de los valores

quantile(dataf$ventas, 0.25) # valor por debajo del cual están el 25% de los valores

quantile(dataf$ventas, 0.05) # valor por debajo del cual están el 5% de los valores

# resumen de una columna (perfilado):

summary(dataf$ventas)

# Rango de valores

range(dataf$ventas)

# Varianza

var(dataf$ventas)

# Rango intercuartilico

IQR(dataf$ventas) # distancia entre cuartiles 25 y 75

quantile(dataf$ventas, 0.25)

quantile(dataf$ventas, 0.75)

# Histrograma

hist(dataf$ventas)

# Boxplot

boxplot(dataf$ventas)

dataf1 <- dataf

#Detección Valores nulos

nulos <- which(is.na(dataf1)==TRUE)

# Ejemplos de correlación en base a dos columnas nuevas creadas en el dataset: ventas2 y ventas3

dataf$ventas2 <- round(rnorm(1000, mean=15, sd=3), digits=2)

cor(dataf$ventas, dataf$ventas2)

dataf$ventas3 <- dataf$ventas + runif(1000,0,10)

cor(dataf$ventas, dataf$ventas3)

R dispone de paquetes y librerías específicas para realizar este trabajo donde se pueden encontrar más funciones y utilidades ( http://sasybi.blogspot.com.es/2014/07/formacion-medida-en-r.html), pero las aquí señaladas son la base y de uso común en estos procesos.

Más info y formación en B.I. especializada en: datademy

Análisis exploratorio en R

Trending Articles

Vimeo 10.7.0 by Vimeo.com, Inc.

Dibujos para colorear de perros

Long Distance Relationship Tagalog Love Quotes

Kahit may Toyo ka

Re:Mutton Pies (lleechef)

FORECLOSURE OF REAL ESTATE MORTGAGE

Re: lwIP PIC32 port - new title : CycloneTCP a new open source stack for...

Ka dewlynnong Nongkhnum, ka jaka ba itynnat tam ha West Khasi Hills

Vimeo 10.7.1 by Vimeo.com, Inc.

Pahiyas 2013 sa Lucban, Quezon

Autor: Adam

Renos para colorear

Two timer Sad tagalog Love quotes

RE: Mutton Pies (mely)

Mga Tala sa “Unang Siglo ng Nobela sa Filipinas” (2009) ni Virgilio S. Almario

Re: lwIP PIC32 port - new title : CycloneTCP a new open source stack for...

Ka longiing longsem kaba skhem bad kaba khlain ka pynlong kein ia ka...

作者：人与自然和谐相处的世外桃源 - 加拉帕戈斯群岛 Galapagos Islands 游记 - 美国信用卡指南

Vimeo 10.12.2 by Vimeo.com, Inc.

PREMATURE CAMPAIGNING – Meron ba nun?