Big Data en R
EST-383
2021-05-04
Prefacio
Este documento de Alvaro Chirino esta bajo la licencia de Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Audiencia
El libro fue diseñado originalmente para los estudiantes de la materia de Programación Estadística I, una materia optativa del pregrado de la carrera de Estadística de la Universidad Mayor de San Andres.
Este documento representa un primer acercamiento a los estudiantes de estadistica al software R y al mundo del Big Data.
Estructura del libro
El libro inluye 5 capitulos, estos son:
- Introducción a R
- Scraping Web en R
- Introducción al Big Data
- Big Data en R
- R y Spark
Software y acuerdos
sessionInfo()
## R version 4.0.5 (2021-03-31)
## Platform: x86_64-w64-mingw32/x64 (64-bit)
## Running under: Windows 10 x64 (build 19042)
##
## Matrix products: default
##
## locale:
## [1] LC_COLLATE=Spanish_Bolivia.1252
## [2] LC_CTYPE=Spanish_Bolivia.1252
## [3] LC_MONETARY=Spanish_Bolivia.1252
## [4] LC_NUMERIC=C
## [5] LC_TIME=Spanish_Bolivia.1252
##
## attached base packages:
## [1] stats graphics grDevices utils datasets
## [6] methods base
##
## other attached packages:
## [1] rvest_1.0.0.9000 foreign_0.8-81 dplyr_1.0.5
##
## loaded via a namespace (and not attached):
## [1] bslib_0.2.4 compiler_4.0.5
## [3] pillar_1.5.1 jquerylib_0.1.3
## [5] highr_0.8 tools_4.0.5
## [7] digest_0.6.27 jsonlite_1.7.2
## [9] evaluate_0.14 lifecycle_1.0.0
## [11] tibble_3.1.0 pkgconfig_2.0.3
## [13] rlang_0.4.10 cli_2.4.0
## [15] DBI_1.1.1 rstudioapi_0.13
## [17] curl_4.3 yaml_2.2.1
## [19] xfun_0.22 stringr_1.4.0
## [21] httr_1.4.2 knitr_1.31
## [23] xml2_1.3.2 generics_0.1.0
## [25] vctrs_0.3.7 sass_0.3.1
## [27] tidyselect_1.1.0 glue_1.4.2
## [29] R6_2.5.0 fansi_0.4.2
## [31] rmarkdown_2.7 bookdown_0.21
## [33] selectr_0.4-2 purrr_0.3.4
## [35] magrittr_2.0.1 htmltools_0.5.1.1
## [37] ellipsis_0.3.1 assertthat_0.2.1
## [39] utf8_1.2.1 stringi_1.5.3
## [41] crayon_1.4.1
Bases de datos
En este documento se emplearan 4 bases de datos del contecto Boliviano:
- Encuesta a Hogares 2019 y 2019. Vivienda y Personas
- Encuesta de Demografía y Salud 1989 - 2008
- Encuesta de Niños, niñas y adolescentes 2016
- Computo oficial de las elecciones del 20 de Octubre de 2019
- Bases de datos de contagios, muertes y recuperados del COVID-19 del Johns Hopkins Institute.
Estas bases de datos se encuentran disponibles en formato \(.RData\) en el repositorio de Github del texto.
Agradecimiento
Eponine…