1 Tema 1: Estadística Descriptiva
1.1 Definición de la estadística.
El arte de contar una historia con datos
- La información, los datos, son la fuente primaria para la estadística.
- La estadística cubre los métodos, técnicas detrás de:
- Recolección de información
- Procesar la información (limpieza, depuración, coherencia, etc.)
- Análisis de la información
- Visualización de la información
- Es una ciencia transversal
La estadística es la gramática de las ciencia
La ciencia de datos en el nombre sexy de la estadística
1.2 Historia
- Censo. En la antigüedad se listaba de forma completa una determinada población, con el fin de conocer sus características. (Estadística descriptiva)
- Censos de población y vivienda (2012, 2001, 1992, 1976, etc.)
- Censos de Agropecuario (2013, 1984)
- Censos económicos, unidades económicas de un país o región.
- Muestra e inferencia. El objetivo de esta fase es explicar lo que le sucede a una población a partir de una muestra de ella. (Probabilidad, variables aleatorias).
- Explosión de conocimiento. Nace a partir de la aparición del ordenador. Minería de datos, machine learning, ciencia de datos, big data, etc.
1.2.1 Tarea de repaso.
Buscar los conceptos de:
- Machine learning
- Minería de datos
- Minería de texto
- Estadística multivariante
1.3 Conceptos importantes
1.3.1 Población
Una colección de objetos/elementos, por ejemplo; personas, cosas, animales, etc.
Sea la población o universo de estudio identificado como \(U\). Debemos distinguir entre las poblaciones finitas y poblaciones infinitas, en este capítulo se trabaja sobre universos finitos.
\[U=\{u_1, u_2, \ldots u_i,\ldots, u_N \}\] ### Muestra Es un sub conjunto del universo, lo vamos a denotar con \(s\). \(s \subset U\).
\[s=\{u_{(1)}, u_{(2), \ldots}, u_{(n)} \}\]
Donde \(u_{(i)} \in U\).
Nota: El tamaño del universo o la población sera denotado por \(N\), y \(n\) al tamaño de la muestra.
1.3.2 Variable
Una variable en estadística expresa una característica asociado a algún elemento en la población. Normalmente esta se la denota con \(X\) e \(Y\).
Por ejemplo, en la población de estudiantes inscritos en la materia de EST-133(c) el tamaño es \(N=90\) los elementos de esta población corresponden a estudiantes de la carrera de informática algunas variables en esta población pueden ser:
- (\(X\)) Edad
- (\(Y\)) Sexo
- (\(Z\)) Horas de sueño la pasada noche
- (\(W\)) El color de los ojos
- (\(V\)) El número de celular
Las variables asociadas a un elemento en la población, la podemos denotar de la siguiente forma:
\[u_i=\{X_{i1}, X_{i2},\ldots, X_{ip} \}\] Siguiendo el ejemplo:
\[u_{Juana}=\{ 23, Mujer, 5, Cafe, 77777777 \}\] ## Tipos de variables
1.3.3 Cualitativos (cualidades)
No se pueden realizar operaciones algebraicas sobre este tipo de variables.
Estas tienen una sub clasificación:
- Nominales: Las categorías de la variable no tienen un orden de jerarquía (el orden no importa)
- Ordinales: Las categorías de la variable tienen un orden de jerarquía (el orden importa)
Ejercicio de clase.
- Definan una población, sus elementos y liste al menos 3 variables cualitativas nominales y 2 variables cualitativas ordinales.
Resp. 1: Universo, Doctores que vivan en el municipio de La Paz, elemento: Doctor/a.
- nominales: lugar de trabajo, si tiene familia, apellido
- ordinales: nivel de postgrado, cargo, especialidad (si, no)
Resp. 2: Universo, clase de estudiantes de colegio, sus elementos, los alumnos que conforman la clase.
- cualitativas nominales apellido, nombre, género
- cualitativas ordinales: cargo dentro del gobierno estudiantil, rendimiento escolar (malo, regular, bueno)
Resp. 3: universo: televisores que están en venta en la ciudad de La Paz; elementos los diferentes tipos de televisores que existan ; * variables cualitativas nominales -> color, material; * variables cualitativas ordinales -> modelo, garantía, marca.
1.3.4 Cuantitativos (cantidad)
Se pueden realizar operaciones algebraicas. Estas se dividen en 2.
- Discretas: Numerables, ejemplos; edad en años, precio de un televisor, peso en kilogramos, la altura en cm, la cantidad de personas es un evento.
- Continuas: No numerables; edad de una persona, cualquier variables definida en los números reales.
Nota: Las variables continuas se pueden volver variables discretas (discretizar una variable)
Nota: Todo el contenido de la materia en adelante esta mas relacionado con variables cuantitativas.
1.4 Ordenando los datos
La idea de este punto es conocer las formas en las que se puede manejar las información disponible.
Podemos observar tres formas de ordenar la información proveniente de una sola variable.
Imaginar que tenemos la información de edades de una población de 1000 personas.
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
- Mantenerlos en su forma simple (Datos no ordenados, datos simples).
## [1] 11 62 61 62 86 64 1 23 67 51 69 54 28 92 29
## [16] 84 29 27 19 23 32 30 16 4 22 81 53 91 83 5
## [31] 46 27 30 51 18 76 20 26 99 81 55 65 31 62 33
## [46] 50 68 48 24 77 7 31 72 50 15 50 49 75 17 85
## [61] 86 4 32 1 24 71 31 51 5 56 12 89 1 78 9
## [76] 52 38 7 32 67 93 47 14 54 20 90 39 31 16 90
## [91] 17 90 13 13 11 51 30 3 31 74 4 57 28 20 13
## [106] 33 16 13 44 4 71 10 95 12 22 91 95 28 12 80
## [121] 74 92 99 94 49 28 25 50 50 32 96 63 13 42 91
## [136] 47 91 60 63 87 50 98 32 48 36 63 74 57 98 58
## [151] 44 23 8 85 23 99 60 100 38 56 43 58 43 22 8
## [166] 64 43 7 80 33 76 58 71 43 34 76 42 56 12 30
## [181] 48 34 60 8 96 2 84 63 31 74 64 99 13 88 81
## [196] 82 83 73 98 64 66 53 32 77 53 73 31 40 20 99
## [211] 57 28 19 76 57 93 64 70 48 85 42 3 26 33 13
## [226] 50 80 34 51 49 80 57 11 81 57 21 75 31 49 99
## [241] 42 24 22 69 98 48 77 57 97 80 53 60 26 28 7
## [256] 56 26 0 59 52 84 3 60 27 12 10 75 2 5 75
## [271] 36 76 38 80 3 51 82 54 27 34 37 43 92 78 74
## [286] 28 46 29 70 82 66 41 95 24 61 76 69 12 64 31
## [301] 35 98 54 44 95 45 19 99 55 77 91 68 41 41 15
## [316] 20 19 41 35 83 20 86 40 15 34 37 43 19 66 92
## [331] 73 88 95 19 47 39 37 3 93 41 96 27 52 98 37
## [346] 31 3 67 92 4 20 74 13 71 100 94 59 73 49 77
## [361] 0 56 46 33 84 98 66 23 82 72 98 27 88 49 31
## [376] 40 76 10 42 66 30 21 0 11 21 12 69 19 98 95
## [391] 69 74 73 65 17 92 56 54 2 37 69 42 76 78 57
## [406] 19 76 9 62 42 78 81 97 22 87 42 51 77 13 41
## [421] 66 91 34 11 93 20 5 43 34 28 66 78 44 93 27
## [436] 66 38 94 74 59 81 88 75 50 99 56 88 63 61 3
## [451] 25 78 100 96 75 68 25 61 57 5 37 89 39 52 18
## [466] 19 55 39 63 57 14 29 0 96 40 98 51 47 72 14
## [481] 52 56 66 37 14 7 76 70 76 16 60 76 91 31 66
## [496] 34 60 8 61 60 67 80 86 5 67 85 75 83 13 79
## [511] 36 95 93 59 11 78 60 9 66 33 84 25 36 92 56
## [526] 81 4 4 63 24 25 62 41 80 12 99 65 66 75 51
## [541] 38 61 97 22 75 43 83 88 98 91 26 22 79 17 84
## [556] 97 50 4 63 83 16 99 68 86 24 86 79 61 21 6
## [571] 63 80 20 67 40 39 6 42 55 82 84 1 57 30 4
## [586] 36 27 97 95 62 96 88 12 60 36 67 64 70 63 12
## [601] 28 17 17 56 43 39 84 21 51 39 26 80 31 8 95
## [616] 38 33 66 78 48 93 5 67 83 34 93 48 95 31 60
## [631] 89 61 44 56 94 83 29 84 26 34 56 19 51 93 31
## [646] 36 6 88 51 80 24 69 86 45 17 51 87 3 26 94
## [661] 62 95 82 5 30 51 71 28 46 73 13 93 39 25 95
## [676] 84 42 89 21 95 48 11 63 29 83 33 87 3 54 48
## [691] 88 49 22 51 1 9 32 55 30 74 1 60 71 47 22
## [706] 12 41 64 6 57 71 98 97 12 19 19 46 20 97 10
## [721] 82 10 97 1 50 99 44 34 31 99 92 1 10 54 62
## [736] 79 48 81 99 93 27 10 7 19 59 0 48 66 20 66
## [751] 55 74 39 84 25 89 69 92 37 62 3 65 0 58 28
## [766] 61 93 57 80 30 89 86 84 7 62 51 7 22 58 36
## [781] 94 6 0 29 22 69 86 3 70 17 79 15 68 52 70
## [796] 26 51 82 18 86 11 87 51 29 34 57 18 44 66 42
## [811] 56 20 93 67 13 38 30 81 47 44 8 37 39 39 24
## [826] 79 2 40 39 46 30 80 87 94 27 68 71 20 56 62
## [841] 11 58 65 19 46 92 57 94 74 72 55 98 94 18 55
## [856] 64 10 4 77 96 11 40 3 41 21 92 23 98 27 53
## [871] 95 90 95 30 77 19 10 9 51 58 69 25 45 54 57
## [886] 93 17 4 10 2 92 75 61 38 34 33 63 63 98 87
## [901] 64 41 92 45 91 3 34 26 78 30 26 47 7 23 11
## [916] 8 44 98 96 80 54 46 21 23 59 26 76 55 10 15
## [931] 15 99 3 61 10 51 19 51 39 59 92 58 81 77 61
## [946] 53 29 12 48 37 71 95 31 82 86 5 86 48 12 66
## [961] 23 46 89 79 5 7 66 23 59 33 100 71 0 77 20
## [976] 69 75 24 95 58 80 93 8 66 99 25 4 99 13 18
## [991] 48 64 99 10 69 0 77 32 96 20
- Tenerlos en una tabla de frecuencias, es una tabla que para cada valor de la variable se realiza un proceso de conteo.
## x Freq
## 1 0 9
## 2 1 8
## 3 2 5
## 4 3 14
## 5 4 12
## 6 5 10
## 7 6 5
## 8 7 10
## 9 8 8
## 10 9 5
## 11 10 13
## 12 11 11
## 13 12 14
## 14 13 13
## 15 14 4
## 16 15 6
## 17 16 5
## 18 17 9
## 19 18 6
## 20 19 16
## 21 20 15
## 22 21 8
## 23 22 11
## 24 23 10
## 25 24 9
## 26 25 9
## 27 26 12
## 28 27 11
## 29 28 11
## 30 29 9
## 31 30 13
## 32 31 17
## 33 32 8
## 34 33 10
## 35 34 14
## 36 35 2
## 37 36 8
## 38 37 10
## 39 38 8
## 40 39 13
## 41 40 7
## 42 41 10
## 43 42 11
## 44 43 9
## 45 44 9
## 46 45 4
## 47 46 9
## 48 47 7
## 49 48 14
## 50 49 7
## 51 50 10
## 52 51 21
## 53 52 6
## 54 53 6
## 55 54 9
## 56 55 9
## 57 56 14
## 58 57 16
## 59 58 9
## 60 59 8
## 61 60 12
## 62 61 12
## 63 62 11
## 64 63 13
## 65 64 11
## 66 65 5
## 67 66 19
## 68 67 9
## 69 68 6
## 70 69 12
## 71 70 6
## 72 71 10
## 73 72 4
## 74 73 6
## 75 74 11
## 76 75 11
## 77 76 13
## 78 77 11
## 79 78 9
## 80 79 7
## 81 80 15
## 82 81 10
## 83 82 9
## 84 83 9
## 85 84 12
## 86 85 4
## 87 86 12
## 88 87 7
## 89 88 9
## 90 89 7
## 91 90 4
## 92 91 9
## 93 92 14
## 94 93 15
## 95 94 9
## 96 95 17
## 97 96 9
## 98 97 8
## 99 98 16
## 100 99 17
## 101 100 4
- Tener los datos en una tabla de frecuencias con intervalos de clase.
## Var1 Freq
## 1 (0,10] 90
## 2 (10,20] 99
## 3 (20,30] 103
## 4 (30,40] 97
## 5 (40,50] 90
## 6 (50,60] 110
## 7 (60,70] 104
## 8 (70,80] 97
## 9 (80,90] 83
## 10 (90,100] 118
1.5 Medidas de tendencia central
Imaginemos que tenemos los siguientes números: 2,2,3,3,3,4,4.
1.5.1 Moda (Mo)
La moda es el número que aparece con mas frecuencia en la serie de datos.
En los números descritos la moda es \(Mo=3\). Si la serie de números ahora es: 2,2,2,3,3,3,4,4. ¿Cuál es la moda?, en este caso se tienen 2 modas, el 2 y 3 (bi-modal).
Nota: Si todos los números aparecen la misma cantidad de veces, no hay moda
1.5.2 Mediana (Me)
La mediana corresponde al valor que se encuentra en el centro, de la serie de números ordenados.
Es el número que deja la misma cantidad de información tanto a la derecha como a la izquierda.
En el ejemplo: 2,2,3,3,3,4,4. La mediana es igual a \(Me=3\). Veamos los siguientes ejemplos:
- 9,5,2,6,2,4,8. Ordenando, 2, 2, 4, 5, 6, 8, 9. Así \(Me=5\), \(Mo=2\)
- 4,2,7,7,4,3,2,9. Ordenando, 2, 2, 3, 4, 4, 7, 7, 9. Así \(Me=4\), \(Mo=2,4,7\)
- 1,2,3,4,5,5,5,90. Ordenando, 1, 2, 3, 4, 5, 5, 5, 90. Así \(Me=\frac{4+5}{2}=4.5\), \(Mo=5\).
Para obtener el valor de la mediana se debe tomar el cuenta si la cantidad de datos es impar o par.
Si \(N\) es impar: \[Me= X_{||N/2||+1}\] \[Me= X_{(N+1)/2}\]
- En el ejemplo: 2, 2, 4, 5, 6, 8, 9. Corresponden a este conjunto (\(X_1,X_2,X_3,X_4,X_5,X_6,X_7\)). Entonces \(Me=X_{||N/2||+1}=X_{||7/2||+1}=X_{||3.5||+1}=X_{3+1}=X_4=5\)
Si \(N\) es par: \[Me=\frac{X_{N/2}+X_{N/2+1}}{2} \]
1.5.3 Media, Promedio, Media aritmética
Esta medida se caracteriza en que su construcción depende de todas las observaciones en los datos, (democrática).
\[\bar{x}=\frac{\sum_{i=1}^N {x_i}}{N}=\frac{x_1}{N}+\frac{x_2}{N}+\ldots+\frac{x_N}{N}\]
Ejemplo,
- 9,5,2,6,2,4,8. \(\bar{x}=\frac{36}{7}=5.14\)
- 4,2,7,7,4,3,2,9. \(\bar{x}=\frac{38}{8}=4.75\)
- 1,2,3,4,5,5,5,90. \(\bar{x}=\frac{115}{8}=14.38\)
Nota: La media es una medida sensible a los números atípicos. (Grandes)
La media para datos agrupados:
## xi fi
## 1 2 2
## 2 3 1
## 3 4 2
## 4 7 2
## 5 9 1
Donde \(f_i\) se conoce como frecuencia absoluta (conteo). \(\sum_{i=1}^k{f_i}=N\). Donde \(k\) es la cantidad de filas en la tabla de frecuencias.
\[\bar{x}=\frac{\sum_{i=1}^k{x_i*f_i}}{N}\]
En el ejemplo:
\[\bar{x}=\frac{2*2+3*1+4*2+7*2+9*1}{8}=\frac{38}{8}=4.75\]
1.5.4 Propiedades de la media
Sea \(x\) la variable de interés, y \(a, b\) contantes.
## [1] 4.857143
## [1] 5 5 6 8 6 8 10
## [1] 6.857143
- \(y=x+a\), entonces, \(\bar{y}=\bar{x}+a\)
Demostración
\[\bar{y}=\frac{\sum_{i=1}^N {y_i}}{N}=\frac{\sum_{i=1}^N {(x_i+a)}}{N}=\frac{\sum {x_i}+\sum a}{N}=\frac{\sum {x_i}}{N}+\frac{N a}{N}=\bar{x}+a\]
- \(\bar{a}=a\)
- \(y=ax\), entonces, \(\bar{y}=a\bar{x}\)
Demostración
\[\bar{y}=\frac{\sum_{i=1}^N {y_i}}{N}=\frac{\sum_{i=1}^N {a*x_i}}{N}=a*\frac{\sum_{i=1}^N {x_i}}{N}=a \bar{x}\]
- \(y=a+bx\), entonces, \(\bar{y}=a+b\bar{x}\)
Ejemplo:
En 2020 de un grupo de 30 trabajadores, existen 15 obreros que tienen un salario de 2000 Bs, 10 técnicos tienen un salario de 4000 Bs. y 5 gerentes un salario de 7000 Bs. Para 2021 se decide darles un incremento de 500 Bs a todos, más un incremento del 15% sobre su salario del 2020. ¿Cuál es el promedio de salario de estos trabajadores para la gestión 2021?
Solución,
\(N=30=15+10+5=N_{obr}+N_{tec}+N_{ger}\), definamos la variable salario \(S\).
\[\bar{S}_{2020}=\frac{\sum_{i=1}^{30}{s_i}}{30}=\frac{2000*15+4000*10+7000*5}{30}=\frac{105000}{30}=3500\]
\[\bar{S}_{2021}=500+1.15*\bar{S}_{2020}=500+1.15*3500=4525\]
1.6 Medidas de dispersión
Son medidas que tienen el objetivo de brindar información respecto la variabilidad de la información.
## [1] 12 11 10 11 12 11 11 10 12 12 11 12 10 11 11 11 11 11 11 12
## [1] 11 14 12 20 15 14 19 17 14 14 12 18 10 19 17 13 17 15 19 13
## [1] 94 33 50 74 91 56 55 14 32 81 28 89 43 34 63 25 54 97 62 81
1.6.1 Rango
\[R=X_{max}-X_{min}\] En el ejemplo de los salarios: \(R=7000-2000=5000\)
1.6.2 Varianza poblacional
\[\sigma^2_x=\frac{\sum_{i=1}^N{(x_i-\bar{x})^2}}{N}\]
Para el ejemplo de salarios. \(\sigma_s^2=3250000\).
Nota: La varianza es una medida estadística poco informativa y nada interpretable. Por ello, existe otra medida derivada de la varianza, conocida como la desviación estándar.
\[\sigma_x=\sqrt{\sigma_x^2}=\sqrt{\frac{\sum_{i=1}^N{(x_i-\bar{x})^2}}{N}}\] Para el ejemplo, \(\sigma_s=\sqrt{3250000 (Bs.^2)}=1802.78 (Bs)\)
Existe una medida relativa, para conocer la dispersión. Esta se llama el coeficiente de variación.
\[CV(x)=CV_x=\frac{\sigma_x}{\bar{x}}\] Una interpretación de esta medida se refiere al porcentaje de elementos que no se sienten representados por el promedio. (\(\%CV=CV_x*100\))
En el ejemplo de los salarios, \(CV_s=\frac{1802.78}{3500}=0.51\), en porcentaje es 51%.
Nota: Mientras \(\%CV_x \rightarrow 0\) la información es menos dispersa, en otro caso, la información es mucho más dispersa \(\%CV_x \rightarrow 100\)
1.6.3 Varianza muestral (cuasivarianza)
\[S^2_x=\frac{\sum_{i=1}^N{(x_i-\bar{x})^2}}{N-1}\]
\[S^2_x=\frac{\sum_{i=1}^n{(x_i-\bar{x})^2}}{n-1}\]
En el ejemplo de salarios, \(S^2_s=\frac{97500000}{29}=3362069\).