1 Introducción a la estadística y estadística descriptiva
1.1 Definición de la estadística
El arte de contar una historia con datos
- La información, los datos, son la fuente primaria para la estadística.
- La estadística cubre los métodos, técnicas detrás de:
- Recolección de información
- Procesar la información (limpieza, depuración, coherencia, etc.)
- Análisis de la información
- Visualización de la información
- Es una ciencia transversal
La estadística es la gramática de las ciencia La estadística es la ciencia que estudia el error/azar
1.2 Aréas de las estadística
- Estadística descriptiva: Describir una población o una muestra
- Inferencia estadística: Realizar análisis de una población mediante una muestra estadística
- Inferencia causal: Explora o revela como una variable puede causar otra \(Y \leftarrow X\)
1.3 Historia de la estadística
- Censo: En la antiguedad se listaba de forma completa una determinada población, con el fin de conocer características. (<1900)
- Censos población y vivienda; 2012, 2001, 1992, 1976, 1950, etc.
- Muestra e inferencia: Tiene el objetivo de explicar a una población mediante una muestra; probabilidad, variables aleatorias, los diseños experimentales (>1900)
- Exploración de conocimiento: Nace con la aparición y capacidad de los ordenadores/computadoras; Minería de datos, big data, machine learning, ciencia de datos. (>2000)
Problema 1: Cómo se puede contar(aproximar) la cantidad de hormigas en un hormiguero. Problema 2: Cómo se puede contar(aproximar) la cantidad de árboles en Pura Pura. Problema 3: Cómo se puede contar(aproximar) la cantidad de perros callejeros en El Alto
1.4 Mecanismos de recolección de información
- Muestreo estadístico: Es un sub conjunto de una población, sobre la cual se puede hacer inferencia, siempre y cuando la muestra sea obtenida mediante un proceso aleatorio. Un censo es un caso particular de un muestreo. \(n=N\). Los resultados se pueden generalizar.
- Estudios observacionales: (estudios de caso/sondeo) Se trata de una muestra que fue seleccionada con un criterio definido por el investigador y que no tiene un componente de azar (Muestra intencionada/voluntaria). Los resultados no se pueden generalizar, son propios de la muestra definida. Se recomienda este tipo de estudios en poblacionés dificiles de acceder o vulnerables
- Diseños experimentales: Están dentro de la inferencia causal y tienen el objetivo de identificar el efecto de un tratamiento/intervención sobre una población controlada. Pueden tener componentes éticos. La particularidad principal de un experimento es que el tratamiento se asigna de forma aleatoria y anónima.
Actividad (15 minutos)
- Indagar que tipo de poblaciones se estudian con más frecuencia en Biología en Carrera / Bolivia / Mundo
- Qué bases de datos existen Carrera/Bolivia vinculado a la Biología?.
1.5 Población y muestra
\[U=\{u_1,u_2,\ldots, u_N \}\] \[s=\{u_1,u_2,\ldots, u_n \}\]
\[s \subset U\]
Donde normalmente \(n\leq N\)
1.7 Tipos de unidades estadísticas
- investigación/análisis
- información
- muestreo (elementales/agregadas)
1.8 Tipos de variables
- Cualitativas (cualidad)
- Nominal (sin orden)
- Ordinal (orden)
- Cuantitativas (cantidad)
- Continua (no numerables)
- Discreta (numerable)
1.9 Conteo, frecuencias y porcentajes
1.9.1 Tipos de ordenamiento de los datos
- Elementos simples (primitivos). Mejor alternativa
- Tabla de frecuencias simples
- Tabla de frecuencias en intervalos clases
1.9.3 Frecuencias
- Frecuencia absoluta (\(f_i\)): Se refiere simplemente al proceso de conteo
Si estamos trabajando sobre la muestra:
\[\sum_{i=1}^k f_i=n\]
Si estamos trabajando sobre el universo:
\[\sum_{i=1}^k f_i=N\]
- Frecuencia absoluta acumulada (\(F_i\))
\[F_j=\sum_{i=1}^j f_i\] * Frecuencia relativa
\[r_i=\frac{f_i}{n} \quad Muestra; \quad r_i=\frac{f_i}{N} \quad Universo\] * Porcentaje
\[r_i\%=r_i*100x\]
1.10 Medidas de tendencia central
Estas medidas son funciones que tienen el objetivo de resumir la información en un solo número “Representante”. Esto permite rápidamente conocer las características de una variable en una determinada muestra o población
Ejemplo:
Sea la siguiente serie de números (edad):
18 21 18 18 17 19 19 22 19 19 20 22 24 24 22 19 20 22 19 18 19 21
¿Qué número es buen candidato a representar a este conjunto de números? ¿Por qué?
- 19 ya que es el que más se repite
- Promedio=20 ¿?
- 20 ya que esta al centro de todos
Típicamente hay tres medidas muy usuales para encontrar un representante:
- Moda (\(Mo\)): Es el valor que más se repite, es posible que existan mas de una moda en un conjunto de datos.
- Mediana (\(Me\)): Es el valor que se encuentra en el centro de los datos ordenados, de tal forma que deja la misma cantidad de información a la derecha y a la izquierda
- Media o promedio aritmético (\(\mu\) población, \(\bar{Y}\) muestra)
\[\mu=\frac{Y_1+Y_2+\ldots+ Y_N}{N}=\frac{\sum_{i=1}^N Y_i}{N}\]
\[\bar{Y}=\frac{Y_1+Y_2+\ldots+ Y_n}{n}=\frac{Y_1}{n}+\frac{Y_2}{n}+\ldots+\frac{Y_n}{n}=\frac{\sum_{i=1}^n Y_i}{n}\] Para calcular la mediana, se debe tener en cuenta si \(n\) es par o es impar
Ejemplo, calcular la mediana:
- 1 2 3 4 5 \(Me=3\)
- 1 2 3 4 5 6 \(Me=3.5\)
De manera formal:
Si \(n\) es par, una vez ordenado los datos:
\[Me=\frac{Y_{n/2}+Y_{n/2+1}}{2}\] Si \(n\) es impar, una vez ordenado los datos:
\[Me=Y_{||n/2||+1}\] Donde el símbolo \[||x||\] representa la parte entera. Una alternativa a esta formula es:
\[Me=Y_{\lceil n/2 \rceil}\] Donde el símbolo \[\lceil x \rceil\] representa la función techo que exige un redondeo al entero inmediato.
Para el ejemplo:
<-c(18, 21, 18, 18, 17, 19, 19, 22, 19, 19, 20, 22, 24, 24, 22, 19, 20, 22, 19, 18, 19, 21)
ysort(y)
## [1] 17 18 18 18 18 19 19 19 19 19 19 19 20 20
## [15] 21 21 22 22 22 22 24 24
- \(Mo=19\)
- \(Me=19\)
\[Me=\frac{Y_{22/2}+Y_{22/2+1}}{2}=\frac{Y_{11}+Y_{12}}{2}=\frac{19+19}{2}=19\] * \(\bar{Y}=20\)
\[\bar{Y}=\frac{\sum_{i=1}^n Y_i}{n}=\frac{17+18+18+\ldots+24}{22}=\frac{440}{22}=20\]
Debilidades de las medidas de tendencia central
- La moda no siempre se puede calcular
- La mediana puede no reflejar una buena representatividad cuando hay muchos datos cargados a los extremos. (2 2 2 2 20 80 80 80 80)
- La media es sensible a una fuerte variación en los datos
- La media es sensible a números atípicos (extremos). (5 5 5 5 5 5 500 \(\bar{Y}=75\)).
1.11 Medidas de variabilidad
1.11.1 Rango:
\[R=Max(y_i)-Min(y_i)\] ### Varianza muestral:
\[s^2=\frac{\sum_{i=1}^n(y_i-\bar{y})^2}{n-1}\] ### Desviación estándar:
\[s=\sqrt{s^2}\] ### Varianza Poblacional:
\[\sigma^2=\frac{\sum_{i=1}^N(y_i-\mu)^2}{N}\]
1.11.2 Formula corta de la varianza muestral
\[s^2=\frac{\sum_{i=1}^n(y_i-\bar{y})^2}{n-1}=\frac{\sum_{i=1}^n y_i^2-n\bar{y}^2}{n-1}=\frac{SC}{gl}\] > Ejercicio:
Dada las siguientes edades de una muestra, calcular la media, mediana, moda, rango, varianza y desviación estándar:
26 30 27 32 28 27 22 19 19 19 32 32 23 27 18
- Media:
\[\bar{y}=\frac{381}{15}=25.4\]
* Mediana: 27
* Moda: 19, 27, 32
* Rango: 14
* Varianza: 25,83
* Desviación estándar: 5.08
\[s^2=\frac{\sum_{i=1}^n y_i^2-n\bar{y}^2}{n-1}=\frac{10039-15*25.4^2}{15-1}=25.83\]
Coeficiente de variación:
\[cv(y)=\frac{s}{|\bar{y}|}\] Este coeficiente es una medida relativa, que nos sirve para entender cuan representativa es la media dentro del conjunto de datos. Normalmente esta medida se encuentra entre 0 y 1, pero es posible en algunos casos que supere la unidad.
- Mientras el \(cv\) sea más cercano a 0, significa baja variabilidad, por lo tanto, la media es un buen representante.
- Por otro lado, si el \(cv\) se acerca al 1 o lo sobre pasa implica una fuerte variabilidad, por lo tanto, la media no es un buen representante.
Ejemplo, en el ejercicio anterior:
\[cv(y)=\frac{s}{|\bar{y}|}=\frac{5.08}{|25.4|}=\frac{5.08}{25.4}=0.2\] Se interpreta que la media es un buen representante en este conjunto de datos.
Otra manera de interpretar al \(cv\) es multiplicarlo por 100 y el valor obtenido se interpreta como el porcentaje de observaciones que no se sienten representado por la media.