lunes, 29 de septiembre de 2014

graficas: cualitativas y cuantitatvas.



Los gráficos más usuales para representar variables de tipo nominal son los siguientes:
Diagramas de barras:
Siguiendo la figura 1.1, representamos en el eje de ordenadas las modalidades y en abscisas las frecuencias absolutas o bien, las frecuencias relativas. Si, mediante el gráfico, se intenta comparar varias poblaciones entre sí, existen otras modalidades, como las mostradas en la figura 1.2. Cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso podrían resultar engañosas.



\includegraphics[angle=0, width=0.5\textwidth]{fig01-01.eps}
Figura: Diagramas de barras para comparar una variable cualitativa en diferentes poblaciones. Se ha de tener en cuenta que la altura de cada barra es proporcional al número de observaciones (frecuencias relativas).



\includegraphics[angle=-90, width=0.5\textwidth]{fig01-02.eps} 

Diagramas de sectores
(también llamados tartas). Se divide un círculo en tantas porciones como clases existan, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa 
 
 
\includegraphics[angle=-90, width=0.6\textwidth]{fig01-03.epsi} 
El arco de cada porción se calcula usando la regla de tres:




Como en la situación anterior, puede interesar comparar dos poblaciones. En este caso también es aconsejable el uso de las frecuencias relativas (porcentajes) de ambas sobre gráficos como los anteriores. Otra posibilidad es comparar las 2 poblaciones usando para cada una de ellas un diagrama semicircular, al igual que en la figura. Sean $n_1 \leq n_2$ los tamaños respectivos de las 2 poblaciones. La población más pequeña se representa con un semicírculo de radio r1y la mayor con otro de radio r2. La relación existente entre los radios, es la que se obtiene de suponer que la relación entre las areas de las circunferencias es igual a la de los tamaños de las poblaciones respectivas, es decir:

\begin{displaymath}\frac{r_2^2}{r_1^2} = \frac{n_2}{n_1} \Longleftrightarrow
r_2 = r_1 \cdot \sqrt{\frac{n_2}{n_1}}
\end{displaymath} 
   
Figura: Diagrama de sectores para comparar dos poblaciones
\includegraphics[angle=-90, width=0.6\textwidth]{fig01-04.epsi}
 



\begin{eqnarray}\html{eqn1}n & \longrightarrow & 360^{\circ} \nonumber
\\
n_i & \longrightarrow &x_i = \frac{360 \cdot n_i}{n} \nonumber
\end{eqnarray}
Pictogramas
Expresan con dibujos alusivo al tema de estudio las frecuencias de las modalidades de la variable. Estos gráficos se hacen representado a diferentes escalas un mismo dibujo, como vemos en la figura 

  
Figura: Pictograma. Las áreas son proporcionales a las frecuencias.
\includegraphics[angle=0, width=0.5\textwidth]{fig01-05.eps}

El escalamiento de los dibujos debe ser tal que el área1.1 de cada uno de ellos sea proporcional a la frecuencia de la modalidad que representa. Este tipo de gráficos suele usarse en los medios de comunicación, para que sean comprendidos por el público no especializado, sin que sea necesaria una explicación compleja.




Gráficos para variables cuantitativas

Para las variables cuantitativas, consideraremos dos tipos de gráficos, en función de que para realizarlos se usen las frecuencias (absolutas o relativas) o las frecuencias acumuladas:
Diagramas diferenciales:
Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se representa el número o porcentaje de elementos que presenta una modalidad dada.
Diagramas integrales:
Son aquellos en los que se representan el número de elementos que presentan una modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias acumuladas, lo que da lugar a gráficos crecientes, y es obvio que este tipo de gráficos no tiene sentido para variables cualitativas.
Según hemos visto existen dos tipos de variables cuantitativas: discretas y continuas. Vemos a continuación las diferentes representaciones gráficas que pueden realizarse para cada una de ellas así como los nombres específicos que reciben.

1.9.4.1 Gráficos para variables discretas

Cuando representamos una variable discreta, usamos el diagrama de barras cuando pretendemos hacer una gráfica diferencial. Las barras deben ser estrechas para representar el que los valores que toma la variable son discretos. El diagrama integral o acumulado tiene, por la naturaleza de la variable, forma de escalera. Un ejemplo de diagrama de barras así como su diagrama integral correspondiente están representados en la figura 

1.9.4.2 Ejemplo

Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el número de caras, X, obteniendose los siguientes resultados:
\begin{displaymath}X{\leadsto}\, 2,1,0,1,3,2,1,2
\end{displaymath}

Representar gráficamente el resultado.
Solución: En primer lugar observamos que la variable X es cuantitativa discreta, presentando las modalidades:

\begin{displaymath}X\in{0,1,2,3}
\end{displaymath}

Ordenamos a continuación los datos en una tabla estadística, y se representa la misma en la figura 


  
Figura: Diagrama diferencial (barras) e integral para una variable discreta. Obsérvese que el diagrama integral (creciente) contabiliza el número de observaciones de la variable inferiores o iguales a cada punto del eje de abcisas.
\includegraphics[angle=0, width=0.8\textwidth]{fig01-06.eps}


xi ni fi Ni Fi
0 1 1/8 1 1/8
1 3 3/8 4 4/8
2 3 3/8 7 7/8
3 1 1/8 8 8/8
  n=8 1    


1.9.4.3 Ejemplo

Clasificadas 12 familias por su número de hijos se obtuvo:
Número de hijos (xi) 1 2 3 4
Frecuencias (ni) 1 3 5 3

Comparar los diagramas de barras para frecuencias absolutas y relativas. Realizar el diagrama acumulativo creciente.

Solución: En primer lugar, escribimos la tabla de frecuencias en el modo habitual:

Variable F. Absolutas F. Relativas F. Acumuladas
xi ni fi Ni
1 1 0,083 1
2 3 0,250 4
3 5 0,416 9
4 3 0,250 12
  12 1  

Con las columnas relativas a xi y ni realizamos el diagrama de barras para frecuencias absolutas, lo que se muestra en la figura. Como puede verse es identico (salvo un cambio de escala en el eje de ordenadas) al diagrama de barras para frecuencias relativas y que ha sido calculado usando las columnas de xi y fi. El diagrama escalonado (acumulado) se ha construido con la información procedente de las columnas xi y Ni.


  
Figura: Diagramas de frecuencias para una variable discreta
\includegraphics[angle=0, width=0.8\textwidth]{fig01-07.eps}



1.9.4.4 Gráficos para variables continuas

Cuando las variables son continuas, utilizamos como diagramas diferenciales los histogramas y los polígonos de frecuencias.
Un histograma se construye a partir de la tabla estadística, representando sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos.
El polígono de frecuencias se construye fácilmente si tenemos representado previamente el histograma, ya que consiste en unir mediante lineas rectas los puntos del histograma que corresponden a las marcas de clase. Para representar el polígono de frecuencias en el primer y último intervalo, suponemos que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y se unen por una línea recta los puntos del histograma que corresponden a sus marcas de clase. Obsérvese que de este modo, el polígono de frecuencias tiene en común con el histograma el que las áreas de la gráficas sobre un intervalo son idénticas. Veanse ambas gráficas diferenciales representadas en la parte superior de la figura
El diagrama integral para una variable continua se denomina también polígono de frecuencias acumulado, y se obtiene como la poligonal definida en abcisas a partir de los extremos de los intervalos en los que hemos organizado la tabla de la variable, y en ordenadas por alturas que son proporcionales a las frecuencias acumuladas. Dicho de otro modo, el polígono de frecuencias absolutas es una primitiva del histograma. Véase la parte inferior de la figura , en la que se representa a modo de ilustración los diagramas correspondientes a la variable cuantitativa continua expresada en la tabla siguiente:

Intervalos ci ni Ni  
0 -- 2 1 2 2  
2 -- 4 3 1 3  
4 -- 6 5 4 7  
6 -- 8 7 3 10  
8 - 10 9 2 12  
    12    



  
Figura: Diagramas diferenciales e integrales para una variable continua.
\includegraphics[angle=0, width=0.5\textwidth]{fig01-08.epsi}



1.9.4.5 Ejemplo

La siguiente distribución se refiere a la duración en horas (completas) de un lote de 500 tubos:
Duración en horas Número de tubos
300 -- 500 50
500 -- 700 150
700 -- 1.100 275
más de 1.100 25
  Total 500

  • Representar el histograma de frecuencias relativas y el polígono de frecuencias.
  • Trazar la curva de frecuencias relativas acumuladas.
  • Determinar el número mínimo de tubos que tienen una duración inferior a 900 horas.

Solución: En primer lugar observamos que la variable en estudio es discreta (horas completas), pero al tener un rango tan amplio de valores resulta más conveniente agruparla en intervalos, como si de una variable continua se tratase. La consecuencia es una ligera perdida de precisión.
El último intervalo está abierto por el límite superior. Dado que en él hay 25 observaciones puede ser conveniente cerrarlo con una amplitud ``razonable''. Todos los intervalos excepto el tercero tienen una amplitud de 200 horas, luego podríamos cerrar el último intervalo en 1.300 horas1.2.
Antes de realizar el histograma conviene hacer una observación importante. El histograma representa las frecuencias de los intervalos mediante áreas y no mediante alturas. Sin embargo nos es mucho más fácil hacer representaciones gráficas teniendo en cuenta estas últimas. Si todos los intervalos tienen la misma amplitud no es necesario diferenciar entre los conceptos de área y altura, pero en este caso el tercer intervalo tiene una amplitud doble a los demás, y por tanto hay que repartir su área en un rectángulo de base doble (lo que reduce su áltura a la mitad).
Así será conveniente añadir a la habitual tabla de frecuencias una columna que represente a las amplitudes ai de cada intervalo, y otra de frecuencias relativas rectificadas, fi', para representar la altura del histograma. Los gráficos requeridos se representan en las figura

Intervalos ai ni fi fi' Fi
300 -- 500 200 50 0,10 0,10 0,10
500 -- 700 200 150 0,30 0,30 0,40
700 -- 1.100 400 275 0,55 0,275 0,95
1.100 -- 1.300 200 25 0,05 0,05 1,00
    n=500      



  
Figura: Histograma. Obsérvese que la altura del histograma en cada intervalo es fi' que coincide en todos con fisalvo en el intervalo 700 -- 1.100 en el que $f_i{\mbox{$'$ }}= 1/2\, f_i$ ya que la amplitud de ese intervalo es doble a la de los demás.
\includegraphics[angle=0, width=0.7\textwidth]{fig01-09.eps}



  
Figura: Diagrama acumulativo de frecuencias relativas
\includegraphics[angle=0, width=0.8\textwidth]{fig01-10.eps}

Por otro lado, mirando la figura  se ve que sumando frecuencias relativas, hasta las 900 horas de duración hay
0,10 + 0,30 + 0,275 = 0,675 = 67,5 % de los tubos.
Esta cantidad se obtiene de modo más directo viendo a qué altura corresponde al valor 900 en el diagrama de frecuencias acumuladas.
Como en total son 500 tubos, el número de tubos con una duración igual o menor que 900 horas es $
0,675 \times 500= 337,5
$, redondeando, 338 tubos.



 

tablas: estadsticas, cualitativas y de frecuencia.




ESTRUCTURA DE TABLAS ESTADSTICAS: 
  1. Mostrar la diferencia entre datos de serie temporal (TS - Time Series) y datos transversales (CS - Cross-Sectional).
  2. Construir la definición de estructura de datos (Data Structure Definition):
·         Definir todos los conceptos relacionados con los datos;
·         Identificar qué conceptos son dimensiones (Dimensions) y cuáles son atributos (Attributes);
·         Declarar las medidas (Measures) y los valores que se observan;
Adjuntar o construir listas de códigos (Code Lists).


Consideremos una población estadística de n individuos, descrita según un carácter o variable C cuyas modalidades han sido agrupadas en un número k de clases, que denotamos mediante . Para cada una de las clases ci, , introducimos las siguientes magnitudes: 
http://upload.wikimedia.org/wikipedia/commons/thumb/9/95/DisNormal08.svg/360px-DisNormal08.svg.png
Frecuencia absoluta
de la clase ci es el número ni, de observaciones que presentan una modalidad perteneciente a esa clase. 

Frecuencia relativa
de la clase ci es el cociente fi, entre las frecuencias absolutas de dicha clase y el número total de observaciones, es decir 



Obsérvese que fi es el tanto por uno de observaciones que están en la clase ci. Multiplicado por $100\%$representa el porcentaje de la población que comprende esa clase.
Frecuencia absoluta acumulada
Ni, se calcula sobre variables cuantitativas o cuasicuantitativas, y es el número de elementos de la población cuya modalidad es inferior o equivalente a la modalidad ci:

\begin{displaymath}N_i = n_1+ n_2 + \dots + n_i = \sum_{j=1}^i \, n_j
\end{displaymath}



Frecuencia relativa acumulada
, Fi, se calcula sobre variables cuantitativas o cuasicuantitativas, siendo el tanto por uno de los elementos de la población que están en alguna de las clases y que presentan una modalidad inferior o igual a la ci, es decir,

\begin{displaymath}F_i = \frac{N_i}{n} = \frac{n_1 + \dots + n_i}{n} = f_1 + \dots +f_i
= \sum_{j=1}^i \, f_j
\end{displaymath}


Como todas las modalidades son exhaustivas e incompatibles ha de ocurrir que

\begin{displaymath}\sum_{i=1}^k n_i = n_1 + n_2 + \dots + n_k = n
\end{displaymath}


o lo que es lo mismo,

\begin{displaymath}\sum_{i=1}^k f_i = \sum_{i=1}^k \frac{n_i}{n} =
\frac{\sum_{i=1}^k n_i}{n} = \frac{n}{n}=1.
\end{displaymath}





Frecuencia absoluta (ni): Número de elementos que presentan la clase xi.

Frecuencia relativa: $\displaystyle f_i = n_i/N$.
Frecuencia absoluta acumulada: $\displaystyle
N_i = \sum_{j=1}^i \, n_j$.
Frecuencia relativa acumulada: $\displaystyle
F_i= N_i/N =\sum_{j=1}^i \, f_j$

Forma de construir tablas de variables cualitativas.

Distribución de frecuencias
La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente.
Tipos de frecuencias
Frecuencia absoluta
La frecuencia absoluta es el número de veces que aparece un determinado valor en un estudio estadístico.
Se representa por fi.
La suma de las frecuencias absolutas es igual al número total de datos, que se representa por N.
igualdad
Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula) que se lee suma o sumatoria.
igualdad
Frecuencia relativa
La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos.
Se puede expresar en tantos por ciento y se representa por ni.
frecuencia relativa
La suma de las frecuencias relativas es igual a 1.
Frecuencia acumulada
La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado.
Se representa por Fi.
Frecuencia relativa acumulada
La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un determinado valor y el número total de datos. Se puede expresar en tantos por ciento.
Ejemplo:
Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.
En la primera columna de la tabla colocamos la variable ordenada de menor a mayor, en la segunda hacemos el recuento y en la tercera anotamos la frecuencia absoluta.
Distribución de frecuencias agrupadas
La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las variables toman un número grande de valores o la variable es continua.
Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A cada clase se le asigna su frecuencia correspondiente.
Límites de la clase
Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase.
Amplitud de la clase
La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase.
Marca de clase
La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo el intervalo para el cálculo de algunos parámetros.





Forma de construir tablas de frecuencia.
1.-Agrupacion de valores
·         Agrupación de valores en clases y categorías (x): Esto se hace cuando la toma de datos contiene mucha información y no es practico escribirlo en una misma columna
·         Frecuencia de clase (f): es el numero de valores de la variables que pertenece a cada clase.

·          Composición: por edad, sexo y trabajo de una determinada población
 
2.- rango
·       Amplitud o rango (rg): en una serie de datos, constituye la diferencia entre el valor máximo (vmax) y el valor minimo(vmin) de la variable.
De acuerdo con rius et al. (1998) el rango posee las siguientes propiedades:
Ø  Es fácil de calcular y sus unidades son las mismas que las de la variable.
Ø  No utiliza todas las observaciones(solo dos de ellas)
Ø  Se puede ver muy afectada por alguna observación, o bien se queda igual. En cualquier caso nunca disminuye.
 

3.- números de clase.

Cabe mencionar que el numero de clases recomendado por algunos investigadores oscila entre 6-15.
Formula de sturges (k): sugiere un numero de clases, con las que podremos agrupar nuestros datos.
Formula                     k = 1+ 3.322 log N

4.- Tamaño o anchura de una clase.

a)      Una vez conocido el número de clases sugerido (k), se determina el ancho de clase (c) sugerido con la aplicación de las siguientes formulas:
                         C = rg/K = vmax-vmin/1+3.322 log N

5.- limites reales de clase

Ø Limites reales de clase: son números que se emplean para formar las clases. El menos de ellos se llama limite real inferior (Lri) y el mayor, el limite real superior de la clase (Lrs).

6.- Intervalo de clase.

Para agrupar los datos es necesario definir el límite inferior y superior de la clase. La diferencia entre los limites determina el intervalo.

 



7.-Marca de clase.

La marca de clase o punto medio del intervalo se obtiene sumando los límites inferiores y superiores y dividiendo por 2.