viernes, 21 de noviembre de 2014

regresion lineal

REGRESIÓN LINEAL:


En estadística la regresión lineal o ajuste lineal es un método matemático que modela la relación entre unavariable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:
Y_t = \beta_0  + \beta_1 X_1 + \beta_2 X_2 +  \cdots +\beta_p X_p + \varepsilon
Y_t: variable dependiente, explicada o regresando.
X_1, X_2, \cdots, X_p : variables explicativas, independientes o regresores.
\beta_0,\beta_1,\beta_2,\cdots ,\beta_p : parámetros, miden la influencia que las variables explicativas tienen sobre el regresando.
donde \beta_0 es la intersección o término "constante", las \beta_i \ (i > 0) son los parámetros respectivos a cada variable independiente, y p es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.

MÍNIMOS CUADRÁTICOS:


Mínimos cuadrados es una técnica de análisis numérico enmarcada dentro de la optimización matemática, en la que, dados un conjunto de pares ordenados: variable independiente, variable dependiente, y una familia de funciones, se intenta encontrar la función continua, dentro de dicha familia, que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error cuadrático.
En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias en las ordenadas (llamadas residuos) entre los puntos generados por la función elegida y los correspondientes valores en los datos. Específicamente, se llama mínimos cuadrados promedio (LMS) cuando el número de datos medidos es 1 y se usa el método de descenso por gradiente para minimizar el residuo cuadrado. Se puede demostrar que LMS minimiza el residuo cuadrado esperado, con el mínimo de operaciones (por iteración), pero requiere un gran número de iteraciones para converger.
Desde un punto de vista estadístico, un requisito implícito para que funcione el método de mínimos cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria. El teorema de Gauss-Márkov prueba que los estimadores mínimos cuadráticos carecen de sesgo y que el muestreo de datos no tiene que ajustarse, por ejemplo, a una distribución normal. También es importante que los datos a procesar estén bien escogidos, para que permitan visibilidad en las variables que han de ser resueltas (para dar más peso a un dato en particular, véase mínimos cuadrados ponderados).
La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas. Muchos otros problemas de optimización pueden expresarse también en forma de mínimos cuadrados, minimizando la energía o maximizando la entropía.



EJERCICIO:


Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan, respectivamente, 14, 20, 32, 42 y 44 kilos.
Hallar la ecuación de la recta de regresión de la edad sobre el peso.
¿Cuál sería el peso aproximado de un niño de seis años?
xiyixi · yixi2yi2
214419628
320940060
532251 024160
742491 764294
844641 936352
251521515 320894
medias aritméticas
varianzas
covarianzas
recta de regresión
recta de regresión
recta de regresión

correlacion lineal

CORRELACIÓN LINEAL :

En ocasiones nos puede interesar estudiar si existe o no algún tipo de relación entre dos 
variables aleatorias. Así, por ejemplo, podemos preguntarnos si hay alguna relación entre las 
notas de la asignatura Estadística I y las de Matemáticas I. Una primera aproximación al 
problema consistiría en dibujar en el plano R2
 un punto por cada alumno: la primera coordenada 
de cada punto sería su nota en estadística, mientras que la segunda sería su nota en 
matemáticas. Así, obtendríamos una nube de puntos la cual podría indicarnos visualmente la 
existencia o no de algún tipo de relación (lineal, parabólica, exponencial, etc.) entre ambas notas. 
Otro ejemplo, consistiría en analizar la facturación de una empresa en un periodo de tiempo dado 
y de cómo influyen los gastos de promoción y publicidad en dicha facturación. Si consideramos 
un periodo de tiempo de 10 años, una posible representación sería situar un punto por cada año 
de forma que la primera coordenada de cada punto sería la cantidad en euros invertidos en 
publicidad, mientras que la segunda sería la cantidad en euros obtenidos de su facturación. De 
esta manera, obtendríamos una nube de puntos que nos indicaría el tipo de relación existente 
entre ambas variables.


COEFICIENTE DE PEARSON  


El coeficiente de correlación de Pearson, pensado para variables cuantitativas (escala
mínima de intervalo), es un índice que mide el grado de covariación entre distintas
variables relacionadas linealmente. Adviértase que decimos "variables relacionadas
linealmente". Esto significa que puede haber variables fuertemente relacionadas, pero no
de forma lineal, en cuyo caso no proceder a aplicarse la correlación de Pearson. Por
ejemplo, la relación entre la ansiedad y el rendimiento tiene forma de U invertida;
igualmente, si relacionamos población y tiempo la relación será de forma exponencial.
En estos casos (y en otros muchos) no es conveniente utilizar la correlación de Pearson.
Insistimos en este punto, que parece olvidarse con cierta frecuencia.
El coeficiente de correlación de Pearson es un índice de fácil ejecución e, igualmente, de
fácil interpretación. Digamos, en primera instancia, que sus valores absolutos oscilan
entre 0 y 1. Esto es, si tenemos dos variables X e Y, y definimos el coeficiente de
correlación de Pearson entre estas dos variables como xy r entonces:

0 ≤ ≤ 1 xy
r

 Hemos especificado los términos "valores absolutos" ya que en realidad si se contempla
el signo el coeficiente de correlación de Pearson oscila entre –1 y +1. No obstante ha de
indicarse que la magnitud de la relación vienen especificada por el valor numérico
del coeficiente, reflejando el signo la dirección de tal valor. En este sentido, tan fuerte
es una relación de +1 como de -1. En el primer caso la relación es perfecta positiva y en

el segundo perfecta negativa.




EJERCICIO:



1- En una tarea de clasificación de patrones que constaba de 10 láminas se obtuvieron los
siguientes datos de las diferencias de las distancias logarítmicas del estímulo a clasificar con
respecto a los prototipos de las dos clases en que podía ser encuadrado y del número de
errores cometidos por los sujetos:
 Lámina 1 2 3 4 5 6 7 8 9 10
Diferencia 0,71 0,67 1,98 1,61 0,67 1,48 0,25 1,44 1,06 0,95
Nº errores 12 10 4 2 6 5 16 3 4 8
a) Calcule el coeficiente de correlación de Pearson e interprete el resultado.
b) Determine la recta de regresión que permite predecir el número de errores en función de la
diferencia entre las distancias.
c) De acuerdo con el modelo anterior, indique cual tiene que ser la diferencia para que no
haya errores.
Solución:
a) Comenzamos calculando media, varianza y desviación típica de ambas variables
Dl S S
E S S
Dl Dl
E E
= = =
= = =
1 082 0 256 0 506
7 18 4 243
2
2
, , ,
,
Calculamos la covarianza
S
E Dl
n
E Dl EDl =
× å - × = 5,794 - 7,574 = -1,78
El coeficiente de correlación será:
r
S
S S
EDl
E Dl
=
×
=
-
×
= -
1 78
4 243 0 506
0 829 ,
, ,
,
El signo negativo del coeficiente de correlación nos indica que la relación entre ambas
variables es inversa, es decir que al aumentar la distancia disminuye el número de errores. El
valor absoluto nos indica que la relación lineal entre distancia y número de errores es bastante
alta, por consiguiente las variaciones en el número de errores en esta tarea se pueden explicar
y predecir en gran medida, por la diferencia de las distancias de los estímulos a clasificar.
b) Para determinar la recta de regresión E = a·Dl + b calculamos los valores de los
coeficientes a y b mediante las expresiones obtenidas por el método de mínimos cuadrados:
a
S
S
EDl
Dl
= =
-
= - 2
1 78
0 256
6 953


jueves, 20 de noviembre de 2014

VARIANZA Y DESVIACIÓN ESTÁNDAR:

Desviación estándar

La desviación estándar (σ) mide cuánto se separan los datos.
La fórmula es fácil: es la raíz cuadrada de la varianza. Así que, "¿qué es la varianza?"

Varianza

la varianza (que es el cuadrado de la desviación estándar: σ2) se define así:
Es la media de las diferencias con la media elevadas al cuadrado.
En otras palabras, sigue estos pasos:
1. Calcula la media (el promedio de los números)
2. Ahora, por cada número resta la media y eleva el resultado al cuadrado (la diferencia elevada al cuadrado).
3. Ahora calcula la media de esas diferencias al cuadrado. (¿Por qué al cuadrado?)

Ejemplo

Tú y tus amigos habéis medido las alturas de vuestros perros (en milímetros):
Las alturas (de los hombros) son: 600mm, 470mm, 170mm, 430mm y 300mm.
Calcula la media, la varianza y la desviación estándar.

Respuesta:

Media =  
600 + 470 + 170 + 430 + 300
  =  
1970
  = 394
5
5
así que la altura media es 394 mm. Vamos a dibujar esto en el gráfico:
Ahora calculamos la diferencia de cada altura con la media:
Para calcular la varianza, toma cada diferencia, elévala al cuadrado, y haz la media:
Varianza: σ2 =  
2062 + 762 + (-224)2 + 362 + (-94)2
  =  
108,520
  = 21,704
5
5
Así que la varianza es 21,704.
Y la desviación estándar es la raíz de la varianza, así que:
Desviación estándar: σ = √21,704 = 147
y lo bueno de la desviación estándar es que es útil: ahora veremos qué alturas están a distancia menos de la desviación estándar (147mm) de la media:
Así que usando la desviación estándar tenemos una manera "estándar" de saber qué es normal, o extra grande o extra pequeño.

MEDIDAS DE TENDENCIA CENTRAL: 

Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición.1 En este caso se incluyen también los cuantiles entre estas medidas.

MODELOS MATEMÁTICOS Y EJEMPLOS DE PROBLEMAS SOBRE MEDIDAS DE TENDENCIA CENTRAL:

MEDIDAS DE TENDENCIA CENTRAL
Son valores numéricos que localizan e informan sobre los valores medios de una serie o
conjunto de datos, se les considera como indicadores debido a que resumen la
información como un todo.
Las medidas de tendencia central pueden calcularse a partir de datos originales o  a partir
de datos agrupados en una tabla de distribución de frecuencias, las que consideraremos
en este curso son la media aritmética, la mediana y la moda.
MEDIA ARITMÉTICA.  
Es la medida de posición mas utilizada debido a que en forma empírica la hemos utilizado
cuando determinamos el promedio aritmético de calificaciones semestrales; también se le
conoce con el nombre de valor medio. Nos sirve para determinar el promedio matemático
de un conjunto de datos, y posee como características la unicidad, facilidad de cálculo y la
influencia negativa que ejercen los valores extremos en su determinación.   
Se simboliza por la letra griega      μ (mu) si tomamos datos poblacionales y con la letra
romana X (equis barra) si consideramos una muestra. Por Ejemplo al realizar una
investigación respecto a los honorarios diarios que perciben 5 médicos de Tepic, se
reportaron como valores $150.00, $150.00, $150.00, $200.00 y $1000.00.
Para determinar el promedio sumamos los valores y al resultado lo dividimos entre el
numero de observaciones: 150+150+150+200+1000 = 1650/5 = 330    valor no muy
representativo del conjunto de datos como un todo ya que el único valor atípico ha tenido
el efecto de inflar la media.   
Para hacer la determinación matemática de la media los cálculos respectivos se pueden
realizar para datos originales o sin agrupar y para datos agrupados en una tabla de
distribución de frecuencias.  
Para un conjunto de datos sin agrupar, sea X1, X2, X3,.........Xn, la media aritmética se
obtiene sumando los productos de los valores por su frecuencia de aparición y dividiendo
el valor obtenido entre el número total de datos que se sumaron, lo cual se puede
apreciar en el siguiente modelo matemático:              
                                             
                                              Si los datos estan ordenados con su frecuencia de aparicion el modelo cambia a:Donde  Xi  = Cada uno de los valores que forman el conjunto.
             n  = Numero total de observaciones.
             fi   = Numero de veces que se repite un mismo numero.
A este modo de obtención de la media aritmética se le conoce como método largo.
Ejemplo. Determine la media de los siguientes números:  
X1 = 2, X2 = 12, X3 = 9,  X4 = 10 y X5 = 7.
x = 2 + 12 + 9 + 10 + 7 / 5 =  8
Si graficamos estos números y su media tendremos:
             *                                     *              *       *                   *
0 – 1 –2 – 3 – 4 – 5 – 6 – 7 – 8 – 9 – 10 – 11 – 12
                           x
Podemos observar claramente que la media aritmética es el punto de equilibrio entre los
datos.  
                     
Para un conjunto de datos agrupados en un tabular, la media se calcula partiendo de la
suposición que todos los valores que caen dentro de un determinado intervalo de clase se
localizan en el punto medio de clase el cual se obtiene calculando el promedio de los
límites superior e inferior del intervalo. El modelo matemático es el siguiente:
x =
n
∑ fimi
Ejemplo: Dados los siguientes datos agrupados en una tabla de distribución de frecuencias
calcule su media aritmética.
CLASES fi pm o mi
42‐46 2 42 + 46 /2 = 44
47‐51 9 47 + 51/2 = 49
52‐56 31 52 + 56/2 = 54
57‐61 50 57 + 61/2 = 5952‐66 51 52 + 66/2 = 64
67‐71 30 67 + 71/2 = 69
72‐76 7 72 + 76/2 = 74
El punto medio del primer intervalo equivale a 42 + 46 entre 2 = 44. Los puntos medios de
los siguientes intervalos pueden determinarse siguiendo el procedimiento antes descrito,
o bien pueden calcularse sumando la amplitud del intervalo de clase al punto medio
anterior.
Si la amplitud es igual a 5, el punto medio del segundo intervalo seria igual a 44 + 5 = 49 y  
así sucesivamente los siguientes puntos medios.
   44  +  5  =  49
49 +  5  =  59
50 +  5  =  64
51 +  5  =  69
52 +  5  =  74
Para encontrar la media aritmética, de acuerdo con el modelo matemático multiplicamos
el punto medio por la frecuencia absoluta correspondiente de cada clase, sumamos estos
productos y el resultado se divide entre el numero total de datos (n).
CLASES pm  o   mi fi mi ∙ fi
42 – 46 44 2 88
47 – 51 49 9 441
52 – 56 54 31 1674
57 – 61 59 50 2950
62 – 66 64 51 3264
67 – 71 69 30 2070
72 – 76 74 7 518
TOTALES 180 11,005
                                               11,005
                                x =  ‐‐‐‐‐‐‐‐‐‐‐  =   61.14  
                                                  180
MEDIANA
Dentro de un conjunto de datos la mediana es un punto que tiene como característica el
que divide al  conjunto en dos partes iguales, se le identifica por el signo X  o  Me  o  Md.
Tratándose de datos originales no necesitamos ninguna formula para hallar la mediana
pero es preciso ordenarlos de menor a mayor o viceversa. Por ejemplo calcule la medianade los números 3.0, 27, 3.4, 3.2, 3.3, 3.1 y 12. Primero ordenamos los datos: 3.0, 3.1, 3.2,
3.3, 3.4, 12, 27.
Por tanto la mediana será igual a 3.3 debido a que como el número de datos es 7 el valor
de la mediana nos lo proporcionara el valor de orden X4.
Para conjuntos de datos asimétricos la mediana es una mejor medida de tendencia central
que la media.
Si el numero de valores en un conjunto es par, los valores que dividen al conjunto en dos
partes iguales son dos, por tanto Md será igual al promedio de estos valores centrales, por
ejemplo los datos 54, 56, 62, 63, 65, 66, 67, 68, 68 y 70 se hallan ordenados, el valor de la
Md estará dado por el promedio de las observaciones X5 y X6  es decir  Me = 65 + 66 / 2 =
65.5.
Si queremos determinar el valor de la mediana a partir de datos incluidos en una tabla de
distribución de frecuencias los pasos a seguir son:
1. Localice la clase que contiene a la mediana por medio de las frecuencias
acumuladas relativas, buscando cual de las clases contiene 50% de la información
o poco mas.
2. Calcule la mediana con el siguiente modelo matemático:
i
fc
fan Lrix ⎟
⎞ ⎜
⎛ − +=
2/ ~
      Lri  = Limite real inferior de la clase que contiene la mediana.
         n   =  Numero total de observaciones del conjunto.
       fa   =  Frecuencia acumulada de la clase mediana.
        fc   =  Numero de observaciones en la clase que contiene la mediana.
         i   =  Tamaño del intervalo de clase.
Ejemplo: Tabular de salarios mensuales de 100 trabajadores no calificados de la empresa
Hotel Garza Canela en la ciudad de San Blas, Nayarit.
CLASES   fi fai
2400‐2599 7 7
2600‐2799 20 27
2800‐2999 33 60
3000‐3199 25 85
3200‐3399 11 96
3400‐3599 4 100           total 100
                       (100/2 – 27 )  200                                                                 
x
~ =  2799.50 + ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐  = 2,938.90
                                   33
MODA O MODO
Es una medida de tendencia central que es poco usada porque  puede no existir y muy a
menudo puede no ser un valor único. La moda se define como el valor que ocurre con
mayor frecuencia en un conjunto de datos, si existe un solo valor máximo decimos que es
unimodal, si tiene dos o mas valores con la misma frecuencia máxima decimos que el
conjunto es bimodal, trimodal, etc. Se representa por las letras Mo o por  X (equis pico).
Ejemplo: Sean los siguientes valores ordenados de manera ascendente.
                     56, 62, 62, 65, 65, 65, 65, 68, 70, 72.
Como podemos observar en este conjunto de datos el numero 65 se presenta 4 veces, por
tanto es el valor que ocurre con mayor frecuencia, por ello la moda será igual a 65.
Si deseamos calcular la moda para datos agrupados en una tabla de distribución de
frecuencias debemos seguir los siguientes pasos:
1. Localizar la clase que contiene a la moda, a través de la frecuencia absoluta que
tenga mayor valor numérico.
2. Una vez localizada la clase modal aplicamos la siguiente ecuación:                                                               
xˆ = Lri  +   i ⎟
Δ+Δ
Δ
1 2
1
Donde:
Lri     = Limite real inferior de la clase modal.
Δ1    = Diferencia entre la fi de la clase modal y fi de la clase inmediata inferior.
Δ2    = Diferencia de la fi de la clase modal y la fi de la clase inmediata superior.
  i     = Tamaño del intervalo de clase.Ejemplo: Con los datos incluidos en la siguiente distribución de frecuencias calcule la
moda.
CLASES fi
30.5‐33.5 1
33.5‐36.5 2
36.5‐39.5 6
39.5‐42.5 11
42.5‐45.5 16
45.5‐48.5 9
48.5‐51.5 4
51.5‐54.5 1
1er. PASO    Determinemos cual es el intervalo de clase que tenga mayor frecuencia
absoluta, claramente podemos observar que para este conjunto la case modal es 42.5  ‐ 
45.5 debido y su frecuencia 16.
2º. PASO Para aplicar la formula ubiquemos primeramente los valores conocidos, nuestra
incógnita y sustituyamos los valores en la ecuación.
DATOS                       FORMULA Y DESARROLLO
Lri = 42.5
Δ1 =  16 – 11 = 5                
Δ2 =  16 –  9  = 7                75.4325.15.42)3( 75
5 5.42 =+=
+
+=
Λ
x
i   =   3                        
Mo =  ?
RELACION Y USO DE LAS MEDIDAS DE TENDENCIA CENTRAL
La media aritmética es la medida de posición más usual, ya que es la que mejor representa
el valor medio de la población sin que influya el número de observaciones de la muestra.La media es el valor de tendencia central recomendado para variables numéricas
discretas.
La mediana es la medida de tendencia central menos sensible ante un cambio de valor en
una observación extrema, por lo que se recomienda utilizarla cuando la curva presenta
asimetría o valores indeterminados, también es útil para variables continuas.  
La moda es la menos usada por su alta sensibilidad, aunque su cálculo sea fácil de
obtener. Solo se usa con buenos resultados para variables categóricas nominales.  
Relación para polígonos de frecuencia unimodales y moderadamente asimétricos:     
                                )(3 − Λ ≈−
−== xxxx
Relación para polígonos simétricos y unimodales:  
Λ− ≈
== xxx
CALCULO DE LAS MEDIDAS DE TENDENCIA CENTRAL CON DATOS NO AGRUPADOS.
Ejemplo: Veinticinco empleados de la cadena de Moteles Candida estudiaron un curso de
primeros auxilios, al termino del mismo se les practico un Evaluación de lo aprendido
contando con 20 puntos en total y los resultados fueron los siguientes: 17, 17, 16, 16, 17,
19, 12, 19, 17, 16, 14, 15, 18, 18, 14, 20, 15, 15, 17, 18, 17, 16, 16, 13, 17. Con la
información proporcionada calcule las Medidas de Tendencia Central.
Primero ordenamos los datos de manera ascendente y la concentramos en un tabular,
donde en l primera columna ubicamos los posibles datos diferentes, seguida de las veces
que se repite cada uno de ellos. Enseguida consideramos los modelos matemáticos a
utilizar o bien los razonamientos en los que nos basaremos para calcular la media,
mediana y moda.
Xi fi Xi*fi fai
12 1 12 1
13 1 13 2
14 2 28 4
15 3 45 716 5 80 12
17 7 119 19
18 3 54 22
19 2 38 24
20 1 20 25
Σ 25 Σ 409
x = 4.1636.16
25
409
≈=
Como la mediana se define como el valor o dato que divide al conjunto en 2 partes
exactamente iguales, como n = 25, el dato buscado es X13 pues hay 12 datos antes y 12
después, y su valor lo obtenemos a través de la frecuencia acumulada absoluta, y así  X13 =
17.
  
La moda es el valor que mas veces se repite, por lo que analizando el tabular observamos
que el valor 17 es el que se repite mas veces ( 7 ), por tanto la moda es 17.
CALCULO DE LAS MEDIDAS DE TENDENCIA CENTRAL CON DATOS AGRUPADOS.
Ejemplo: Los datos corresponden a estatura de 150 alumnos elegidos al azar de la Escuela
Vocacional No.7 en México D. F. en el ciclo escolar 1999‐2000. Determine las Medidas de
Tendencia Central correspondientes.
Clases fi mi   fai mi*fi
146‐151 8 148.5 8 1,188.0
152‐157 18 154.5 26 2,781.0
158‐163 38 160.5 64 6,099.0
164‐169 30 166.5 94 4,995.0
170‐175 39 172.5 133 6,727.5
176‐181 12 178.5 145      2,142.0
182‐187 4 184.5 149         738.0
188‐193 1 190.5 150     190.5
TOTAL 150 24,861.0
x = 74.165
150
0.861,24 =70.1652.25.1636
30
642/150 ~ 5.163 ⎟ =+= ⎠
⎞ ⎜
⎛ − x +=
xˆ = 1715.15.1696 00.
279
9 ⎟ =+= ⎠
⎞ ⎜
+ 169,5  + 


lunes, 29 de septiembre de 2014

graficas: cualitativas y cuantitatvas.



Los gráficos más usuales para representar variables de tipo nominal son los siguientes:
Diagramas de barras:
Siguiendo la figura 1.1, representamos en el eje de ordenadas las modalidades y en abscisas las frecuencias absolutas o bien, las frecuencias relativas. Si, mediante el gráfico, se intenta comparar varias poblaciones entre sí, existen otras modalidades, como las mostradas en la figura 1.2. Cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso podrían resultar engañosas.



\includegraphics[angle=0, width=0.5\textwidth]{fig01-01.eps}
Figura: Diagramas de barras para comparar una variable cualitativa en diferentes poblaciones. Se ha de tener en cuenta que la altura de cada barra es proporcional al número de observaciones (frecuencias relativas).



\includegraphics[angle=-90, width=0.5\textwidth]{fig01-02.eps} 

Diagramas de sectores
(también llamados tartas). Se divide un círculo en tantas porciones como clases existan, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa 
 
 
\includegraphics[angle=-90, width=0.6\textwidth]{fig01-03.epsi} 
El arco de cada porción se calcula usando la regla de tres:




Como en la situación anterior, puede interesar comparar dos poblaciones. En este caso también es aconsejable el uso de las frecuencias relativas (porcentajes) de ambas sobre gráficos como los anteriores. Otra posibilidad es comparar las 2 poblaciones usando para cada una de ellas un diagrama semicircular, al igual que en la figura. Sean $n_1 \leq n_2$ los tamaños respectivos de las 2 poblaciones. La población más pequeña se representa con un semicírculo de radio r1y la mayor con otro de radio r2. La relación existente entre los radios, es la que se obtiene de suponer que la relación entre las areas de las circunferencias es igual a la de los tamaños de las poblaciones respectivas, es decir:

\begin{displaymath}\frac{r_2^2}{r_1^2} = \frac{n_2}{n_1} \Longleftrightarrow
r_2 = r_1 \cdot \sqrt{\frac{n_2}{n_1}}
\end{displaymath} 
   
Figura: Diagrama de sectores para comparar dos poblaciones
\includegraphics[angle=-90, width=0.6\textwidth]{fig01-04.epsi}
 



\begin{eqnarray}\html{eqn1}n & \longrightarrow & 360^{\circ} \nonumber
\\
n_i & \longrightarrow &x_i = \frac{360 \cdot n_i}{n} \nonumber
\end{eqnarray}
Pictogramas
Expresan con dibujos alusivo al tema de estudio las frecuencias de las modalidades de la variable. Estos gráficos se hacen representado a diferentes escalas un mismo dibujo, como vemos en la figura 

  
Figura: Pictograma. Las áreas son proporcionales a las frecuencias.
\includegraphics[angle=0, width=0.5\textwidth]{fig01-05.eps}

El escalamiento de los dibujos debe ser tal que el área1.1 de cada uno de ellos sea proporcional a la frecuencia de la modalidad que representa. Este tipo de gráficos suele usarse en los medios de comunicación, para que sean comprendidos por el público no especializado, sin que sea necesaria una explicación compleja.




Gráficos para variables cuantitativas

Para las variables cuantitativas, consideraremos dos tipos de gráficos, en función de que para realizarlos se usen las frecuencias (absolutas o relativas) o las frecuencias acumuladas:
Diagramas diferenciales:
Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se representa el número o porcentaje de elementos que presenta una modalidad dada.
Diagramas integrales:
Son aquellos en los que se representan el número de elementos que presentan una modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias acumuladas, lo que da lugar a gráficos crecientes, y es obvio que este tipo de gráficos no tiene sentido para variables cualitativas.
Según hemos visto existen dos tipos de variables cuantitativas: discretas y continuas. Vemos a continuación las diferentes representaciones gráficas que pueden realizarse para cada una de ellas así como los nombres específicos que reciben.

1.9.4.1 Gráficos para variables discretas

Cuando representamos una variable discreta, usamos el diagrama de barras cuando pretendemos hacer una gráfica diferencial. Las barras deben ser estrechas para representar el que los valores que toma la variable son discretos. El diagrama integral o acumulado tiene, por la naturaleza de la variable, forma de escalera. Un ejemplo de diagrama de barras así como su diagrama integral correspondiente están representados en la figura 

1.9.4.2 Ejemplo

Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el número de caras, X, obteniendose los siguientes resultados:
\begin{displaymath}X{\leadsto}\, 2,1,0,1,3,2,1,2
\end{displaymath}

Representar gráficamente el resultado.
Solución: En primer lugar observamos que la variable X es cuantitativa discreta, presentando las modalidades:

\begin{displaymath}X\in{0,1,2,3}
\end{displaymath}

Ordenamos a continuación los datos en una tabla estadística, y se representa la misma en la figura 


  
Figura: Diagrama diferencial (barras) e integral para una variable discreta. Obsérvese que el diagrama integral (creciente) contabiliza el número de observaciones de la variable inferiores o iguales a cada punto del eje de abcisas.
\includegraphics[angle=0, width=0.8\textwidth]{fig01-06.eps}


xi ni fi Ni Fi
0 1 1/8 1 1/8
1 3 3/8 4 4/8
2 3 3/8 7 7/8
3 1 1/8 8 8/8
  n=8 1    


1.9.4.3 Ejemplo

Clasificadas 12 familias por su número de hijos se obtuvo:
Número de hijos (xi) 1 2 3 4
Frecuencias (ni) 1 3 5 3

Comparar los diagramas de barras para frecuencias absolutas y relativas. Realizar el diagrama acumulativo creciente.

Solución: En primer lugar, escribimos la tabla de frecuencias en el modo habitual:

Variable F. Absolutas F. Relativas F. Acumuladas
xi ni fi Ni
1 1 0,083 1
2 3 0,250 4
3 5 0,416 9
4 3 0,250 12
  12 1  

Con las columnas relativas a xi y ni realizamos el diagrama de barras para frecuencias absolutas, lo que se muestra en la figura. Como puede verse es identico (salvo un cambio de escala en el eje de ordenadas) al diagrama de barras para frecuencias relativas y que ha sido calculado usando las columnas de xi y fi. El diagrama escalonado (acumulado) se ha construido con la información procedente de las columnas xi y Ni.


  
Figura: Diagramas de frecuencias para una variable discreta
\includegraphics[angle=0, width=0.8\textwidth]{fig01-07.eps}



1.9.4.4 Gráficos para variables continuas

Cuando las variables son continuas, utilizamos como diagramas diferenciales los histogramas y los polígonos de frecuencias.
Un histograma se construye a partir de la tabla estadística, representando sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos.
El polígono de frecuencias se construye fácilmente si tenemos representado previamente el histograma, ya que consiste en unir mediante lineas rectas los puntos del histograma que corresponden a las marcas de clase. Para representar el polígono de frecuencias en el primer y último intervalo, suponemos que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y se unen por una línea recta los puntos del histograma que corresponden a sus marcas de clase. Obsérvese que de este modo, el polígono de frecuencias tiene en común con el histograma el que las áreas de la gráficas sobre un intervalo son idénticas. Veanse ambas gráficas diferenciales representadas en la parte superior de la figura
El diagrama integral para una variable continua se denomina también polígono de frecuencias acumulado, y se obtiene como la poligonal definida en abcisas a partir de los extremos de los intervalos en los que hemos organizado la tabla de la variable, y en ordenadas por alturas que son proporcionales a las frecuencias acumuladas. Dicho de otro modo, el polígono de frecuencias absolutas es una primitiva del histograma. Véase la parte inferior de la figura , en la que se representa a modo de ilustración los diagramas correspondientes a la variable cuantitativa continua expresada en la tabla siguiente:

Intervalos ci ni Ni  
0 -- 2 1 2 2  
2 -- 4 3 1 3  
4 -- 6 5 4 7  
6 -- 8 7 3 10  
8 - 10 9 2 12  
    12    



  
Figura: Diagramas diferenciales e integrales para una variable continua.
\includegraphics[angle=0, width=0.5\textwidth]{fig01-08.epsi}



1.9.4.5 Ejemplo

La siguiente distribución se refiere a la duración en horas (completas) de un lote de 500 tubos:
Duración en horas Número de tubos
300 -- 500 50
500 -- 700 150
700 -- 1.100 275
más de 1.100 25
  Total 500

  • Representar el histograma de frecuencias relativas y el polígono de frecuencias.
  • Trazar la curva de frecuencias relativas acumuladas.
  • Determinar el número mínimo de tubos que tienen una duración inferior a 900 horas.

Solución: En primer lugar observamos que la variable en estudio es discreta (horas completas), pero al tener un rango tan amplio de valores resulta más conveniente agruparla en intervalos, como si de una variable continua se tratase. La consecuencia es una ligera perdida de precisión.
El último intervalo está abierto por el límite superior. Dado que en él hay 25 observaciones puede ser conveniente cerrarlo con una amplitud ``razonable''. Todos los intervalos excepto el tercero tienen una amplitud de 200 horas, luego podríamos cerrar el último intervalo en 1.300 horas1.2.
Antes de realizar el histograma conviene hacer una observación importante. El histograma representa las frecuencias de los intervalos mediante áreas y no mediante alturas. Sin embargo nos es mucho más fácil hacer representaciones gráficas teniendo en cuenta estas últimas. Si todos los intervalos tienen la misma amplitud no es necesario diferenciar entre los conceptos de área y altura, pero en este caso el tercer intervalo tiene una amplitud doble a los demás, y por tanto hay que repartir su área en un rectángulo de base doble (lo que reduce su áltura a la mitad).
Así será conveniente añadir a la habitual tabla de frecuencias una columna que represente a las amplitudes ai de cada intervalo, y otra de frecuencias relativas rectificadas, fi', para representar la altura del histograma. Los gráficos requeridos se representan en las figura

Intervalos ai ni fi fi' Fi
300 -- 500 200 50 0,10 0,10 0,10
500 -- 700 200 150 0,30 0,30 0,40
700 -- 1.100 400 275 0,55 0,275 0,95
1.100 -- 1.300 200 25 0,05 0,05 1,00
    n=500      



  
Figura: Histograma. Obsérvese que la altura del histograma en cada intervalo es fi' que coincide en todos con fisalvo en el intervalo 700 -- 1.100 en el que $f_i{\mbox{$'$ }}= 1/2\, f_i$ ya que la amplitud de ese intervalo es doble a la de los demás.
\includegraphics[angle=0, width=0.7\textwidth]{fig01-09.eps}



  
Figura: Diagrama acumulativo de frecuencias relativas
\includegraphics[angle=0, width=0.8\textwidth]{fig01-10.eps}

Por otro lado, mirando la figura  se ve que sumando frecuencias relativas, hasta las 900 horas de duración hay
0,10 + 0,30 + 0,275 = 0,675 = 67,5 % de los tubos.
Esta cantidad se obtiene de modo más directo viendo a qué altura corresponde al valor 900 en el diagrama de frecuencias acumuladas.
Como en total son 500 tubos, el número de tubos con una duración igual o menor que 900 horas es $
0,675 \times 500= 337,5
$, redondeando, 338 tubos.