Frecuencias

    Dado que la estadística se ocupa de obtener consecuencias de hechos masivos, es decir, de aquellos que afectan a un gran número de personas o cosas, resulta clara la necesidad de saber en cuántas ocasiones aparece el fenómeno, siempre plasmado en una variable o en un atributo, objeto del análisis que se lleva a cabo. Ello obliga a dos tareas sucesivas. La primera consiste en contar el número de veces que tiene lugar la presencia de dicha variable o atributo y la segunda en ordenar las observaciones realizadas. Por ejemplo, si se están considerando las profesiones existentes en un colectivo, una primera labor será constatar cuántos médicos, abogados, fontaneros, albañiles, etc., se registran en el conjunto de personas consideradas; una segunda tendrá como finalidad presentar de manera organizada dichas constataciones u observaciones, lo que conducirá a la construcción de una tabla. Ambos trabajos van a llevar al concepto de frecuencia, en todas sus variantes, y a la necesidad de construir tablas estadísticas, las cuales también pueden adoptar diversas formas.

    El proceso estadístico

    Para verificar cualquier proceso estadístico debe seguirse un proceso básico que consta de la determinación del tamaño de la muestra y la forma de obtenerla, la captación de los datos y la tabulación u organización de los mismos. El primero de estos pasos es en realidad un estadio de planificación que en gran medida dependerá no sólo de lo que se quiera estudiar sino de las posibilidades de obtener datos sobre ello y representarlos.

    Captación de datos

    La captación de datos puede realizarse de dos maneras distintas: mediante fuentes directas, es decir, acudiendo a los elementos involucrados en la investigación, o indirectas, deduciendo los datos de otros ligados a ellos. Por ejemplo, si se desea saber el porcentaje de fumadores en un país puede recurrirse a preguntar mediante una encuesta a cada individuo de la muestra si fuma o no (fuente directa) o bien preguntar a las compañías tabaqueras cuánto tabaco venden en dicho país (fuentes indirectas). Sabiendo este último dato, es posible deducir el número de personas que fuma.

    Métodos de tabulación

    Los datos captados pueden ser presentados de diferentes formas: dispersos, agrupados no en intervalos o agrupados en intervalos.

    Dispersos. Cuando se muestran en el mismo orden en que han aparecido. Sería el caso de presentar los resultados del lanzamiento de un dado veinte veces en la forma:

    2, 3, 5, 2, 1, 1,4, 6, 6, 4, 3, 3, 2, 5, 5, 6, 1,1, 6, 6

    Agrupados no en intervalos. Cuando cada dato (xi) aparece una sola vez y acompañado de un entero que indica el número de veces que se ha producido. Este número recibe el nombre de frecuencia absoluta (ni). Agrupar datos en el ejemplo anterior llevaría a la construcción de la tabla 1.

    Tablas 1-3. Ejemplos de tablas de datos agrupados no en intervalos.

    Como puede observarse, la suma de frecuencias absolutas es siempre igual al número de observaciones que se haya realizado. Llamando N a éstas:

    ni = N

    En muchas ocasiones, la frecuencia absoluta no es reveladora del fenómeno que se estudia. Por ejemplo, si en un curso de física hay 5 alumnas, no es posible determinar si se da o no predominio del sexo femenino, ya que, si el número de matriculados es 6, evidentemente aparecería ese predominio, pero si el número de matriculados es 400, el número de alumnas sería insignificante. Por ello, se utiliza una nueva frecuencia, llamada frecuencia relativa (fi), la cual se define, para cada valor de la variable, como el cociente entre la frecuencia absoluta y el número de observaciones realizadas. Para el ejemplo anterior véase la tabla 2.

    Tablas 1-3. Ejemplos de tablas de datos agrupados no en intervalos.

    Así, por ejemplo, el que la frecuencia relativa de 6 sea 5/20 permite afirmar que de 20 lanzamientos, en 5 ocasiones se ha obtenido un 6. Esto permite evaluar la importancia de ese dato en el fenómeno que se estudia.

    De la definición de frecuencia relativa, se deduce que ésta representa el tanto por ciento de veces que se da cada valor de la variable, por lo que, en general:

    %(xi) = f(xi) · 100

    En el ejemplo utilizado:

    Lo que indica que la puntuación 6 se ha obtenido en un 25% de los casos.

    Tanto para las frecuencias absolutas como para las relativas se define, para cada valor de la variable, el concepto de frecuencia acumulada, la cual se logra sumando a cada frecuencia todas las anteriores a ella. Representado por Ni la frecuencia absoluta acumulada y por Fi la frecuencia relativa acumulada, la aplicación de la definición dada conduce a la tabla 3.

    Tablas 1-3. Ejemplos de tablas de datos agrupados no en intervalos.

    Naturalmente, la última frecuencia absoluta acumulada es N (número total de observaciones) y la última frecuencia relativa acumulada es igual a la unidad. Que la frecuencia absoluta acumulada del valor 5, por ejemplo, sea 15, significa que en 15 ocasiones se ha obtenido una puntuación inferior o igual a 5. Que su frecuencia acumulada relativa sea 15/20 indica que de 20 observaciones realizadas, en 15 de ellas se ha logrado puntuaciones iguales o inferiores a 5.

    Agrupados en intervalos. Se recurre a este sistema cuando el número de datos es muy elevado. Consiste en crear unos intervalos, cada uno de los cuales está definido por un límite inferior y otro superior, acompañándolos de su correspondiente frecuencia. Por ejemplo, la tabulación del salario anual de un colectivo podría ser en miles de dólares (v. tabla 4.)

    Tablas 4, 5. Ejemplos de tablas de datos agrupados en intervalos.

    La agrupación en intervalos, si bien es cómoda, implica pérdida de información. Por ejemplo, en la tabla 4 se observa que hay 140 personas con salarios comprendidos entre 20.000$ y 30.000$, pero, ¿cómo están distribuidas? ¿Hay más cerca de los 20.000$ o hay más cerca de los 30.000$? Lógicamente, la pérdida de información es tanto mayor cuanto más grande sea la amplitud del intervalo. Hay que destacar que, por ello, en ocasiones los intervalos no son de la misma amplitud, reservando las amplitudes reducidas para los segmentos más significativos. Por ejemplo, en la tabla 4, el intervalo 30-40 (el de mayor frecuencia absoluta), podría ser sustituido por los intervalos 30-35 y 35-40, lo que daría una información más precisa.

    En la distribución por intervalos, se recurre muchas veces a la llamada marca de clase, la cual, para cada intervalo, es un valor elaborado a partir de sus límites, que se toma como representativo de ese intervalo y que se define por:

    En el ejemplo anterior, las marcas de clase serían los que se reflejan en la tabla 5.

    Tablas 4, 5. Ejemplos de tablas de datos agrupados en intervalos.

    Representación de las frecuencias

    Las frecuencias obtenidas pueden ser representadas de distintas formas según lo que se pretenda comunicar. Las más frecuentes son las que se detallan a continuación.

    Polígonos de frecuencias. Se obtienen tomando, en abscisas, los valores de la variable y, en ordenadas, sus frecuencias absolutas en una determinada escala, uniéndose posteriormente entre sí los puntos conseguidos. En el ejemplo del lanzamiento de dados, se obtendría la representación mostrada en la figura 1.

    Polígono de frecuencias resultante de representar el lanzamiento de un dado veinte veces y anotar los resultados aparecidos.

    Histogramas. Se logran tomando sobre cada valor de la variable o sobre cada intervalo, rectángulos cuya base es la amplitud de dicho intervalo y su altura, en una cierta escala, la frecuencia absoluta. En el ejemplo anterior de los salarios, se obtendría una representación similar a la de la figura 2.

    Histograma resultante de representar gráficamente un muestreo imaginario de salarios.

    Diagramas de barras. Son similares a los anteriores, pero considerando los rectángulos completos. Las barras pueden situarse también horizontalmente y, a veces, para mayor vistosidad, se sustituyen por ortoedros. En el caso de que la escala usada para las frecuencias absolutas sea 1:1, el área cubierta por la figura es igual al número total de observaciones. Los diagramas de barras permiten realizar gráficos de atributos, además de gráficos de variables (v. figura 3).

    Diagrama de barras que representa los principales cultivos de un territorio.

    Diagramas de sectores. Consisten en delimitar en un círculo sectores circulares, cada uno correspondiente a un dato y cuya amplitud es proporcional a la frecuencia absoluta de dicho dato (v.figura 4).

    Diagrama por sectores que representa la distribución de los trabajadores del sector secundario por tipo de industria.

    Pictogramas. Se basan en la utilización de un dibujo alusivo al tema que se estudia, de tamaño proporcional en cada dato a su frecuencia absoluta.

    Representaciones geográficas. Son muy usadas en humanidades y ciencias sociales para indicar densidades de población, escenarios y evolución de batallas, etcétera (v. figura 5).

    Representación geográfica que muestra el tamaño de los embalses de agua en la España peninsular y la cantidad media de agua embalsada entre 1997 y 2001. Obsérvese que el tamaño de las probetas que representan los embalses varía según la capacidad de éstos. Este pictograma hace uso además de una representación geográfica.

    Pirámides. Se emplean cuando se estudian conjuntamente dos variables. Un caso muy conocido es el de las pirámides de población, por ejemplo, de hombres y mujeres, formadas por los histogramas unidos de ambas variables (v. figura 6).

    Pirámide en la que las barras representan porcentajes de la población masculina y femenina según grupos de edad.