Intervalo de confianza y probabilidad de confianza. Intervalos de confianza y sus aplicaciones ¿Qué es la probabilidad de confianza y el intervalo de confianza?

Estimación de intervalos de confianza

Objetivos de aprendizaje

Las estadísticas consideran lo siguiente dos tareas principales:

    Tenemos una estimación basada en datos de muestra y queremos hacer una declaración probabilística sobre dónde está el verdadero valor del parámetro que se está estimando.

    Tenemos una hipótesis específica que debe probarse con base en datos de muestra.

En este tema, consideramos el primer problema. También presentamos la definición de un intervalo de confianza.

Un intervalo de confianza es un intervalo que se construye alrededor del valor estimado de un parámetro y muestra dónde se encuentra el verdadero valor del parámetro estimado con una probabilidad dada a priori.

Después de estudiar el material sobre este tema, usted:

    aprender cuál es el intervalo de confianza de la estimación;

    aprender a clasificar problemas estadísticos;

    dominar la técnica de construcción de intervalos de confianza, tanto mediante fórmulas estadísticas como utilizando herramientas informáticas;

    aprender a determinar los tamaños de muestra requeridos para lograr ciertos parámetros de precisión de las estimaciones estadísticas.

Distribuciones de las características de la muestra

Distribución T

Como se discutió anteriormente, la distribución de la variable aleatoria está cerca de una distribución normal estandarizada con parámetros 0 y 1. Dado que no conocemos el valor de σ, lo reemplazamos con alguna estimación s. La cantidad ya tiene una distribución diferente, a saber, o distribución del estudiante, que viene determinado por el parámetro n -1 (número de grados de libertad). Esta distribución está cerca de la distribución normal (cuanto mayor sea n, más cercanas serán las distribuciones).

En la fig. 95
Se presenta la distribución de Student con 30 grados de libertad. Como puede ver, está muy cerca de la distribución normal.

Similar a las funciones para trabajar con la distribución normal DISTR.NORM y DISTR.NORM.NORM, hay funciones para trabajar con la distribución t - STUDIST (TDIST) y STUDRASPBR (TINV). Un ejemplo del uso de estas funciones se puede encontrar en el archivo STUDRIST.XLS (plantilla y solución) y en la fig. 96
.

Distribuciones de otras características

Como ya sabemos, para determinar la precisión de la estimación esperada, necesitamos una distribución t. Para estimar otros parámetros, como la varianza, se requieren otras distribuciones. Dos de ellos son la distribución F y x 2 -distribución.

Intervalo de confianza para la media

Intervalo de confianza es un intervalo que se construye alrededor del valor estimado del parámetro y muestra dónde se encuentra el verdadero valor del parámetro estimado con una probabilidad dada a priori.

La construcción de un intervalo de confianza para el valor medio se produce de la siguiente manera:

Ejemplo

El restaurante de comida rápida planea ampliar su surtido con un nuevo tipo de sándwich. Para estimar la demanda del mismo, el gerente planea seleccionar al azar a 40 visitantes de entre los que ya lo han probado y pedirles que califiquen su actitud hacia el nuevo producto en una escala del 1 al 10. El gerente quiere estimar la número esperado de puntos que recibirá el nuevo producto y construya un intervalo de confianza del 95% para esta estimación. ¿Cómo hacerlo? (ver archivo SANDWICH1.XLS (plantilla y solución).

Solución

Para resolver este problema, puede utilizar . Los resultados se presentan en la fig. 97
.

Intervalo de confianza para el valor total

A veces, según los datos de la muestra, se requiere estimar no la expectativa matemática, sino la suma total de valores. Por ejemplo, en una situación con un auditor, puede ser interesante estimar no el valor promedio de una factura, sino la suma de todas las facturas.

Sea N el número total de elementos, n el tamaño de la muestra, T 3 la suma de los valores de la muestra, T" la estimación de la suma de toda la población, luego , y el intervalo de confianza se calcula mediante la fórmula , donde s es la estimación de la desviación estándar de la muestra, es la estimación de la media de la muestra.

Ejemplo

Digamos que una oficina de impuestos quiere estimar la cantidad total de reembolsos de impuestos para 10,000 contribuyentes. El contribuyente recibe un reembolso o paga impuestos adicionales. Encuentre el intervalo de confianza del 95 % para el monto del reembolso, suponiendo un tamaño de muestra de 500 personas (consulte el archivo IMPORTE DEL REEMBOLSO.XLS (plantilla y solución).

Solución

No existe un procedimiento especial en StatPro para este caso, sin embargo, puede ver que los límites se pueden obtener a partir de los límites de la media usando las fórmulas anteriores (Fig. 98
).

Intervalo de confianza para la proporción

Sea p la expectativa de una parte de los clientes, y pv una estimación de esta parte, obtenida a partir de una muestra de tamaño n. Se puede demostrar que para valores suficientemente grandes la distribución estimada será cercana a la normal con media p y desviación estándar . El error estándar de la estimación en este caso se expresa como , y el intervalo de confianza como .

Ejemplo

El restaurante de comida rápida planea ampliar su surtido con un nuevo tipo de sándwich. Para estimar la demanda del mismo, el gerente seleccionó aleatoriamente a 40 visitantes entre los que ya lo habían probado y les pidió que calificaran su actitud hacia el nuevo producto en una escala del 1 al 10. El gerente quiere estimar la proporción esperada de clientes que califican el nuevo producto con al menos 6 puntos (él espera que estos clientes sean los consumidores del nuevo producto).

Solución

Inicialmente, creamos una nueva columna en base a 1 si la puntuación del cliente fue superior a 6 puntos y 0 en caso contrario (ver el archivo SANDWICH2.XLS (plantilla y solución).

Método 1

Contando la cantidad de 1, estimamos la participación y luego usamos las fórmulas.

El valor de z cr se toma de tablas especiales de distribución normal (por ejemplo, 1,96 para un intervalo de confianza del 95 %).

Usando este enfoque y datos específicos para construir un intervalo de 95%, obtenemos los siguientes resultados (Fig. 99
). El valor crítico del parámetro z cr es 1,96. El error estándar de la estimación es 0.077. El límite inferior del intervalo de confianza es 0,475. El límite superior del intervalo de confianza es 0,775. Así, un gerente puede suponer con un 95% de certeza que el porcentaje de clientes que califican un nuevo producto con 6 puntos o más estará entre 47,5 y 77,5.

Método 2

Este problema se puede resolver utilizando las herramientas estándar de StatPro. Para ello basta señalar que la cuota en este caso coincide con el valor medio de la columna Tipo. Siguiente aplicar StatPro/Inferencia estadística/Análisis de una muestra para construir un intervalo de confianza para el valor medio (estimación de expectativa) para la columna Tipo. Los resultados obtenidos en este caso estarán muy cerca del resultado del 1er método (Fig. 99).

Intervalo de confianza para la desviación estándar

s se utiliza como una estimación de la desviación estándar (la fórmula se proporciona en la Sección 1). La función de densidad de la estimación s es la función chi-cuadrado, que, como la distribución t, tiene n-1 grados de libertad. Existen funciones especiales para trabajar con esta distribución CHI2DIST (CHIDIST) y CHI2OBR (CHIINV) .

El intervalo de confianza en este caso ya no será simétrico. El esquema condicional de los límites se muestra en la fig. 100

Ejemplo

La máquina debe producir piezas con un diámetro de 10 cm, sin embargo, debido a diversas circunstancias, se producen errores. El controlador de calidad se preocupa por dos cosas: primero, el valor promedio debe ser de 10 cm; en segundo lugar, incluso en este caso, si las desviaciones son grandes, se rechazarán muchos detalles. Cada día hace una muestra de 50 piezas (ver archivo CONTROL DE CALIDAD.XLS (plantilla y solución). ¿Qué conclusiones puede dar una muestra así?

Solución

Construimos intervalos de confianza del 95% para la media y la desviación estándar utilizando StatPro/Inferencia estadística/Análisis de una muestra(Figura 101
).

Además, utilizando el supuesto de una distribución normal de diámetros, calculamos la proporción de productos defectuosos, estableciendo una desviación máxima de 0,065. Usando las capacidades de la tabla de búsqueda (el caso de dos parámetros), construimos la dependencia del porcentaje de rechazos en el valor medio y la desviación estándar (Fig. 102
).

Intervalo de confianza para la diferencia de dos medias

Esta es una de las aplicaciones más importantes. métodos de estadística. Ejemplos de situaciones.

    Al gerente de una tienda de ropa le gustaría saber cuánto más o menos gasta la compradora promedio en la tienda que un hombre.

    Las dos aerolíneas vuelan rutas similares. A una organización de consumidores le gustaría comparar la diferencia entre los tiempos de retraso de vuelo promedio esperados para ambas aerolíneas.

    La empresa envía cupones para ciertos tipos de bienes en una ciudad y no los envía en otra. Los gerentes quieren comparar las compras promedio de estos artículos durante los próximos dos meses.

    Un concesionario de automóviles a menudo trata con parejas casadas en presentaciones. Para comprender sus reacciones personales a la presentación, a menudo se entrevista a las parejas por separado. El gerente quiere evaluar la diferencia en las calificaciones dadas por hombres y mujeres.

Caso de muestras independientes

La diferencia de medias tendrá una distribución t con n 1 + n 2 - 2 grados de libertad. El intervalo de confianza para μ 1 - μ 2 se expresa mediante la relación:

Este problema se puede resolver no solo con las fórmulas anteriores, sino también con las herramientas estándar de StatPro. Para ello basta con aplicar

Intervalo de confianza para la diferencia entre proporciones

Sea la expectativa matemática de las acciones. Sean sus estimaciones muestrales construidas sobre muestras de tamaño n 1 y n 2, respectivamente. Entonces es una estimación de la diferencia. Por lo tanto, el intervalo de confianza para esta diferencia se expresa como:

Aquí z cr es el valor obtenido de la distribución normal de tablas especiales (por ejemplo, 1,96 para un intervalo de confianza del 95 %).

El error estándar de la estimación se expresa en este caso por la relación:

.

Ejemplo

La tienda, en preparación para la gran venta, realizó la siguiente investigación de mercado. Los 300 principales compradores fueron seleccionados y divididos al azar en dos grupos de 150 miembros cada uno. A todos los compradores seleccionados se les envió invitaciones para participar en la venta, pero sólo para los miembros del primer grupo se adjuntó un cupón que daba derecho a un 5% de descuento. Durante la venta, se registraron las compras de los 300 compradores seleccionados. ¿Cómo puede un gerente interpretar los resultados y emitir un juicio sobre la efectividad de los cupones? (Ver archivo CUPONES.XLS (plantilla y solución)).

Solución

Para nuestro caso particular, de 150 clientes que recibieron un cupón de descuento, 55 realizaron una compra en oferta, y de 150 que no recibieron cupón, solo 35 realizaron una compra (Fig. 103
). Entonces los valores de las proporciones muestrales son 0.3667 y 0.2333, respectivamente. Y la diferencia muestral entre ellos es igual a 0.1333, respectivamente. Suponiendo un intervalo de confianza del 95 %, encontramos en la tabla de distribución normal z cr = 1,96. El cálculo del error estándar de la diferencia muestral es 0,0524. Finalmente, obtenemos que el límite inferior del intervalo de confianza del 95% es 0,0307, ​​y el límite superior es 0,2359, respectivamente. Los resultados obtenidos se pueden interpretar de tal manera que por cada 100 clientes que recibieron un cupón de descuento, podemos esperar de 3 a 23 nuevos clientes. Sin embargo, debe tenerse en cuenta que esta conclusión en sí misma no significa la eficiencia del uso de cupones (¡porque al ofrecer un descuento, perdemos ganancias!). Demostremos esto con datos específicos. Suponga que el monto promedio de compra es de 400 rublos, de los cuales 50 rublos. hay una ganancia de la tienda. Entonces, la ganancia esperada por cada 100 clientes que no recibieron un cupón es igual a:

50 0.2333 100 \u003d 1166.50 rublos.

Cálculos similares para 100 compradores que recibieron un cupón dan:

30 0.3667 100 \u003d 1100.10 rublos.

La disminución de la ganancia promedio a 30 se explica por el hecho de que, al usar el descuento, los compradores que recibieron un cupón, en promedio, realizarán una compra por 380 rublos.

Así, la conclusión final indica la ineficiencia del uso de tales cupones en esta situación particular.

Comentario. Este problema se puede resolver utilizando las herramientas estándar de StatPro. Para ello, basta con reducir este problema al problema de estimar la diferencia de dos medias por el método, y luego aplicar StatPro/Inferencia estadística/Análisis de dos muestras para construir un intervalo de confianza para la diferencia entre dos valores medios.

Control de intervalo de confianza

La longitud del intervalo de confianza depende de siguientes condiciones:

    datos directos (desviación estándar);

    Nivel significativo;

    tamaño de la muestra.

Tamaño de la muestra para estimar la media

Consideremos primero el problema en el caso general. Denotemos el valor de la mitad de la longitud del intervalo de confianza que se nos da como B (Fig. 104
). Sabemos que el intervalo de confianza para el valor medio de alguna variable aleatoria X se expresa como , dónde . Asumiendo:

y expresando n , obtenemos .

Desafortunadamente, no sabemos el valor exacto de la varianza de la variable aleatoria X. Además, no conocemos el valor de t cr ya que depende de n a través del número de grados de libertad. En esta situación, podemos hacer lo siguiente. En lugar de la varianza s, usamos alguna estimación de la varianza para algunas realizaciones disponibles de la variable aleatoria en estudio. En lugar del valor t cr, usamos el valor z cr para la distribución normal. Esto es bastante aceptable, ya que las funciones de densidad para las distribuciones normal y t son muy parecidas (excepto en el caso de n pequeño). Así, la fórmula deseada toma la forma:

.

Dado que la fórmula da, en términos generales, resultados no enteros, el redondeo con un exceso del resultado se toma como el tamaño de muestra deseado.

Ejemplo

El restaurante de comida rápida planea ampliar su surtido con un nuevo tipo de sándwich. Para estimar la demanda del mismo, el gerente planea seleccionar aleatoriamente un número de visitantes entre los que ya lo han probado y pedirles que califiquen su actitud hacia el nuevo producto en una escala del 1 al 10. El gerente quiere para estimar el número esperado de puntos que recibirá el nuevo producto y graficar el intervalo de confianza del 95% de esa estimación. Sin embargo, quiere que la mitad del ancho del intervalo de confianza no exceda 0,3. ¿A cuántos visitantes necesita sondear?

como sigue:

Aquí podredumbre es una estimación de la fracción p, y B es la mitad dada de la longitud del intervalo de confianza. Se puede obtener un valor inflado para n usando el valor podredumbre= 0,5. En este caso, la longitud del intervalo de confianza no excederá el valor B dado para cualquier valor verdadero de p.

Ejemplo

Deje que el gerente del ejemplo anterior planee estimar la proporción de clientes que prefieren un nuevo tipo de producto. Quiere construir un intervalo de confianza del 90% cuya longitud media sea menor o igual a 0,05. ¿Cuántos clientes deben ser muestreados aleatoriamente?

Solución

En nuestro caso, el valor de z cr = 1.645. Por lo tanto, la cantidad requerida se calcula como .

Si el gerente tuviera motivos para creer que el valor deseado de p es, por ejemplo, alrededor de 0,3, al sustituir este valor en la fórmula anterior, obtendríamos un valor más pequeño de la muestra aleatoria, a saber, 228.

Fórmula para determinar tamaños de muestra aleatorios en caso de diferencia entre dos medias Escrito como:

.

Ejemplo

Algunas empresas de informática tienen un centro de atención al cliente. A tiempos recientes el número de quejas de los clientes sobre la mala calidad del servicio ha aumentado. El centro de servicio emplea principalmente a dos tipos de empleados: aquellos con poca experiencia, pero que han completado cursos especiales de capacitación, y aquellos con amplia experiencia práctica, pero que no han completado cursos especiales. La empresa quiere analizar las quejas de los clientes durante los últimos seis meses y comparar sus números promedio para cada uno de los dos grupos de empleados. Se supone que los números en las muestras para ambos grupos serán los mismos. ¿Cuántos empleados deben incluirse en la muestra para obtener un intervalo del 95% con una longitud media de no más de 2?

Solución

Aquí σ ots es una estimación de la desviación estándar de ambas variables aleatorias bajo el supuesto de que son cercanas. Por lo tanto, en nuestra tarea, necesitamos obtener de alguna manera esta estimación. Esto se puede hacer, por ejemplo, de la siguiente manera. Al observar los datos de quejas de los clientes durante los últimos seis meses, un gerente puede notar que generalmente hay entre 6 y 36 quejas por empleado. Sabiendo que para una distribución normal prácticamente todos los valores no son más de tres desviaciones estándar de la media, puede creer razonablemente que:

, de donde σ ots = 5.

Sustituyendo este valor en la fórmula, obtenemos .

Fórmula para determinar el tamaño de una muestra aleatoria en el caso de estimar la diferencia entre las acciones parece:

Ejemplo

Algunas empresas tienen dos fábricas para la producción de productos similares. El gerente de una empresa quiere comparar las tasas de defectos de ambas fábricas. Según la información disponible, la tasa de rechazo en ambas fábricas es del 3 al 5%. Se supone que construye un intervalo de confianza del 99 % con una longitud media de no más de 0,005 (o 0,5 %). ¿Cuántos productos se deben seleccionar de cada fábrica?

Solución

Aquí p 1ot y p 2ot son estimaciones de dos fracciones desconocidas de rechazos en las fábricas 1 y 2. Si ponemos p 1ots \u003d p 2ots \u003d 0.5, obtendremos un valor sobreestimado para n. Pero dado que en nuestro caso tenemos alguna información a priori sobre estas acciones, tomamos la estimación superior de estas acciones, es decir, 0,05. Obtenemos

Cuando se estiman algunos parámetros de la población a partir de datos de muestra, es útil proporcionar no solo una estimación puntual del parámetro, sino también un intervalo de confianza que muestre dónde puede estar el valor exacto del parámetro que se está estimando.

En este capítulo, también nos familiarizamos con las relaciones cuantitativas que nos permiten construir tales intervalos para varios parámetros; aprendido formas de controlar la longitud del intervalo de confianza.

También notamos que el problema de estimar el tamaño de la muestra (problema de planificación del experimento) se puede resolver utilizando las herramientas estándar de StatPro, a saber StatPro/Inferencia estadística/Selección de tamaño de muestra.

Tomando una muestra de la población, obtendremos una estimación puntual del parámetro que nos interesa y calcularemos el error estándar para indicar la precisión de la estimación.

Sin embargo, para la mayoría de los casos, el error estándar como tal no es aceptable. Es mucho más útil combinar esta medida de precisión con una estimación de intervalo para el parámetro de población.

Esto se puede hacer utilizando el conocimiento de la distribución de probabilidad teórica de la muestra estadística (parámetro) para calcular el intervalo de confianza (IC - Intervalo de confianza, DI- Intervalo de confianza) para el parámetro.

En general, intervalo de confianza expande las estimaciones en ambas direcciones por un cierto múltiplo del error estándar (de un parámetro dado); los dos valores (límites de confianza) que definen el intervalo suelen estar separados por una coma y encerrados entre paréntesis.

En estadística, un intervalo de confianza(CI) es un tipo de estimación de intervalo de un parámetro de población. Es un intervalo observado (es decir, se calcula a partir de las observaciones), en principio diferente de una muestra a otra, que frecuentemente incluye el valor de un parámetro de interés no observable si se repite el experimento. La frecuencia con la que el intervalo observado contiene el parámetro está determinada por el nivel de confianza o el coeficiente de confianza. Más específicamente, el significado del término "nivel de confianza" es que, si los IC se construyen a partir de muchos análisis de datos separados de experimentos replicados (y posiblemente diferentes), la proporción de dichos intervalos que contienen el valor real del parámetro coincidirá con el valor dado. nivel de confianza. Mientras que los límites de confianza bilaterales forman un intervalo de confianza, sus contrapartes unilaterales se denominan límites (o límites) de confianza inferior/superior.


El intervalo de confianza muestra en qué rango se ubicarán los resultados de las observaciones de muestra (encuestas). Si realizamos 100 encuestas idénticas en muestras idénticas de una sola población (por ejemplo, 100 muestras de 1000 personas cada una en una ciudad con una población de 5 millones), entonces, con un nivel de confianza del 95 %, 95 de 100 resultados estarán dentro de el intervalo de confianza (por ejemplo, de 28% a 32% con un valor real de 30%). Por ejemplo, el número real de residentes de la ciudad que fuman es del 30%. Si seleccionamos 1000 personas 100 veces seguidas y en estas muestras hacemos la pregunta “¿Fumas?”, en 95 de estas 100 muestras, con un intervalo de confianza del 2%, el valor será del 28% al 32%.

Se pueden encontrar fórmulas para construir intervalos de confianza con ejemplos prácticos, por ejemplo,.

Interpretación de los intervalos de confianza

Al interpretar el intervalo de confianza, nos interesan las siguientes preguntas:

¿Qué tan amplio es el intervalo de confianza?

Un intervalo de confianza amplio indica que la estimación es imprecisa; estrecho indica una estimación fina.
El ancho del intervalo de confianza depende del tamaño del error estándar, que, a su vez, depende del tamaño de la muestra y, al considerar una variable numérica a partir de la variabilidad de los datos, dan intervalos de confianza más amplios que los estudios de un gran conjunto de datos. de pocas variables.

¿El CI incluye algún valor de especial interés?

Puede comprobar si el valor probable de un parámetro de población se encuentra dentro de un intervalo de confianza. Si es así, entonces los resultados son consistentes con este valor probable. Si no es así, es poco probable (para un intervalo de confianza del 95 %, la probabilidad es casi del 5 %) que el parámetro tenga este valor. ()

probabilidades, reconocidos como suficientes para juzgar con confianza los parámetros generales basados ​​en las características de la muestra, se denominan fiduciario .

Por lo general, se eligen valores de 0,95 como probabilidades de confianza; 0,99; 0,999 (normalmente se expresan en porcentaje: 95 %, 99 %, 99,9 %). Cuanto mayor sea el grado de responsabilidad, más nivel alto nivel de confianza: 99% o 99,9%.

Un nivel de confianza de 0,95 (95%) se considera suficiente en la investigación científica en el campo de la educación Física y deportes

El intervalo en el que se encuentra la media aritmética muestral de la población general con una probabilidad de confianza dada se denomina intervalo de confianza .

Nivel de significación de la evaluación es un pequeño número α, cuyo valor implica la probabilidad de que esté fuera del intervalo de confianza. De acuerdo con las probabilidades de confianza: α 1 = (1-0.95) = 0.05; α 2 \u003d (1 - 0.99) \u003d 0.01, etc.

Intervalo de confianza para la media (expectativa) a distribución normal:

,

donde está la confiabilidad (probabilidad de confianza) de la estimación; - muestra promedio; s - desviación estándar corregida; n es el tamaño de la muestra; t γ es el valor determinado a partir de la tabla de distribución de Student (ver Apéndice, Tabla 1) para n y γ dados.

Para encontrar los límites del intervalo de confianza del valor medio de la población general, es necesario:

1. Calcular y s.

2. Es necesario establecer la probabilidad de confianza (fiabilidad) γ de estimación 0,95 (95%) o el nivel de significancia α 0,05 (5%)

3. De acuerdo con la tabla t - Distribuciones de Student (Apéndice, Tabla 1) encuentre los valores límite de t γ .

Dado que la distribución t es simétrica con respecto al punto cero, es suficiente conocer solo el valor positivo de t. Por ejemplo, si el tamaño de la muestra es n=16, entonces el número de grados de libertad (grados de libertad, d.f.) t– distribuciones d.f.=16 - 1=15 . Según la tabla 1 aplicación t 0,05 = 2,13 .

4. Encontramos los límites del intervalo de confianza para α = 0.05 y n=16:

Límites de confianza:

Para tamaños de muestra grandes (n ≥ 30) t – La distribución de Student se vuelve normal. Por lo tanto, el intervalo de confianza para para n ≥ 30 se puede escribir de la siguiente manera:

dónde tu son los puntos porcentuales de la distribución normal normalizada.

Para probabilidades de confianza estándar (95%, 99%; 99,9%) y niveles de significancia valores α ( tu) se dan en la Tabla 8.

Tabla 8

Valores para niveles de confianza estándar α

α tu
0,05 1,96
0,01 2,58
0,001 3,28

Con base en los datos del ejemplo 1, definimos los límites del 95% intervalo de confianza (α = 0.05) para el resultado promedio de saltar desde el lugar. En nuestro ejemplo, el tamaño de la muestra es n = 65, luego se pueden usar recomendaciones para un tamaño de muestra grande para determinar los límites del intervalo de confianza.

Intervalos de confianza ( inglés Intervalos de confianza) uno de los tipos de estimaciones de intervalo utilizadas en estadística, que se calculan para un determinado nivel de significancia. Nos permiten afirmar que el verdadero valor de un parámetro estadístico desconocido de la población general se encuentra en el rango de valores obtenido con una probabilidad que viene dada por el nivel de significación estadística elegido.

Distribución normal

Cuando se conoce la varianza (σ 2 ) de la población de datos, se puede usar una puntuación z para calcular los límites de confianza (puntos límite del intervalo de confianza). En comparación con el uso de una distribución t, el uso de una puntuación z no solo proporcionará un intervalo de confianza más estrecho, sino que también proporcionará estimaciones más fiables de la media y la desviación estándar (σ), ya que la puntuación Z se basa en una distribución normal.

Fórmula

Para determinar los puntos límite del intervalo de confianza, siempre que se conozca la desviación estándar de la población de datos, se utiliza la siguiente fórmula

L = X - Z α/2 σ
√n

Ejemplo

Suponga que el tamaño de la muestra es de 25 observaciones, la media de la muestra es de 15 y la desviación estándar de la población es de 8. Para un nivel de significancia de α=5 %, la puntuación Z es Z α/2 =1,96. En este caso, los límites inferior y superior del intervalo de confianza serán

L = 15 - 1,96 8 = 11,864
√25
L = 15 + 1,96 8 = 18,136
√25

Así, podemos afirmar que con una probabilidad del 95% la expectativa matemática de la población general caerá en el rango de 11.864 a 18.136.

Métodos para reducir el intervalo de confianza

Digamos que el rango es demasiado amplio para los propósitos de nuestro estudio. Hay dos formas de disminuir el rango del intervalo de confianza.

  1. Reducir el nivel de significación estadística α.
  2. Aumente el tamaño de la muestra.

Reduciendo el nivel de significancia estadística a α=10%, obtenemos un Z-score igual a Z α/2 =1.64. En este caso, los límites inferior y superior del intervalo serán

L = 15 - 1,64 8 = 12,376
√25
L = 15 + 1,64 8 = 17,624
√25

Y el propio intervalo de confianza se puede escribir como

En este caso, podemos suponer que con una probabilidad del 90%, la expectativa matemática de la población general caerá dentro del rango.

Si queremos mantener el nivel de significación estadística α, entonces la única alternativa es aumentar el tamaño de la muestra. Incrementándolo a 144 observaciones, obtenemos los siguientes valores de los límites de confianza

L = 15 - 1,96 8 = 13,693
√144
L = 15 + 1,96 8 = 16,307
√144

El intervalo de confianza en sí se verá así:

Por lo tanto, reducir el intervalo de confianza sin reducir el nivel de significación estadística solo es posible aumentando el tamaño de la muestra. Si no es posible aumentar el tamaño de la muestra, entonces el estrechamiento del intervalo de confianza puede lograrse únicamente reduciendo el nivel de significancia estadística.

Construcción de un intervalo de confianza para una distribución no normal

Si no se conoce la desviación estándar de la población o la distribución no es normal, se utiliza la distribución t para construir un intervalo de confianza. Esta técnica es más conservadora, lo que se expresa en intervalos de confianza más amplios, en comparación con la técnica basada en el Z-score.

Fórmula

Las siguientes fórmulas se utilizan para calcular los límites inferior y superior del intervalo de confianza en función de la distribución t

L = X - ta σ
√n

La distribución de Student o distribución t depende de un solo parámetro: el número de grados de libertad, que es igual al número de valores de características individuales (el número de observaciones en la muestra). El valor de la prueba t de Student para un número determinado de grados de libertad (n) y el nivel de significación estadística α se pueden encontrar en las tablas de búsqueda.

Ejemplo

Suponga que el tamaño de la muestra es de 25 valores individuales, el valor medio de la muestra es 50 y la desviación estándar de la muestra es 28. Debe construir un intervalo de confianza para el nivel de significación estadística α=5 %.

En nuestro caso, el número de grados de libertad es 24 (25-1), por lo tanto, el valor tabular correspondiente de la prueba t de Student para el nivel de significación estadística α=5% es 2.064. Por lo tanto, los límites inferior y superior del intervalo de confianza serán

L = 50 - 2.064 28 = 38,442
√25
L = 50 + 2.064 28 = 61,558
√25

Y el intervalo mismo se puede escribir como

Así, podemos afirmar que con una probabilidad del 95% la expectativa matemática de la población general estará en el rango.

El uso de una distribución t le permite reducir el intervalo de confianza, ya sea reduciendo la significación estadística o aumentando el tamaño de la muestra.

Reduciendo la significación estadística del 95% al ​​90% en las condiciones de nuestro ejemplo, obtenemos el valor tabular correspondiente de la prueba t de Student 1.711.

L = 50 - 1.711 28 = 40,418
√25
L = 50 + 1.711 28 = 59,582
√25

En este caso, podemos decir que con una probabilidad del 90% la expectativa matemática de la población general estará en el rango.

Si no queremos reducir la significación estadística, la única alternativa es aumentar el tamaño de la muestra. Digamos que son 64 observaciones individuales, y no 25 como en la condición inicial del ejemplo. El valor tabular de la prueba t de Student para 63 grados de libertad (64-1) y el nivel de significación estadística α=5% es 1,998.

L = 50 - 1.998 28 = 43,007
√64
L = 50 + 1,998 28 = 56,993
√64

Esto nos da la oportunidad de afirmar que con una probabilidad del 95% la expectativa matemática de la población general estará en el rango.

Muestras grandes

Las muestras grandes son muestras de una población de datos con más de 100 observaciones individuales. Los estudios estadísticos han demostrado que las muestras más grandes tienden a tener una distribución normal, incluso si la distribución de la población no es normal. Además, para tales muestras, el uso de la puntuación z y la distribución t dan aproximadamente los mismos resultados al construir intervalos de confianza. Por lo tanto, para muestras grandes, es aceptable usar un puntaje z para una distribución normal en lugar de una distribución t.

Resumiendo

El intervalo de confianza nos llegó del campo de la estadística. Este es un rango definido que sirve para estimar un parámetro desconocido con un alto grado de confiabilidad. La forma más fácil de explicar esto es con un ejemplo.

Suponga que necesita investigar alguna variable aleatoria, por ejemplo, la velocidad de respuesta del servidor a la solicitud de un cliente. Cada vez que el usuario ingresa la dirección de un sitio en particular, el servidor responde con velocidad diferente. Así, el tiempo de respuesta investigado tiene un carácter aleatorio. Entonces, el intervalo de confianza le permite determinar los límites de este parámetro, y luego será posible afirmar que con una probabilidad del 95% el servidor estará en el rango que calculamos.

O necesita averiguar cuántas personas conocen la marca de la empresa. Cuando se calcule el intervalo de confianza, será posible, por ejemplo, decir que con un 95 % de probabilidad, la proporción de consumidores que conocen esto está en el rango de 27 % a 34 %.

Estrechamente relacionado con este término está un valor como el nivel de confianza. Representa la probabilidad de que el parámetro deseado esté incluido en el intervalo de confianza. Este valor determina qué tan grande será nuestro rango deseado. Cuanto mayor sea el valor que toma, más estrecho se vuelve el intervalo de confianza, y viceversa. Por lo general, se establece en 90%, 95% o 99%. El valor del 95% es el más popular.

Este indicador también se ve afectado por la varianza de las observaciones y su definición se basa en el supuesto de que la característica en estudio obedece, dicho enunciado también se conoce como Ley de Gauss. Según él, tal distribución de todas las probabilidades de una variable aleatoria continua, que puede describirse mediante una densidad de probabilidad, se llama normal. Si la suposición de una distribución normal resultó ser incorrecta, entonces la estimación puede resultar incorrecta.

Primero, averigüemos cómo calcular el intervalo de confianza para Aquí, son posibles dos casos. La dispersión (el grado de propagación de una variable aleatoria) puede o no ser conocida. Si se conoce, nuestro intervalo de confianza se calcula utilizando la siguiente fórmula:

xsr - t*σ / (raíz cuadrada(n))<= α <= хср + t*σ / (sqrt(n)), где

α - signo,

t es un parámetro de la tabla de distribución de Laplace,

σ es la raíz cuadrada de la dispersión.

Si se desconoce la varianza, se puede calcular si conocemos todos los valores de la característica deseada. Para ello se utiliza la siguiente fórmula:

σ2 = х2ср - (хр)2, donde

х2ср - el valor promedio de los cuadrados del rasgo en estudio,

(xsr)2 es el cuadrado de este atributo.

La fórmula por la cual se calcula el intervalo de confianza en este caso cambia ligeramente:

xsr - t*s / (raíz cuadrada(n))<= α <= хср + t*s / (sqrt(n)), где

xsr - media muestral,

α - signo,

t es un parámetro que se encuentra usando la tabla de distribución de Student t \u003d t (ɣ; n-1),

sqrt(n) es la raíz cuadrada del tamaño total de la muestra,

s es la raíz cuadrada de la varianza.

Considere este ejemplo. Suponga que, con base en los resultados de 7 mediciones, se determinó que el rasgo en estudio era 30 y la varianza muestral igual a 36. Es necesario encontrar, con una probabilidad del 99%, un intervalo de confianza que contenga el valor verdadero de el parámetro medido.

Primero, determinemos a qué es igual t: t \u003d t (0.99; 7-1) \u003d 3.71. Usando la fórmula anterior, obtenemos:

xsr - t*s / (raíz cuadrada(n))<= α <= хср + t*s / (sqrt(n))

30 - 3,71*36 / (raíz cuadrada(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

El intervalo de confianza para la varianza se calcula tanto en el caso de una media conocida como cuando no hay datos sobre la expectativa matemática y solo se conoce el valor de la estimación puntual no sesgada de la varianza. No daremos aquí las fórmulas para su cálculo, ya que son bastante complejas y, si se desea, siempre se pueden encontrar en la red.

Solo notamos que es conveniente determinar el intervalo de confianza utilizando el programa Excel o un servicio de red, que se llama así.

Transmisión