No se aplica a los métodos estadísticos multivariantes. Análisis estadístico multivariado. Estimación de función predictiva lineal

Se describen los conceptos y métodos básicos del análisis estadístico. multidimensional resultados técnico experimentos. <...>Información teórica sobre propiedades multidimensional gaussiano distribuciones. <...>El resultado del experimento considerado en el manual es aleatorio vector distribuidos de acuerdo con la ley normal.<...>Multidimensional normal densidad A menudo, el resultado de un experimento es totalidad números que caracterizan algún objeto bajo estudio.<...>4 f x  Escribir como ξ  ~ ( DAKOTA DEL NORTE,)μ  tiene p-dimensional normal distribución. significa que vectorξ , ξ) toma diferentes valores, por lo que justificadamente podemos hablar de aleatorio vector 12 componente vector,ξ  componente,ξ  es ​​decir, EDE E   ξ= E E ξ ξ  = μ = ξ − μ ξ − μ ()()  ξp donde E es el signo de expectativa.<...>Sea η p pp   por soluciones μ= ν +B ;.   bD BD Bη ξ = ′ , (1.3) Matriz D de (1.2) es simétrico, definido positivo, por lo tanto, su representación es D CC′=Λ donde C es ortogonal matriz, compuesto de propio vectores matrices;D Λ – diagonal matriz Con propio númerosλ>i 0 matrices D a lo largo de la diagonal principal.<...> articulación densidad su componente,1,η=i ip, determinada a partir de la general normas(ver apéndice) es igual a 5 (1.4) ; lineal transformación,η  donde B es una matriz cuadrada de dimensiones  es ​​un vector aleatorio, de variaciones,.<...>Estimación de los parámetros de la distribución normal DAKOTA DEL NORTE . <...>La tarea principal de la matriz primaria μ=i n  covarianza . <...>A ln ∂ = (1.5) normas diferenciación funcionales con respecto a argumentos vectoriales o matriciales (ver<...>Entonces σ = ξ −ξ ξ − ξ = ξ ξ −ξ ξ∑∑ ij nn ki i kj j kk Aquí kiξ es el i-ésimo componente vector promedio iμ i-th Componentes vector . <...> Calificaciones máximo credibilidad los coeficientes j / ρ=σ σ σ tienen la forma ij ,. ij ii jj ri j σ σσ  ≠ ii jj Demostración.<...>Estimación de la dependencia entre componentes normal vector Análisis detallado de enlaces<...>

MU_to_performing_course_work_"Multivariate_statistical_analysis".pdf

UDC 519.2 LBC 22.172 K27 Revisor V.Yu. Chuev Kartashov G.D., Timonin V.I., Budovskaya L.M. K27 Análisis estadístico multivariante: Directrices para la implementación Papel a plazo. - M .: Editorial de MSTU im. NORDESTE. Bauman, 2007. - 48 p.: il. Se describen los conceptos básicos y métodos de análisis estadístico de resultados multidimensionales de experimentos técnicos. Se proporciona información teórica sobre las propiedades de las distribuciones gaussianas multidimensionales. Para estudiantes de último año de la Facultad de Ciencias Fundamentales. Illinois. 2. Bibliografía. 5 nombres UDC 519.2 LBC 22.172 © MSTU im. NORDESTE. Bauman, 2007

Página 2

TABLA DE CONTENIDO Introducción .................................................. .................................................................. ................... ..... 3 1. Distribución normal multivariante .................. .......................... 4 2. Inferencias estadísticas sobre el vector de medias .............. ...................... 17 3. Análisis discriminante .. ..................... ............................ .............. 23 4. Método de componentes principales .. ............................ ...................... ............ 27 5. Correlaciones canónicas ............... ............... .................................. 30 6. Análisis de regresión multivariado .......... .................................. .. 35 7. Análisis factorial ....... .......................................... ........... ....................... 40 Apéndice ......................... ...... ............................................ ..... .................................... 44 Referencias ....... ....................... ........................... .................................................. 46 47

El libro de texto fue creado sobre la base de la experiencia del autor en la enseñanza de cursos de análisis estadístico multivariado y econometría. Contiene materiales sobre discriminante, factorial, regresión, análisis de correspondencias y teoría de series de tiempo. Se describen enfoques a problemas de escalamiento multidimensional y algunos otros problemas de estadísticas multivariantes.

Agrupación y censura.
La tarea de formar grupos de datos de muestra de tal manera que los datos agrupados puedan proporcionar casi la misma cantidad de información para la toma de decisiones que la muestra antes de la agrupación es resuelta por el investigador en primer lugar. Los objetivos de la agrupación, por regla general, son reducir la cantidad de información, simplificar los cálculos y hacer que los datos sean más visibles. Algunas pruebas estadísticas se centran inicialmente en trabajar con una muestra agrupada. En ciertos aspectos, el problema de agrupamiento está muy cerca del problema de clasificación, que se discutirá con más detalle a continuación. Simultáneamente a la tarea de agrupar, el investigador también resuelve el problema de censurar la muestra, es decir exclusión de la misma de los datos atípicos, que, por regla general, son el resultado de graves errores de observación. Naturalmente, es deseable asegurar la ausencia de tales errores incluso en el curso de las propias observaciones, pero esto no siempre es posible. Los métodos más simples para resolver estos dos problemas se discuten en este capítulo.

Tabla de contenido
1 Información preliminar
1.1 Análisis y álgebra
1.2 Teoría de la probabilidad
1.3 Estadística matemática
2 Distribuciones multivariadas
2.1 Vectores aleatorios
2.2 Independencia
2.3 Características numéricas
2.4 Distribución normal en el caso multivariante
2.5 Teoría de la correlación
3 Agrupación y censura
3.1 Agrupación unidimensional
3.2 Censura unidimensional
3.3 Tablas de cruce
3.3.1 Hipótesis de independencia
3.3.2 Hipótesis de homogeneidad
3.3.3 Campo de correlación
3.4 Agrupación multidimensional
3.5 Censura multidimensional
4 Datos no numéricos
4.1 Observaciones preliminares
4.2 Escalas de comparación
4.3 Juicio de expertos
4.4 Grupos de expertos
5 conjuntos de confianza
5.1 Intervalos de confianza
5.2 Conjuntos de confianza
5.2.1 Parámetro multidimensional
5.2.2 Muestreo multivariante
5.3 Conjuntos tolerantes
5.4 Muestra pequeña
6 Análisis de regresión
6.1 Planteamiento del problema
6.2 Búsqueda de GMS
6.3 Restricciones
6.4 Matriz del plan
6.5 Pronóstico estadístico
7 Análisis de varianza
7.1 Observaciones preliminares
7.1.1 Normalidad
7.1.2 Homogeneidad de las dispersiones
7.2 Un factor
7.3 Dos factores
7.4 Caso general
8 Reducción de dimensionalidad
8.1 Por qué es necesaria la clasificación
8.2 Modelo y ejemplos
8.2.1 Análisis de componentes principales
8.2.2 Agrupación de características extremas
8.2.3 Escalado multidimensional
8.2.4 Selección de indicadores para el análisis discriminante
8.2.5 Selección de características en un modelo de regresión
9 Análisis discriminante
9.1 Aplicabilidad del modelo
9.2 Regla predictiva lineal
9.3 Recomendaciones prácticas
9.4 Un ejemplo
9.5 Más de dos clases
9.6 Comprobación de la calidad de la discriminación
10 métodos heurísticos
10.1 Agrupación extrema
10.1.1 Criterio de cuadrados
10.1.2 Criterio del módulo
10 2 método de las Pléyades
11 Análisis de componentes principales
11 1 Planteamiento del problema
112 Cálculo de componentes principales
11.3 Ejemplo
114 Propiedades de los componentes principales
11.4.1 Autorreproducibilidad
11.4.2 Propiedades geométricas
12 Análisis factorial
12.1 Planteamiento del problema
12.1.1 Comunicación con componentes principales
12.1.2 Decisión inequívoca
12.2 Modelo matemático
12.2.1 Condiciones para At A
12.2.2 Condiciones sobre la matriz de carga. método del centroide
12.3 Factores latentes
12.3.1 Método de Bartlett
12.3.2 Método de Thomson
12.4 Ejemplo
13 Digitalización
13.1 Análisis de correspondencia
13.1.1 Distancia chi-cuadrado
13.1.2 Digitalización para problemas de análisis discriminante
13.2 Más de dos variables
13.2.1 Uso de una matriz de datos binarios como matriz de mapeo
13.2.2 Correlaciones máximas
13.3 Dimensión
13.4 Ejemplo
13.5 Caso de datos mixtos
14 Escalamiento multidimensional
14.1 Observaciones preliminares
14.2 Modelo de Thorgerson
14.2.1 Criterio de tensión
14.3 Algoritmo de Thorgerson
14.4 Diferencias individuales
15 Serie temporal
15.1 Provisiones generales
15.2 Criterios de aleatoriedad
15.2.1 Picos y hoyos
15.2.2 Distribución de longitudes de fase
15.2.3 Criterios basados ​​en correlación de rango
15.2.4 Correlograma
15.3 Tendencia y estacionalidad
15.3.1 Tendencias de polinomios
15.3.2 Selección del grado de tendencia
15.3.3 Suavizado
15.3.4 Estimación de fluctuaciones estacionales
Una distribución normal
En Distribución X2
Con distribución t de Student
Distribución de D Fisher.


Descargue gratis el libro electrónico en un formato conveniente, mire y lea:
Descarga el libro Análisis estadístico multivariante, Dronov SV, 2003 - fileskachat.com, descarga rápida y gratuita.

Descargar PDF
A continuación puede comprar este libro al mejor precio con descuento y entrega en toda Rusia.

Hay situaciones en las que la variabilidad aleatoria estuvo representada por una o dos variables aleatorias, signos.

Por ejemplo, cuando estudiamos una población estadística de personas, nos interesa la altura y el peso. En esta situación, no importa cuántas personas haya en la población estadística, siempre podemos trazar un diagrama de dispersión y ver la imagen completa. Sin embargo, si hay tres características, por ejemplo, se agrega una característica: la edad de una persona, entonces el diagrama de dispersión debe construirse en un espacio tridimensional. Representar un conjunto de puntos en un espacio tridimensional ya es bastante difícil.

En realidad, en la práctica, cada observación no está representada por uno, dos o tres números, sino por un conjunto notable de números que describen docenas de características. En esta situación, para construir un diagrama de dispersión, sería necesario considerar espacios multidimensionales.

La rama de la estadística dedicada al estudio de experimentos con observaciones multivariantes se denomina análisis estadístico multivariante.

La medición de varias características (propiedades de un objeto) a la vez en un experimento es generalmente más natural que la medición de una o dos. Por lo tanto, el análisis estadístico potencialmente multivariante tiene un amplio campo de aplicación.

El análisis estadístico multivariante incluye las siguientes secciones:

Análisis factorial;

Análisis discriminante;

análisis de conglomerados;

Escalamiento multidimensional;

Métodos de control de calidad.

Análisis factorial

En el estudio de objetos y sistemas complejos (por ejemplo, en psicología, biología, sociología, etc.), las cantidades (factores) que determinan las propiedades de estos objetos muy a menudo no se pueden medir directamente y, a veces, incluso su número y significado significativo. no se conocen. Pero otras cantidades pueden estar disponibles para la medición, de una forma u otra dependiendo de los factores de interés. Además, cuando la influencia de un factor desconocido que nos interesa se manifiesta en varias características medidas, estas características pueden mostrar una estrecha relación entre sí y el número total de factores puede ser mucho menor que el número de variables medidas.

Los métodos de análisis factorial se utilizan para identificar los factores que influyen en las variables medidas.

Un ejemplo de la aplicación del análisis factorial es el estudio de los rasgos de personalidad basados ​​en pruebas psicologicas. Las propiedades de la personalidad no se pueden medir directamente, solo se pueden juzgar por el comportamiento de una persona o la naturaleza de las respuestas a ciertas preguntas. Para explicar los resultados de los experimentos, se someten a análisis factoriales, lo que permite identificar aquellas propiedades personales que influyen en el comportamiento de los sujetos sometidos a prueba.


Varios modelos de análisis factorial se basan en la siguiente hipótesis: los parámetros observados o medidos son solo características indirectas del objeto o fenómeno que se estudia; de hecho, hay características internas (ocultas, latente, no directamente observables) parámetros y propiedades, cuyo número es pequeño y que determinan los valores de los parámetros observados. Estos parámetros internos se denominan factores.

La tarea del análisis factoriales la representación de los parámetros observados en forma de combinaciones lineales de factores y, quizás, algunas perturbaciones adicionales e insignificantes.

La primera etapa del análisis factorial, como regla, es la selección de nuevas características, que son combinaciones lineales de las anteriores y "absorben" la mayor parte de la variabilidad total de los datos observados y, por lo tanto, transmiten la mayor parte de la información contenida en el observaciones originales. Esto generalmente se hace usando método de componentes principales, aunque en ocasiones se utilizan otras técnicas (método de máxima verosimilitud).

El método de componentes principales se reduce a la elección de un nuevo sistema de coordenadas ortogonales en el espacio de observación. La dirección a lo largo de la cual la matriz de observaciones tiene la mayor dispersión se elige como el primer componente principal, cada componente principal posterior se selecciona de modo que la dispersión de las observaciones sea máxima y que este componente principal sea ortogonal a otros componentes principales seleccionados anteriormente. Sin embargo, los factores obtenidos por el método de componentes principales por lo general no se prestan a una interpretación suficientemente visual. Por lo tanto, el siguiente paso en el análisis factorial es la transformación, rotación de factores para facilitar la interpretación.

Análisis discriminante

Sea un conjunto de objetos divididos en varios grupos, y para cada objeto es posible determinar a qué grupo pertenece. Para cada objeto hay medidas de varias características cuantitativas. Es necesario encontrar la manera de cómo, en función de estas características, puede averiguar el grupo al que pertenece el objeto. Esto le permitirá especificar los grupos a los que pertenecen los nuevos objetos de la misma colección. Para resolver el problema, aplica métodos de análisis discriminante.

Análisis discriminante- esta es una sección de estadística, cuyo contenido es el desarrollo de métodos para resolver problemas de distinción (discriminación) de objetos de observación de acuerdo con ciertas características.

Veamos algunos ejemplos.

El análisis discriminante demuestra ser útil para manejar los resultados de las pruebas de las personas cuando se trata de contratar para un puesto en particular. En este caso, es necesario dividir a todos los candidatos en dos grupos: "adecuados" y "no aptos".

La administración bancaria puede utilizar el análisis discriminante para evaluar el estado financiero de los asuntos de los clientes al otorgarles un préstamo. El Banco, de acuerdo con una serie de características, los clasifica en confiables y no confiables.

El análisis discriminante se puede utilizar como un método para dividir un conjunto de empresas en varios grupos homogéneos de acuerdo con los valores de cualquier indicador de producción y actividad económica.

Los métodos de análisis discriminante permiten construir funciones de las características medidas, cuyos valores explican la división de objetos en grupos. Es deseable que estas funciones (características discriminatorias) fue un poco En este caso, los resultados del análisis son más fáciles de interpretar significativamente.

Debido a su simplicidad, el análisis discriminante lineal juega un papel especial, en el que las características de clasificación se eligen como funciones lineales de características primarias.

análisis de conglomerados

Los métodos de análisis de conglomerados permiten dividir el conjunto de objetos estudiados en grupos de objetos "similares", llamados conglomerados.

Palabra grupo de origen inglés - cluster se traduce como cepillo, manojo, grupo, enjambre, racimo.

El análisis de conglomerados resuelve las siguientes tareas:

Realiza la clasificación de los objetos, teniendo en cuenta todos aquellos rasgos que caracterizan al objeto. La posibilidad misma de clasificación nos hace avanzar hacia una comprensión más profunda de la totalidad bajo consideración y de los objetos incluidos en ella;

Establece la tarea de comprobar la presencia de una estructura o clasificación dada a priori en la población existente. Tal verificación hace posible utilizar el esquema estándar hipotético-deductivo de la investigación científica.

La mayoría de los métodos de agrupamiento (grupo jerárquico) son aglomerante(unificación): comienzan con la creación de grupos elementales, cada uno de los cuales consta de exactamente una observación inicial (un punto), y en cada paso posterior, los dos grupos más cercanos se combinan en uno.

El investigador puede establecer el momento de detener este proceso (por ejemplo, especificando el número requerido de grupos o la distancia máxima a la que se logra la unión).

Se puede obtener una representación gráfica del proceso de combinación de clústeres usando dendogramas- un árbol de unión de clústeres.

Considere el siguiente ejemplo. Clasifiquemos cinco empresas, cada una de las cuales se caracteriza por tres variables:

x1– costo promedio anual de los activos fijos de producción, miles de millones de rublos;

x2- costos de material por 1 rub. productos manufacturados, kop.;

x3- el volumen de productos manufacturados, mil millones de rublos.


tabla de muestra máxima conjugación, estimaciones plausibles:

G2= -2 ^ p sch Sht t ■ p w)

tiene una distribución asintótica de χ 2 . Esto se basa en estadísticas. probar la hipótesis de la relación.

Experiencia en procesamiento de datos utilizando A.l. mostró su eficacia como método de análisis dirigido de la tabla multidimensional. conjugación, que contiene (en el caso de una elección significativamente razonable de variables) una enorme, en comparación con las tablas bidimensionales, la cantidad de información de interés para el sociólogo. El método le permite describir sucintamente esta tabla. (en forma de hipótesis sobre las conexiones) y al mismo tiempo analizar en detalle conc. relación. Alabama. se suele aplicar en muchas etapas, en forma de diálogo sociólogo-computadora. Así, A.l. tiene una flexibilidad considerable, brinda la oportunidad de formular varios tipos de suposiciones sobre las relaciones, para incluir la experiencia de un sociólogo en el procedimiento de análisis de datos formales.

Iluminado.: Arriba G. Análisis de la tabla. conjugación M., 1982; Tipología y clasificación en sociol. investigación. M., 1982; Obispo Y.M.M. et ai. Análisis multivariado discreto. Nueva York, 1975; Agresti A. Una introducción al análisis de datos categóricos. Nueva York, 1966.

AUTOMÓVIL CLUB BRITÁNICO. Mirzoev

ANÁLISIS ESTADÍSTICO MULTIVARIANTE- seg. estadísticas matemáticas, dedicado a las matemáticas. métodos destinados a identificar la naturaleza y la estructura de las relaciones entre los componentes del estudio signo de multidimensional y destinado a recibir científica. e implicaciones prácticas. La matriz inicial de datos multidimensionales para realizar A.m.s. suelen servir como resultado de medir los componentes de un atributo multidimensional para cada uno de los objetos de la población estudiada, es decir una secuencia de observaciones multivariadas (ver observación en estadística). Una característica multidimensional se interpreta con mayor frecuencia como una característica multidimensional. condujo-


clasificar al azar, y la secuencia de observaciones multivariadas, como una muestra de la población general. En este caso, la elección del método de procesamiento de la estadística original. los datos se producen sobre la base de ciertas suposiciones con respecto a la naturaleza ley de distribucion característica multidimensional estudiada (ver. Distribución de probabilidad).

1. A.m.s. Distribuciones multivariadas y sus principales. características cubre situaciones en las que las observaciones procesadas son de naturaleza probabilística, es decir, se interpretan como una muestra de acc. la población en general. a la principal Los objetivos de esta subsección incluyen; estimación estadística investigó las distribuciones multivariadas y sus principales. parámetros; propiedades de investigación de la estadística utilizada. calificaciones; estudio de distribuciones de probabilidad para una serie de estadísticas, con la ayuda de las cuales se construyen estadísticas. diferencia de criterios de prueba hipótesis sobre la naturaleza probabilística de los datos multivariados analizados (ver Prueba de hipótesis estadísticas).

2. A.m.s. la naturaleza y estructura de las interrelaciones de los componentes de la característica multidimensional bajo estudio combina los conceptos y resultados inherentes a tales métodos y modelos como análisis de regresión, análisis de dispersión, análisis de covarianza, análisis factorial, análisis latente-estructural, análisis de logología, búsqueda de interacciones. Los métodos que pertenecen a este grupo incluyen ambos algoritmos, main. basado en la suposición de la naturaleza probabilística de los datos, así como métodos que no encajan en el marco de k.-l. modelo probabilístico (estos últimos a menudo se denominan métodos análisis de los datos).

3. A.m.s. la estructura geométrica del conjunto estudiado de observaciones multidimensionales combina los conceptos y resultados inherentes a modelos y métodos tales como análisis discriminante, análisis de conglomerados (ver. Métodos de clasificación, Escala). Nodal para estos modelos yavl. el concepto de una distancia o una medida de proximidad entre los elementos analizados como puntos de algún tipo de

ANÁLISIS CAUSAL


andanzas. En este caso, se pueden analizar tanto los objetos (como puntos especificados en el espacio de características) como las características (como puntos especificados en el espacio de “objetos”).

Valor aplicado A.m.s. consiste en lo principal en servicio a continuación. tres problemas: stat. estudio de dependencias entre los indicadores considerados; clasificación de elementos (objetos) o características; reduciendo la dimensión del espacio de características bajo consideración y seleccionando las características más informativas.

Lit.: Stat. métodos de análisis sociológico. información. M., 1979; Tipología y clasificación en sociol. investigación. M., 1982; Interpretación y análisis de datos en sociología, investigación. M., 1987; Ayvazyan S.A., Mkhitaryan V.S. Estadística aplicada y fundamentos de econometría: Proc. M., 1998; Soshnikova L.A. etc. Estadística multidimensional. análisis en economía. M., 1999; Dubrov AM, Mkhitaryan VS, Troshin L.I. Estadística multidimensional. métodos para economistas y gerentes. M., 2000; Rostovtsev BC, Kovaleva T.D. Análisis sociológico. datos usando stat. paquete SPSS. Novosibirsk, 2001; Tyurin Yu.N., Makarov A.A. Análisis de datos en una computadora. y, 2003; Krysh-tanovsky A. O. Análisis sociológico. datos con el paquete SPSS. M, 2006.

YUN. Tolstova

ANÁLISIS CAUSAL- métodos para modelar relaciones causales entre características utilizando sistemas estadísticos. ecuaciones, más a menudo regresión (ver. análisis de regresión). Hay otros nombres para este campo de métodos bastante extenso y en constante cambio: análisis de ruta, como lo llamó por primera vez su fundador S. Wright; métodos de ecuaciones econométricas estructurales, como es habitual en econometría, etc. Osn. conceptos de A.p. yavl.: diagrama de camino (estructural, causal), coeficiente causal (camino), componentes directos, indirectos e imaginarios de la conexión entre signos. Usado en A.p. el concepto de "relación causal* no afecta fi-


los. problemas asociados con el concepto de "causalidad". Coeficiente causal determinado. bastante operativo. Estera. El aparato permite comprobar la presencia de relaciones causales directas e indirectas entre los signos, así como identificar aquellos componentes de los coeficientes de correlación (ver Fig. Correlación), a-centeno asociado con conexiones directas, indirectas e imaginarias.

El diagrama de ruta refleja gráficamente las relaciones causales y dirigidas hipotéticamente asumidas entre las características. Un sistema de características con enlaces unidireccionales se llama recursivo. Los sistemas causales no recursivos también tienen en cuenta las retroalimentaciones, por ejemplo, dos características de un sistema pueden ser tanto una causa como un efecto entre sí. Todos los signos se dividen en signos-consecuencias (dependientes, endógenos) y signos-causas (independientes, exógenos). Sin embargo, en un sistema de ecuaciones, las características endógenas de una de las ecuaciones pueden ser características exógenas de otras ecuaciones. En el caso de cuatro características, el diagrama recursivo de todas posibles enlaces entre características se parece a:

x2
/ norte
*1 A
GRAMO
A S

Construyendo un diagrama de conexiones yavl. una premisa necesaria de las matemáticas. formulación del sistema stat. ecuaciones que reflejan las influencias presentadas en el diagrama. Principal Ilustraremos los principios de construcción de un sistema de ecuaciones de regresión usando las mismas cuatro características como ejemplo. Yendo en la dirección de las flechas, comenzando desde jeje encontrar la primera endógena

ANÁLISIS CAUSAL


un signo y anotar aquellos signos que lo afectan tanto directa (directamente) como indirectamente (indirectamente) y a través de otros signos. La primera ecuación de regresión estandarizada corresponde al primer rasgo endógeno xj y expresa dependencia Χι de aquellos signos que le afectan, i.e. de Χγ. Así, la primera ecuación tiene la forma: Χι = bi\X\.

Luego revelamos el segundo signo endógeno, to-ry tiene comunicaciones dirigidas a él. Este es un signo de Aj, corresponde a variables exógenas X\ Y Χι, por lo tanto, la segunda ecuación de regresión en forma estandarizada se formula de la siguiente manera: Aj = bcx\+ bpXg etc. Teniendo en cuenta los errores de medición tu el sistema de modelos de regresión estandarizados para nuestro diagrama causal particular es: X\ \u003dUy,¿A? =

- b->\X\+ interfaz de usuario, xt,= 631ΑΊ + poriXi+ Uy, Χα -

- baxi+ binXi+ J43A3 + SCH. Para evaluar los coeficientes b, s, necesita ser resuelto. La decisión existe bajo la condición de que los datos satisfagan una determinada naturaleza. estadística requisitos b$ se denominan factores causales y a menudo se denotan como RU. Eso., R# muestra que la proporción del cambio en la variación del rasgo endógeno, que ocurre cuando cambia el rasgo exógeno j por unidad de desviación estándar de esta característica, siempre que se excluya la influencia de las otras características de la ecuación (ver. análisis de regresión). En otras palabras, P,y tiene un efecto de característica directo j sobre el rasgo D. Efecto indirecto del rasgo j on;) se calcula sobre la base de tener en cuenta todas las rutas de influencia j en i excepto directo.

En el diagrama, la influencia directa de la primera característica sobre la cuarta está representada esquemáticamente por una flecha recta que proviene directamente de Χι A x, representado simbólicamente como 1->4; es igual al coeficiente de influencia causal P, X 2,..., hr La dependencia estrictamente regresiva se puede definir de la siguiente manera. forma.

Dejarte X\, Xr,..., X p - aleatorio
cantidades con una junta dada Razas
probabilidades
si por cada
conjunto largo de valores X λ \u003d x \, X 2= hg,...,
X p \u003d x p matemática condicional. esperar
Dinamarca Υ(χ\, X2,..., Xp) - E(Y/(X)= xj,
Χι = X2, ..., X p \u003d Xp)), entonces la función Υ(Χ],
x2,
..., XP) llamada regresión de magnitud
ns Y por magnitud X\, Xr,..., xr, y ella
gráfico - línea de regresión Y por X\, Xr,
..., X p,
o ecuación de regresión. Zavi
dependencia de Y de ΛΊ, hg....... X pag se manifiesta en

cambio en los valores medios de Vpri de
cambiando X\, Xr........ Cr. Aunque en cada

conjunto fijo de valores X]- xj, xg = xg,» , xp ~ xp la cantidad Τ sigue siendo una variable aleatoria con una definición. dispersión. Para averiguar con qué precisión la regresión estima el cambio en Y con un cambio en ΑΊ, hg,..., xr, el valor promedio de la varianza Y se usa para diferentes conjuntos de valores X\, Xr,..., XP(de hecho, estamos hablando de la medida de dispersión de la variable dependiente alrededor de la línea de regresión).

En la práctica, la recta de regresión suele buscarse en forma de una función lineal Y = bx + biXi + bxxr+ - + bpXp(regresión lineal) que mejor se aproxima a la curva deseada. Esto se hace utilizando el método de mínimos cuadrados, cuando se minimiza la suma de las desviaciones al cuadrado de Y realmente observadas de sus estimaciones de Y (es decir, estimaciones que utilizan una línea recta que pretende representar la dependencia de regresión deseada): w

U (U -U) => min (Ν - tamaño de la muestra), s

Este enfoque se basa en el hecho bien conocido de que la suma que aparece en la expresión anterior toma un mini-nim. valor para el caso cuando Y= Υ(χ\, xr, --, xR). Solicitud

Ejemplo

Hay datos sobre la producción de productos por parte de un grupo de empresas por meses (millones de rublos):

Para identificar la tendencia general en el crecimiento de la producción, ampliaremos los intervalos. Para este propósito, combinamos los datos iniciales (mensuales) sobre la producción en datos trimestrales y obtenemos indicadores de producción para un grupo de empresas por trimestres:

Como resultado de la ampliación de los intervalos, la tendencia general de crecimiento de la producción de este grupo de empresas es distinta:

64,5 < 76,9 < 78,8 < 85,9.

La identificación de la tendencia general de la serie de tiempo también se puede hacer suavizando la serie de tiempo usando método de promedio móvil. La esencia de esta técnica es que los niveles calculados (teóricos) se determinan a partir de los niveles iniciales de la serie (datos empíricos). En este caso, al promediar los datos empíricos, las fluctuaciones individuales se extinguen y la tendencia general en el desarrollo del fenómeno se expresa en forma de una cierta línea suave (niveles teóricos).

La condición principal para aplicar este método es calcular los enlaces promedio móviles (móviles) a partir de un número de niveles de la serie que corresponda a la duración de la dinámica del ciclo observada en la serie.

La desventaja del método de suavizado de series de dinámicas es que los promedios obtenidos no dan regularidades teóricas (modelos) de las series, las cuales estarían basadas en una regularidad expresada matemáticamente y esto permitiría no solo realizar un análisis, sino también para predecir la dinámica de la serie para el futuro.

Una técnica mucho más avanzada para estudiar la tendencia general en series de tiempo es alineación analítica. Cuando se estudia la tendencia general por el método de alineación analítica, se supone que los cambios en los niveles de una serie de dinámicas se pueden promediar con la ayuda de ciertas funciones matemáticas con diversos grados de precisión de aproximación. A través del análisis teórico, se revela la naturaleza del desarrollo del fenómeno, y sobre esta base se selecciona una u otra expresión matemática como el cambio en el fenómeno: a lo largo de una línea recta, a lo largo de una parábola de segundo orden, exponencial (logarítmico) curva, etc

Obviamente, los niveles de las series temporales se forman bajo la influencia combinada de muchos factores a corto y largo plazo, incl. diversos tipos de accidentes. Un cambio en las condiciones para el desarrollo de un fenómeno conduce a un cambio más o menos intenso en los factores mismos, a un cambio en la fuerza y ​​eficacia de su impacto y, en última instancia, a una variación en el nivel del fenómeno bajo estudiar con el tiempo.



Análisis estadístico multivariado- una sección de estadística matemática, dedicada a los métodos matemáticos destinados a identificar la naturaleza y estructura de las relaciones entre los componentes del atributo multidimensional estudiado y destinadas a obtener conclusiones científicas y prácticas. La matriz inicial de datos multidimensionales para dicho análisis suele ser el resultado de medir los componentes de un atributo multidimensional para cada uno de los objetos de la población estudiada, es decir, una secuencia de observaciones multivariadas. característica multidimensional interpretada con mayor frecuencia como una variable aleatoria multivariada y una secuencia de observaciones multivariadas como una muestra de la población general. En este caso, la elección del método de procesamiento de los datos estadísticos iniciales se realiza sobre la base de ciertas suposiciones sobre la naturaleza ley de distribucion característica multidimensional estudiada.

1. Análisis de distribuciones multivariadas y sus principales características cubre situaciones en las que las observaciones procesadas son de naturaleza probabilística, es decir, interpretada como una muestra de la población general correspondiente. Las principales tareas de esta subsección incluyen: estimación estadística de las distribuciones multivariadas estudiadas y sus principales parámetros; estudio de las propiedades de las estimaciones estadísticas utilizadas; estudio de distribuciones de probabilidad para una serie de estadísticas, que se utilizan para construir criterios estadísticos para probar varias hipótesis sobre la naturaleza probabilística de los datos multivariados analizados.
2. Análisis de la naturaleza y estructura de las relaciones entre los componentes del rasgo multidimensional estudiado combina los conceptos y resultados inherentes a tales métodos y modelos como análisis de regresión, análisis de dispersión, análisis de covarianza, análisis factorial, análisis estructural latente, análisis log-lineal, búsqueda de interacciones . Los métodos que pertenecen a este grupo incluyen tanto los algoritmos basados ​​en la suposición de la naturaleza probabilística de los datos como los métodos que no encajan en el marco de ningún modelo probabilístico (estos últimos suelen denominarse métodos de análisis de datos).

3. El análisis de la estructura geométrica del conjunto estudiado de observaciones multidimensionales combina los conceptos y resultados inherentes a modelos y métodos tales como análisis discriminante, análisis de conglomerados, escalamiento multidimensional. Nodal para estos modelos es el concepto de distancia, o medida de proximidad entre los elementos analizados como puntos de algún espacio. En este caso, se pueden analizar tanto los objetos (como puntos especificados en el espacio de características) como las características (como puntos especificados en el espacio de objetos).

El valor aplicado del análisis estadístico multivariante consiste principalmente en atender los siguientes tres problemas:

Problemas de investigación estadística de dependencias entre los indicadores considerados;

Problemas de clasificación de elementos (objetos o características);

Problemas de reducir la dimensión del espacio de características bajo consideración y seleccionar las características más informativas.

Sistema de encendido