Métodos de estimación de componentes de varianza en poblaciones. Una reseña histórica

 

E. León

 

Instituto de Investigaciones Porcinas

Gaveta Postal No.1, Punta Brava

La Habana. Cuba

email: eltanti@yahoo.com

 

 RESUMEN

 

 

Los métodos de estimación de componentes de varianza han experimentado un notable desarrollo a partir de la necesidad de conocer aspectos de gran interés de las poblaciones, como es el caso de los parámetros genéticos de gran utilidad en la evaluación y selección de rebaños genéticos. En este sentido se trabaja en eliminar las problemáticas que han ido surgiendo y cada día los métodos y algoritmos son más precisos y los modelos se ajustan más a la realidad.

 

En la presente revisión se hace un recorrido por la evolución de los métodos de estimación de componentes de varianza desde sus inicios hasta nuestros días. Se hace especial énfasis en los principales métodos (ANOVA, REML, GIBBS) que se han empleado en los últimos años, las virtudes y limitaciones de los mismos, así como los principales paquetes estadísticos que los implementan y que se aplican en la actualidad.

 

Palabras claves: componentes de varianza, parámetros genéticos, evaluación, selección, modelo

 

Título corto: Estimación de componentes de varianza en poblaciones

 

 

 

THE ESTIMATION OF VARIANCE COMPONENTS IN POPULATIONS. A HISTORICAL REVIEW

 

 

SUMMARY

 

 

The methods for estimation of variance components have experienced an outstanding development taking into account the needs for knowing aspects of great interest from populations, as it is the case of genetic parameters of great usefulness in the evaluation and selection or genetic herds. In this sense, work is conducting for the elimination of constraints therefore arising and everyday the methods al algorithms are more precise and the models fit even more to reality.

 

In the present review an enumeration has been made on the evolution of methods for estimation of variance components from its beginning to present times. A special emphasis is made in the main methods (ANOVA, REML, GIBBS) which have been employed during last years, its advantages and constraints, as well as the main statistic softwares supporting it, and applied in present times. 

 

Key words: variance component, genetic parameters, evaluation, selection, model

 

Short title: Estimation of variance components in populatios

 

 

Tabla de contenido

 

Introducción, 24

Un recorrido por la historia de los métodos de estimación de componentes de varianza, 25

ANOVA-Mínimos cuadrados, 26

Método III de Henderson, 27

Máxima verosimilitud restringida (REML), 28

Métodos bayesianos, 31

El muestreo de Gibas, 32

Referencias, 32

 

 

INTRODUCCIÓN

 

 

En todo programa de evaluación genética se requiere de estimados confiables de los parámetros genéticos de la población (Guerra et al 1992), valores imprescindibles en el diseño y evaluación de esquemas alternativos de selección y en la elaboración de índices de selección.

 

El problema que se plantea es asignar un valor a las varianzas y covarianzas de la población con la que se trabajará, a partir de los cuales pueden estimarse parámetros de interés, como son la heredabilidad (h2) o las correlaciones genéticas (rg). La tarea consiste en estimar unos parámetros desconocidos a partir de una base de datos y un modelo adecuado, que permita encontrar los valores más próximos posibles a los valores verdaderos de las varianzas. En términos estadísticos, se trata de buscar estimadores óptimos de las varianzas, es decir de mínimo sesgo y mínima varianza (Caraballo 1997). Luego, a partir de ellos, se pueden determinar los parámetros genéticos de la población, los cuales resultan de vital importancia en cualquier programa de mejora genética, especialmente en la evaluación y la selección de un rebaño genético (Jurado 1997). 

 

Este tipo de análisis presenta varios problemas importantes cuando se trata de datos provenientes de esquemas de selección en varias generaciones y tomados en condiciones ambientales no controladas. Estos problemas aparecen enumerados en la tabla 1.

 

Tabla 1. Problemas presentados en análisis de poblaciones

1. Las estimacioness son válidas cuando hay una sola generación de selección

2. Sesgos por selección, ambiente común, efectos maternos, efectos ambientales no

     comunes

3. Utilización ineficiente de toda la información disponible

4. Estimación de componentes no genéticos

 

.

A continuación se brinda una breve panorámica de la evolución de los métodos de estimación de componentes de varianza, realizada a partir de cinco trabajos de gran relevancia en el tema, y que fueron publicados por Scheffé (1956), Anderson (1978), Searle (1988), Searle (1989) y Wang (1998). Posteriormente se abordan los principales métodos de estimación de componentes de varianza, para lo cual se tomó como principales materiales de consulta y referencia, los textos del tema “Estimación de Componentes de Varianza” impartidos en el VII y VIII Curso Internacional sobre Mejora Genética Animal (Caraballo 1997; 1998).

 

UN RECORRIDO POR LA HISTORIA DE LA ESTIMACION DE COMPONENTES DE VARIANZA

 

Las primeras referencias que se conocen de estimación de efectos fijos fueron informadas por Legendre (1806) y Gauss (1809), reconocidos como los padres independientes del método de mínimos cuadrados (Plackett 1972; Searle 1989). Scheffé (1956) informaba como un hecho de gran interés, que ambos trabajos, al igual que la primera aparición de estudios de componentes de varianza de Airy (1861) y  Chauvenet (1863) aparecieron en libros de astronomía.

 

A estos intentos iniciales del siglo XIX, le siguieron los trabajos de genética cuantitativa desarrollados por Fisher en la Estación Experimental de Rothamsted (Fisher 1918; 1922). El propio Fisher (1925), informó lo que significó una de las grandes contribuciones a los modelos de componentes de varianza, que en sus inicios se conoció como método de estimación de análisis de varianza (ANOVA). Sus trabajos pueden expresarse (con la terminología moderna) como un modelo aleatorio de clasificación simple para datos balanceados.

 

A los trabajos de Fisher le siguieron los de Tippet (1931) que esclareció y extendió el método de estimación ANOVA y mostró algunos estimadores explícitos (Tippet 1937). También Yates y Zacopanay (1935) realizaron pruebas de campo en cereales con modelos de orden mayor, mientras Newman et al (1935) consideraba la eficiencia de los diseños de bloques al azar y cuadrado latino, y hacia extensivo el uso de modelos lineales (incluyendo modelos mixtos) en lo que se considera la primera aparición reconocida de los modelos mixtos (Searle 1989).

 

Por otra parte, aunque Newman et al (1935) empleaba el término “componentes de error” y Fisher (1935) el de “componentes de variación”, es Daniels (1939) quien emplea por primera vez el término ”componentes de varianza”. Este trabajo de Daniels, y uno de Winsor y Clark (1940) pueden ser considerados el sólido comienzo de los trabajos de componentes de varianza de los últimos 50 años (Searle 1989). A estos trabajos les siguió Snedecor (1940) con una discusión de los  estimados de correlaciones intraclases, parecido al informado por Fisher (1938). También por estos años Jackson (1939) utilizó por primera vez la palabra “efecto”, tan comúnmente empleada en la actualidad en los modelos lineales, y describió su modelo con un factor aleatorio y otro no aleatorio, en clara referencia a un modelo mixto, aunque no le denomina por este término, lo cual no ocurriría hasta ocho años más tarde por Eisenhart (1947).

 

Muchos de los avances en esta área de estimación de componentes de varianza, fueron motivados por problemas prácticos. Los genetistas, particularmente, se convirtieron en los principales usuarios de los modelos de componentes de varianza para aplicarlos a humanos, ganado vacuno, cerdos, carneros y pollos. Un trabajo muy importante sobre el desarrollo en los años subsiguientes es el de Khuri y Sahai (1985).

 

Ahora bien, la mayoría de estas aplicaciones genéticas eran con datos no balanceados o desequilibrados. En este sentido, Henderson (1953) constituye el trabajo clásico sobre estimación de componentes de varianza para datos no balanceados (Searle 1989). Con posterioridad a este trabajo, vino un período de evaluaciones de estos métodos, entre ellas las deCrump (1951), Searle (1956, 1961, 1968) y Blischke (1966, 1968). 

 

Los problemas para datos desequilibrados fueron superados en el período de 1967-1972 cuando tres diferentes (pero similares) métodos fueron desarrollados (tabla 2).

 

 

Tabla 2. Metódos para resolver problemas para datos desequilibrados

Estimación de máxima verosimilitud (ML), basada en asumir la normalidad de los datos, desarrollada por Hartley y Rao (1967)

Estimación de máxima verosimilitud restringida (REML), inicialmente desarrollada por Anderson y Bancroft (1952) y Thompson (1962) para datos balanceados, y extendida a diseños de bloques o datos no balanceados en general por Paterson y Thompson (1971)

Estimación insesgada de mínimos cuadrados bajo normalidad (MINQUE) de Lamotte (1973) y Rao (1971)

 

 

Son precisamente los métodos REML, los más empleados en la última década en lo que a estimación de parámetros genéticos se refiere. Sin embargo, en los últimos años los métodos bayesianos unidos a técnicas de cálculo como el muestreo de Gibbs se han extendido al área de la estimación de componentes de varianzas con excelentes resultados (Sorensen et al 1994). Ya en el sexto congreso mundial de genética aplicada a la producción animal, la gran mayoría de los trabajos presentados en la sección “Estimación de parámetros genéticos”, versaban sobre esta temática (Wang 1998; Hofer y Ducrocq 1998; Korsgaard 1998; Rodriguez-Zas et al 1998; Lund y Jensen 1998, entre otros), lo cual debe tenerse en cuenta para futuros trabajos en esta área de estimación de parámetros genéticos.

 

 

ANOVA-MINIMOS CUADRADOS

 

 

El análisis de varianza (ANOVA) es una técnica estadística que consiste en descomponer la variabilidad total observada, expresada como suma de cuadrados total, en otras sumas de cuadrados asociadas a los factores que han sido incluidos en el modelo. La finalidad primera del ANOVA era la de comparar medias asociadas a diferentes tratamientos o niveles de factores que incidían en la producción o dato observado. Posteriormente, se vio la utilidad del ANOVA como vía de estimación de componentes de la varianza asociados a los factores aleatorios del modelo.

 

Debe tenerse en cuenta que las propiedades para datos equilibrados son el ser insesgados, que haya una mínima varianza, y la existencia de probabilidad de estimaciones negativas.

 

En la mayoría de los casos de análisis de datos provenientes de esquemas de mejora, no se produce la situación de tener un diseño equilibrado, donde cada nivel de los factores que intervienen en le modelo tienen el mismo número de observaciones. Además, existen modelos que contienen un número más o menos elevado de factores ambientales, considerados frecuentemente como fijos, y factores genéticos aleatorios. Es este entonces un análisis de datos desequilibrados bajo modelos mixtos. En estos casos, la extensión de la técnica de ANOVA para estimar componentes de varianza, fue propuesta por Henderson (1953) y se conocen con el nombre de métodos I, II y III de Henderson.

 

Las tres variantes o métodos de Henderson (1953) se basan en el mismo principio, la utilización de formas cuadráticas asociadas a la tabla ANOVA, que igualadas a su valor esperado proporcionan estimadores de los componentes de varianza asociados a los factores aleatorios del modelo. El método I utiliza formas cuadráticas análogas a las clásicamente empleadas en ANOVA, pero adaptadas al caso desequilibrado. El Método II es una adaptación del Método I que toma en cuenta la existencia de efectos fijos en el modelo. El Método III usa las sumas de cuadrados derivadas de ajustar el modelo original y submodelos del mismo. Este es el método de aplicación más general a cualquier tipo de modelo y el que utiliza de manera general en los principales paquetes de programas estadísticos.

 

 

METODO III DE HENDERSON

 

 

Para describir el método como tal, se puede tomar la formulación general de un modelo mixto:

 

Y = Xb + Za + e

 

El mismo se podría representar de la forma:

 

Y = Wb + e          donde: 

 

W = [ X    Z ]    y    b =   ß

                                     a 

 

Las caracterísiticas del procedimiento en este método aparecen tabuladas en la tabla 3, y sus propiedades son el ser insesgado, no hay mínima varianza, las estimaciones son negativas, es desconocida la distribución de los estimadores, y finalmente, no existe un único procedimiento.

 

Tabla 3. Procedimiento del método III de Henderson

1. Obtener las formas cuadráticas (y’By)

2. Obtener las esperanzas de las formas cuadráticas E(y’By)

3. Igualar las formas cuadráticas a las esperanzas de sus formas cuadráticas

4. Resolver el sistema de ecuaciones en los componentes de varianza resultantes

 

 

Entre los principales paquetes de programas que implementan este tipo de análisis se encuentra el HARVEY (Harvey 1990).

 

 

 

 

MAXIMA VEROSIMILITUD RESTRINGIDA (REML)

 

 

El método de máxima verosimilitud (ML, Maximum Likelihood en inglés), es un método clásico de estimación de parámetros (no necesariamente varianzas) asociados a funciones de densidad o probabilidad de variables aleatorias. La verosimilitud asociada a una muestra de variables aleatorias es la función de densidad conjunta de estas variables para los valores observados, considerada como una función de los parámetros que la definen. Los estimadores máximo verosímiles (ML) son los valores de los parámetros que hacen máxima la probabilidad (verosimilitud), con la restricción  de que los mismos deben estar dentro del llamado espacio paramétrico o rango de variación natural del parámetro.

 

Se plantea que el estimador ML suele producir estimaciones sesgadas de la varianza porque no tiene en cuenta los grados de libertad, que se pierden al estimar la media. Para evitar este problema surgió la idea de los estimadores de máxima verosimilitud restringida (REML, Restricted Maximum Likelihood). Esta idea introducida de acuerdo con Searle (1989) por Thompson (1962) y formalizada de forma general para diseños desequilibrados  y distribución normal por Patterson y Thompson (1971), consiste en factorizar la verosimilitud completa en dos partes independientes, una de las cuales  no contiene la media, asumiendo que por usar esta parte de la verosimilitud no se pierde información con respecto a usar la verosimilitud completa.  La verosimilitud restringida, se corresponde en realidad con la verosimilitud asociada a una combinación lineal de las observaciones, cuya media es nula y cumple las condiciones mencionadas anteriormente (ser un factor independiente del otro con el que se reproduce la verosimilitud completa y no suponer pérdida de información con respecto a usar los datos originales). Las propiedades del método se muestran en la tabla 4.

 

 

Tabla 4. Propiedades del método de máxima verosimilitud restringida (REML)

1.  Es estimador de funciones de parámetros

2. Las propiedades son asintóticas

3. Las propiedades son consistentes: con muestras suficientemente grandes

    son prácticamente insesgados

4. Son eficientes: son la mínima varianza que pueden tener los estimadores

    insesgados de la verosimilitud1

5.  Distribución normal

6. Control de sesgo debido a la selección: los estimadores ML son los mismos si se

    usan las distribuciones derivadas con o sin selección, siempre que los datos en

    que se ha basado ésta se incluyan en el análisis (Thompson 1973; Schaeffer

    1986; Fernando y Gianola 1990)

1 Las caracterísiticas de consistencia y eficiencia hacen que las mismas sean

  óptimas desde el punto de vista de minimizar el sesgo y la varianza para muestras suficientemente grandes

 

 

En los últimos años, la técnica REML ha sido el método disponible más preciso para alcanzar buenos resultados en la estimación de parámetros genéticos, pues tiene en cuenta las relaciones entre los animales y da valor a la selección y al desecho (Gianola et al 1986; Hill y Meyer, 1988). Sin embargo, la REML requiere computacionalmente de un modelo animal individual (Graser et al 1987; Meyer 1986a). Varias estrategias pueden ser utilizadas, particularmente para  análisis  de rasgo múltiple, como las transformaciones canónicas, las cuales transforman  rasgos correlacionados en no correlacionados que pueden utilizarse en el análisis univariado (Itoh e Iwaisaki 1990). Las virtudes y defectos de la técnica REML aparecen en la tabla 5.

 

 

Tabla 5. Virtudes y defectos de la técnica REML

Virtudes

1. Proporciona las mismas soluciones que el ANOVA para datos equilibrados

2. Porpociona siempre estimaciones dentro del espacio paramétrico

3. Las propiedades estadísticas son mejores que los métodos de Henderson

4. Hay control del sesgo debido a la selección

Defectos

1. Difícil de computar

2. Require de procedimientos iterativos

3. El garantizar la convergencia no es seguro

 

 

Este último aspecto dependerá en gran medida del procedimiento o algoritmo de cálculo que se utilice para maximizar la verosimilitud y obtener las estimaciones de los componentes de varianza. Si bien todos los algoritmos se basan en procesos iterativos, los mismos difieren en la estrategia de cálculo, lo cual se traduce en la velocidad de convergencia (número de iteraciones requeridas para obtener la solución), necesidades de cálculo (limitante para grandes masas de datos) y en la restricción de obtener o no estimas dentro del espacio paramétrico en cada iteración (condición para obtener estimadores ML).

 

En sentido general, no hay algoritmo que prevalezca sobre los otros y existen varios trabajos de comparación de los mismos, entre ellos, los de Meyer (1986b), Groeneveld y Kovac (1990), Misztal (1994a,b), Madsen et al (1994), Thompson (1995) y Johnson y Thompson (1995). En la tabla 6 se muestran los principales métodos de cálculo y algoritmos alternativos  empleados en el área de la mejora genética animal.

 

 

Tabla 6.  Principales métodos de cálculo y algoritmos alternativos para la mejora genética

               animal

 

1. Algoritmos libres de derivadas o DF (derivate free en inglés), según Harville (1977) y Meyer (1988)

Requieren de más iteraciones (lenta convergencia) y pueden tener problemas en cuanto a las necesidades de cálculo cuando el número de parámetros a estimar aumenta

 

2. Algoritmos de primeras derivadas o EM (expectation maximization en inglés), de acuerdo con Dempster et al (1977)

De convergencia lenta, no da la precisión de las estimaciones

 

Algoritmos de segundas derivadas

Exigentes de cálculo, rápida convergencia, convergencia no garantizada y producen una estimación de la varianza del estimador

 

 

Los algoritmos de segundas derivadas, se dividen a su vez en tres métodos: Newton Raphson, Fisher Scoring e Información Promedio (AI, average information en inglés). Los tres se basan en el empleo de primeras y segundas derivadas para encontrar los estimados de parámetros genéticos que maximizan la función de verosimilitud. Si se toma el  algoritmo de la función REML descrito por Graser et al (1987):

 

L = -1/2 ( C + ln /V/ + ln / x’V-1x / + y’Py ), donde      

 

P = V-1 - V-1x (x’V-1x) -1 x’V-1

 

En particular Newton-Raphson emplea una matriz de segundas derivadas denominada Hessiana (H) para maximizar la función de verosimilitud. En el Fisher Scoring, H es reemplazada por un valor esperado de la misma (E[H]), donde –E[H] se denomina matriz de información. Ambas matrices H y E[H] pueden escribirse según Searle et al (1992) de la siguiente manera:

 

H =   2L   = ½ tr (PV  PV) – y’ (PV  PV) Py

       ¶qi ¶qj              ¶qi     ¶qj               ¶qi     ¶qj

 

E[H] = -½ tr (PV  PV)

                       ¶qi     ¶qj

 

Johnson y Thompson (1995) notaron que en ambas expresiones, una vez desarrolladas, las trazas eran promedios y realizaron una simplificación algebraica de modo que se puede realizar su cómputo de manera más sencilla en la mayoría de los casos. A esta simplificación denominaron matriz de información promedio (AI) y de manera general el algoritmo es considerado un intermedio entre el Newton-Raphson y el Fisher-Scoring. Su formulación es:

 

AI= ½ ( H + E[H] ) = -½  y’ (PV  PV) Py

                                              ¶qi     ¶qj

 

Ellos mismos (Johnson y Thompson 1995) encontraron que este método convergía cinco veces más rápido que el DFREML y 15 veces más rápido que el EM-REML. Ello se debía  a su habilidad en el cálculo de esta matriz de información promedio, que le facilita una rápida convergencia (Madsen et al 1994; Johnson y Thompson 1995; Jensen y Madsen 1996; y Jensen et al 1997). Como conclusión se refiere que los algoritmos libres de derivadas (DF) requieren de más iteraciones que los de primeras derivadas (EM) o de segundas derivadas (NR o AI).

 

Los principales programas que implementan la metodología REML se relacionan a continuación (tabla 7).

 

 

Tabla 7.  Programas que implementan la metodología REML

 

1. VCE (Groeneveld 1997): es un programa para la estimación de componentes de varianza. El

    mismo en su actual versión permite 3 métodos de cálculo: REML usando gradiente analítico

   (primeras derivadas), REML por Montecarlo EM y Muestreo Gibbs. Este paquete de programas

   es gratuito para su uso con fines de investigación

 

2. AIREML (Johnson 1993): consta de 4 programas para la estimación de componentes de varianza

    por el método REML, bajo el algoritmo de cálculo de matriz de información promedio (Average

    Information en inglés) con segundas derivadas del procedimiento quasi-Newton

 

3. DFREML (Meyer 1988): Es un paquete de programas para la estimación de componentes de

    varianza empleando el algoritmo libre de derivadas. Este sistema también autoriza su empleo

    de manera gratuita con fines de investigación

 

4. DMUAI (Jensen y Madsen 1996): Es un sistema para estimar componentes de varianza,

    empleando matriz de información promedio.

 

5. MTDFREML (Boldman et al 1995): Es un conjunto de programas para la estimación de

     componentes de varianza para análisis multivariado por algoritmo libre de derivadas (DF-

     REML)

.

 

METODOS BAYESIANOS

 

 

La estimación máximo verosímil (REML) presenta algunas limitaciones, como es el caso de la estimación de parámetros de interés en presencia de parámetros parásitos (como es el caso de la estimación de componentes de varianza cuando desconocemos la media de la distribución), en cuyos casos se requiere de recurrir a verosimilitudes restringidas, no siempre fáciles de deducir. Así mismo la distribución  de los estimadores solo es conocida de forma asintótica y la obtención de intervalos de confianza puede producir intervalos “absurdos” que contengan valores del parámetro fuera del espacio paramétrico.

 

En estos casos la estimación bayesiana proporciona un marco de trabajo más flexible y general. Así mismo gracias al desarrollo de técnicas de muestreo de Monte Carlos, la estimación bayesiana puede ser computacionalmente más asequible que la utilización de técnicas REML especialmente cuando se usan modelos más complejos.

 

La idea base de la teoría bayesiana consiste en considerar que tanto los parámetros (en este caso las varianzas) como los efectos aleatorios y los datos tienen distribuciones asociadas. De esta forma, cualquier información que se posea sobre la probabilidad de los valores de los parámetros puede introducirse en proceso de estimación y aumentar la calidad de información disponible y, por tanto, la precisión de las estimaciones. Por ejemplo, si se trata de estimar una varianza, se sabe que la probabilidad de valores negativos es nula y además se puede saber alrededor de qué valores esperamos que esté el verdadero valor por experimentos previos o referencias bibliográficas. Así como la estimación REML hace uso de la función de verosimilitud, o funciones que describen la probabilidad de observar unos valores de la variable medida dados los parámetros desconocidos, la inferencia bayesiana hace uso de la distribución posterior obtenida a partir de la función de verosimilitud, que describe la información contenida en los datos con respecto al parámetro de interés, y de la distribución a priori que se  asigna a los parámetros.

 

El teorema de Bayes da la expresión básica para calcular la distribución a posteriori de los parámetros, q, sobre los que se quiere hacer la inferencia, dada la información observada, y:

 

f(q/y) = f(y/q) f(q)  ,     donde

                 f(y)

 

f(y/q) es la verosimilitud asociada a los datos, dados los parámetros de interés

f(q)    es la información a priori  sobre dichos parámetros

f(y)    es la función de probabilidad marginal de los datos para cualquier valor de los parámetros

 

La estimación y otros aspectos de la inferencia sobre los parámetros de interés (test de hipótesis, intervalos de confianza, et cetera) se hace a partir de la distribución posterior. Por ejemplo, una estimación de los parámetros de interés se puede hacer a partir de la media de la distribución posterior, q = E(f(q/y)), o de la moda, q = Maxf(q/y), o de la mediana.

 

Sin embargo, llevar a cabo estas estimaciones de forma analítica o por métodos numéricos es normalmente imposible, especialmente en nuestro caso, cuando trabajamos con grandes masas de datos. Existen en la actualidad diferentes algoritmos basados en la utilización de la técnica de muestreo aleatorio o de Montecarlo, que facilitan la obtención de las distribuciones marginales sobre las que se llevará a cabo la inferencia. El algoritmo más empleado en nuestra área es el de muestreo de Gibbs.

 

 

EL MUESTREO DE GIBBS

 

 

Mediante el muestreo de Gibbs se pueden obtener muestras de distribución conjunta de varias variables (f(x,y,z)), así como de las distribuciones marginales (f(x), f(y), f(z)) cuando se conocen las distribuciones condicionales (f(x/y,z), f(y/x,z), f(z/x,y), o bien, f(x,y/z), f(x,z/y), f(y,z/x). El muestreo de Gibbs consiste en:

 

1.      Inicializar para valores de las variables x=x0, y=y0, z=z0

2.      Extraer muestras xi de f(x/y i-1,z i-1)

 yi de f(y/x i,z i-1)

 zi de f(z/x i,y i)

3.      Repetir el paso 2 k veces.

4.      Cuando k tiende a infinito, entonces:

       (xk, yk, zk) ~ f(x,y,z)                  muestra de la distribución conjunta

        xk ~ f(x)  ;  yk ~ f(y)  ; zk ~ f(z) muestras de las distribuciones marginales

 

5.      Repetir del paso 1 al 3 m veces.

6.      Al final del proceso se obtienen m muestras xi k, yi k, zi k     i=1,..., m

 

Una vez que se tiene un número suficientemente elevado de muestras (m tiende a infinito), se pueden obtener diferentes medidas de interés sobre la distribución marginal mediante el teorema ergódico (ley de los grandes números). A partir del mismo se pueden obtener las funciones de la media, la varianza, et cétera.

 

La implementación del muestreo de Gibbs para realizar la inferencia bayesiana se trata desde el punto de vista computacional, en la resolución de las ecuaciones BLUP un elevado número de veces (hasta que se tienen suficientes puntos para obtener la distribución posterior), lo que computacionalmente suele ser más asequible que la implementación de los métodos REML, que requieren la inversión de matrices de gran tamaño, con un elevado costo computacional.

 

En el trabajo de Wang et al (1993) se ilustra el tipo de información que suministra un análisis bayesiano vía muestreo de Gibbs sobre los parámetros de interés.

 

 

referencias

 

Airy, G.B. 1861. On the Algebraical and Numerical Theory of Errors of Observations and Combinations of Observations.  MacMillan Company. Londres

 

Anderson, R.D. 1978. Studies on the estimation of variance components. Ph.D Thesis. Cornell University. Ithaca

 

Anderson, R.D. y Bancroft, T.A. 1952. Statistical Theory in Research. McGraw-Hill. New York

 

Blischke, W.R. 1966. Variance of estimates of variance components in a three way classification. Biometrics, 22:553-565

 

Boldman, K.G., Kriese, L.A., Van Vleck, L.D., Van Tassell, C.P. y Kachman, S.D. 1995. A manual for use of MTDFREML. A set of programs to obtain estimates of variances and covariance. ARS, USDA. Washington D.C.

 

Caraballo, M.J. 1997. Estima de componentes de varianza. Kn: VII Curso Internacional sobre Mejora Genética Animal. Madrid, pp 38

 

Caraballo, M.J. 1998. Estima de componentes de varianza. In: VIII Curso Internacional sobre Mejora Genética Animal. Madrid, pp 47

 

Chauvenet, W. 1863. A manual of Spherical and Practical Astronomy: Theory and use of Astronomical Instruments. Philadelphia. Lippincott.

 

Crump, S.L. 1951. The present status of variance components analysis. Biometrics, 7:1-16.

 

Daniels, H.E. 1939. The estimation of components of variance. Journal of the Royal Statistics Society, 6:186-197

 

Dempster, A.P., Laird, N.M. y Rubin, D.B. 1977. Maximum likelihood from incomplete data via tha EM algorithm. Journal of the Royal Statistics Society, 39:1-38

 

Eisenhart, C. 1947. The assumptions underlying the analysis of variance. Biometrics, 3:1-21

 

Falconer, D.S. 1989. Introduction to Quantitative Genetics. Longman Group. Harlow. Londres

 

Fernando, R.N. y Pianola, D. 1990. Statistical inferences in populations undergoing selection or non-random mating. In: Advances in Satistical Methods for Genetic Improvement of Livestock. Ed. Gianola y Hammond, p 437-449

 

Fisher, R.A. 1918. The correlation between relatives on the supposition  of Mendelian inheritance. Transactions of the Royal Society (Edinburgh), 52:399-433

 

Fisher, R.A. 1922. On the mathematical foundations of theoretical. Transactions of the Royal Society (London) 222:309-368

 

Fisher, R.A. 1925. Statistical Methods for Research Workers (1st edition). Oliver and Boyd. Edinburgh

 

Fisher, R.A. 1935. Discussion of Newman at al. 1935. Journal of the Royal Society. Serie B, 2:154-155

 

Fisher, R.A. 1938. Statistical methods for research workers (7st edition). Oliver and Boyd. Edinburgh

 

Gauss, K.F. 1809. Theoria Motus Corporum Celestrium in Sectionibus Conics Solem Ambientium. Perthes and Besser. Hamburg

 

Gianola, D., Foulley, J.L. y Fernando, R.L. 1986. Prediction of breeding value when variance are not knowm. Genetics and Selective Evolution, 18:475-484

 

Graser, H.V., Smith, S.P. y Tier, B. 1987. A derivative-free approach for estimating variance components in animal model by REML. Journal of Animal Science, 64:1362-1370

 

Groeneveld, E. y Kovac, M. 1990. A note on multiple solutions in multivariate restricted maximum likelihood covariance components estimation. J. Dairy Sci. 73:2221-2229.

 

Groeneveld,  E. 1998.  Componentes de varianza REML. In: VIII Curso Internacional sobre Mejora Genética Animal. VCE v.4.2. Madrid, pp 20

 

Hartley, H.O. y Rao, J.N.K. 1967. Maximum Likelihood estimation for the mixed analysis of variance model. Biometrika, 54:93-108

 

Harvey, W.R. 1990. User's Guide for LSMLMW, Mixed Model Least-squares and Maximun Likelihood Computer Program. The Ohio State University Press. Columbus

 

Harville, D.A. 1977. Maximum likelihood approaches to variance component estimation and to related problems. Journal of American Statistics Association, 72:320-340

 

Henderson, C.R. 1953. Estimation of variance and covariance components. Biometrics, 9:226-252.

 

Hill, W.G. y Meyer, K. 1988. Developments in methods for breeding value and parameter estimation in livestock. In: Animal Breeding Opportunity. An Occasional Publication  of the British  Society of Animal Production jointly with the  British Poultry Breeders Roundtable, 12:81-98

 

Hofer, A. y Ducrocq, V.P. 1998. Accuracy of Laplace's method to marginalize posterior densities of parameters of a multiple trait animal model. In: Proceedings of the 6th World Congress of Genetics Applied to Livestock Production 25:489

 

Itoh, Y. e Iwaisaki, H. 1990.  Restricted  best  lineal  unbiased prediction  using  canonical  transformation.  Genetics and  Selective  Evolution, 22:339-347

 

Jackson, R.W.B. 1939. Reliability of mental tests. British Journal of Psychology. 29:267-287

 

Jensen, J. y Madsen, P. 1996. A User's Guide to DMU, a Package for Analyzing Multivariate Mixed Models. National Institute of Animal Science, Research Center Foulum. Tjele

 

Jensen, J., Mantysaari, E.A., Madsen, P. y Thompson, R. 1997. REML estimation of co(variance) components in multivariate mixed linear models using average information. Journal of Indian Science of Agricultural Statistics, 49:215-236

 

Johnson, D.L. 1993. AIREML. Livestock Improvement Corporation. Hamilton

 

Johnson, D.L. y Thompson, R. 1995. REML estimation of variance components for univariate animal models using sparse matrix techniques and average information. Journal of Dairy Science, 78: 449-456

 

Jurado, J.J. 1997. Modelos Mixtos. In: VII Curso Internacional sobre Mejora Genética Animal. Madrid, pp 38

 

Korsgaard, I.R., Sorensen, D.A. y Gianola, D. 1998. Multivariate analysis of censored normal, ordered categorical and gaussian traits using Gibbs sampling and data augmentation. In: Proceedings of the 6th World Congress of Genetics Applied to Livestock Production, 25: 493

 

Khuri, A.I. y Sahai, H. 1985. Variance components analysis: a selective literature survey. International Statistical Review, 53:259-300

 

LaMotte, L.R. 1973. Quadratic estimation of variance components. Biometrics, 29:310-330

 

Legendre, L.R. 1806. Noevelles méthodes pour la détermination des orbites des cometes. Courcier. Paris

 

Lund, M. y Jensen, C.S. 1998. Multivariate updating of genotypes in a Gibbs sampling algorithm in the mixed inheritance model. In: Proceedings of the 6th World Congress of Genetics Applied to Livestock Production, 25: 521

 

Madsen, P., Jensen, J. y Thompson, R. 1994. Estimation of co(variance) componente by REML in multivariate mixed linear model using average of observed and expected information. In: Proceedings of the 5th World Congress of Genetics Applied to Livestock Production. Gueph, 22:19-22

 

Meyer, K. 1986a. REML to estimate genetic parameters-in practice. Proceedings of the 3rd World Congress of Genetics Applied to Livestock Production, 12:454-459

 

Meyer, K. 1986b. Between algorithms: a short cut restricted maximum likelihood procedure to estimate variance components. Journal of Dairy Science, 691904-1916

 

Meyer, K. 1988. DFREML-  A  set  of  programs to estimate variance components  under  an  individual animal model. Journal of Dairy Science, 71(supplement 2):33-34

 

Misztal, I. 1994a. Comparison of computing properties of derivate and derrivate-free algorithms in variance components estimation by REML. Zeitschrift für Tierzucht und Zuechtungsbiologies 111: 346-355

 

Misztal, I. 1994b. Comparison of software packages in animal breeding. In: Proceedings of the 5th World Congress of Genetics Applied to Livestock Production. Gueph, 22:3-10

 

Newman, J.K., Iwaszkiewicz, C. y Kolodziejczyk, S.T. 1935. Statistical problems in agricultural experimentation.  Journal of the  Royal Statistics Society, 2:107-154

 

Patterson, H.D. y Thompson, R. 1971. Recovery of inter-block information when block size are unequal. Biometrika, 58:545-554

 

Plackett, R.L. 1972. Studies in the history of probability and statistic. The discovery of the method of least squares. Biometrika, 59:239-251

 

Rao, C.R. 1971. Estimation of variance and covariance components-MINQUE theory. Journal of Multivariate Analysis, 1:257-275

 

Rodriguez-Zas, S.L., Gianola, D. y Shook, G.E. 1998. Bayesian analysis of nonlinear mixed effects models for somatic cell score lactation patterns in Holsteins. In: Proceedings of the 6th World Congress of Genetics Applied to Livestock Production, 25: 497

 

Scheffé, H. 1956. Alternative method for tha analysis of variance. Annals of Mathematics and Statistics, 27:251-271

 

Schaeffer, L.R. 1986. Estimation of variance components under a selection model. Journal of Dairy Science, 70:661-671

 

Searle, S.R. 1956. Matrix methods in components of variance and covariance analysis. Annals of Mathematics and Statistics, 27:737-748

 

Searle, S.R. 1961. Variance components in the unbalanced two-way nested classification. Annals of Mathematics and Statistics, 32:1161-1166

 

Searle, S.R. 1968. Another look at Henderson’s methods of estimating variance components. .Biometrics, 24:749-778

 

Searle, S.R. 1988. Mixed models and unbalanced data: wherefrom, whereat and whereto? Statistics: Theory and Methods, 17:935-968

 

Searle, S.R. 1989. Variance components- some history and a summary account of estimation methods. Journal of Animal Breeding and Genetics, 106:41-62

 

Searle, S.R., Casella, G. y McCulloch, C.E. 1992. Variance Components. John Wiley and Sons, New York

 

Snedecor, G.W. 1940. Statistical Methods. 3rd Edition, Ames

 

Sorensen, D., Andersen, S., Jensen, J., Wang, C.S. y Gianola, D. 1994. Inference about genetic parameters using Gibbs sampler. In: Proceedings of the 5th World Congress of Genetics Applied to Livestock Production, 18:321-328

 

Thompson, W.A. 1962. The problem of negative estimates of variance components. Annals of Mathematics and Statistics, 33:273-289

 

Thompson, R. 1973. The estimation of variance and covariance components with an application when records are subject to culling. Biometrics, 29:527-550

 

Thompson, R. 1995. Estimation of multivariate genetic parameters. In: 46th Annual Meeting of the European Association of Animal Production. Prague

 

Tippet, L.H.C. 1931. The methods of Statistic. (1st edition). William and Norgate. Londres

 

Tippet, L.H.C. 1937. The methods of Statistic. (2st edition). William and Norgate. Londres

 

Wang, C.S., Rutledge, D. y Gianola, D. 1993. Implementation issues in Bayesian analysis in animal breeding. In: Proceedings of the 6th World Congress of Genetics Applied to Livestock Production, 25:481

 

Wang, C.S. 1998. Implementation issues in Bayesian analysis in animal breeding. In: Proceedings of the 6th World Congress of Genetics Applied to Livestock Production, 25: 481

 

Winsor, C.P. y Clarke, G.L. 1940. Statistical study of variation in the catch of plankton nets. Journal of Marine Research, 3:1-34

 

Yates, F. y Zacopanay, I. 1935. The estimation of the efficiency of sampling with special reference to sampling for yield in cereal experiments.  Journal of Agricultural Science, 25:545-577

Regresar