Modelo mistura

Em estatística, um modelo mistura é um modelo probabilístico para representar a presença de sub-populações dentro de uma população geral, sem exigir que um conjunto de dados observados devam identificar as sub-populações que pertençam a uma observação individual. Formalmente um modelo mistura corresponde à distribuição mistura que representa a probabilidade de distribuição de observações na população em geral. No entanto, enquanto os problemas associados com "distribuições mistura" relacionadas às derivações da população geral daquelas das sub-populações, "modelos mistura" são usados para realizar inferências estatísticas sobre as propriedades das sub-populações dadas apenas observações sobre a amostragem populacional, sem informações de identidade de sub-população.

Algumas maneiras de implementar modelos de mistura envolvem etapas que atribuem determinados postulados de identidades de sub-população para observações individuais (ou pesos para essas sub-populações), caso em que estas podem ser consideradas como um tipo de aprendizagem não supervisionada ou procedimentos em clusters. No entanto, nem todos os processos de inferência envolvem tais etapas.

Modelos de mistura não deve ser confundidos com os modelos para dados composicionais, i.e., dados cujos componentes são constrangidos a soma a um valor constante (1, 100%, etc.).

Estrutura de um modelo mistura

Modelo mistura geral

Um modelo mistura típico de finitas dimensões é um modelo hierárquico consistindo dos seguintes componentes:

N variáveis aleatórias correspondentes às observações, cada uma assumindo-se ser distribuída de acordo com uma mistura de K componentes, com cada componente pertencentes à mesma família paramétrica de distribuições, mas com parâmetros diferentes
N correspondentes variáveis latentes aleatórias especificando a identidade do componente mistura de cada observação, distribuídas de acordo a uma distribuição categórica K-dimensional
Um conjunto de K pesos mistura, cada um dos quais é uma probabilidade (um número real entre 0 e 1), todos os quais com soma igual a 1

Referências

Titterington, D., A. Smith, and U. Makov (1985) "Statistical Analysis of Finite Mixture Distributions," John Wiley & Sons. ISBN 0471907634
McLachlan, G.J. and Peel, D. (2000) Finite Mixture Models, Wiley. ISBN 0471006262