Análise Probabilistica de Semântica Latente

Análise Probabilística de Semântica Latente (APSL), também conhecida como Indexação Probabilística de Semântica Latente (IPSL, especialmente na área de recuperação de informação) é uma técnica estatística para a análise de co-ocorrência de dados. Em efeito, pode-se derivar uma representação de poucas dimensões das variáveis observadas com relação sua afinidade para determinadas variáveis ocultas. A técnica evoluiu da análise de semântica latente.

Comparado com a análise de semântica latente padrão que decorre de álgebra linear e redimensionamento de matrizes (geralmente através de uma decomposição em valores singulares), APSL é baseada em uma decomposição mista derivada de um modelo latente de classes.

Modelo

editar
 
Notação que representa o modelo APSL ( formulação "assimétrica"). é o documento, é um tópico retirado da distribuição de tópicos do documento e é uma palavra retirada da distribuição de palavras deste tópico, . O e são variáveis observáveis, o tópico é uma variável latente

Considerando as observações sob a forma de co-ocorrências de palavras e documentos, PLSA modela a probabilidade de cada co-ocorrência como uma mistura de distribuições multinomais condicionalmente independentes: 

c representa um tópico e w é uma palavra. Note que o número de tópicos é um hiper-parâmetro que deve ser escolhido com antecedência e não é estimado a partir dos dados. A primeira formulação é a de simetria, onde e são gerados a partir da classe latente  de forma semelhante (usando as probabilidades condicionais e ). A segunda formulação é a de assimétria, onde, para cada documento , classe latente é escolhida condicionalmente para o documento de acordo com a probabilidade e uma palavra é gerada a partir dessa classe, de acordo com . Apesar de ter usado palavras e documentos neste exemplo, a co-ocorrência de qualquer par de variáveis discretas pode ser modelada exatamente da mesma maneira.

Assim, o número de parâmetros é igual a . O número de parâmetros cresce linearmente com o número de documentos. Além disso, embora o Análise Probabilistica de Semântica Latente seja um gerador de modelo de documentos, este não é um modelo generativo de novos documentos.

Seus parâmetros são extraídas utilizando o algoritmo EM.

Aplicação

editar

APSL pode ser usado em uma configuração discriminatória, através de kernels fisher.[1]

APSL tem aplicações na recuperação de informações e de filtragem, processamento de linguagem natural, aprendizado de máquina, e áreas afins.

É relatado que modelos de aspectos utilizados no APSL tem problemas de overfitting.[2]

Extensões

editar
  • Extensões Hierárquicas:
    • Assimétrica: MASHA ("Análise Multinomial Assimétrica e Hierárquica")[3]
    • Simétrica: HPLSA ("Análise Probabilística e Hierárquica de Semântica Latente")[4]
  • Geradores de modelos: outros modelos foram desenvolvidos para tratar de um problema do APSL, que não é um gerador de modelo para novos documentos. Por exemplo, Alocação Latente de Dirichlet trata desse problema.
  • De ordem mais elevada de dados: Embora isso raramente é discutido na literatura científica, APSL se estende, naturalmente, à ordem superior (dados de três modos e superior), por exemplo, pode-se  modelar co-ocorrências ao longo de três ou mais variáveis. Na formulação simétrica acima, isto é feito simplesmente pela adição de distribuições de probabilidade condicional para essas variáveis adicionais. Esta é a analogia probabilística para fatoração de tensores não-negativos.

História

editar

Este é um exemplo de um modelo de classes latentes, e está relacionado[5][6] para fatoração de matrizes não negativas. A presente terminologia foi criada em 1999 por Thomas Hofmann.[7]

Veja também

editar

Referências e notas

editar
  1. Thomas Hofmann, Learning the Similarity of Documents : an information-geometric approach to document retrieval and categorization, 12, pp-914-920, , 2000
  2. «Latent Dirichlet Allocation» (PDF). Journal of Machine Learning Research. 3. doi:10.1162/jmlr.2003.3.4-5.993 
  3. Alexei Vinokourov and Mark Girolami, A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections, in Information Processing and Management, 2002
  4. Eric Gaussier, Cyril Goutte, Kris Popat and Francine Chen, A Hierarchical Model for Clustering and Categorising Documents Arquivado em 4 de março de 2016, no Wayback Machine., in "Advances in Information Retrieval -- Proceedings of the 24th BCS-IRSG European Colloquium on IR Research (ECIR-02)", 2002
  5. Chris Ding, Tao Li, Wei Peng (2006). "Nonnegative Matrix Factorization and Probabilistic Latent Semantic Indexing: Equivalence Chi-Square Statistic, and a Hybrid Method. AAAI 2006"
  6. Chris Ding, Tao Li, Wei Peng (2008). "On the equivalence between Non-negative Matrix Factorization and Probabilistic Latent Semantic Indexing"
  7. Thomas Hofmann, Probabilistic Latent Semantic Indexing, Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999