Análise Probabilistica de Semântica Latente
Análise Probabilística de Semântica Latente (APSL), também conhecida como Indexação Probabilística de Semântica Latente (IPSL, especialmente na área de recuperação de informação) é uma técnica estatística para a análise de co-ocorrência de dados. Em efeito, pode-se derivar uma representação de poucas dimensões das variáveis observadas com relação sua afinidade para determinadas variáveis ocultas. A técnica evoluiu da análise de semântica latente.
Comparado com a análise de semântica latente padrão que decorre de álgebra linear e redimensionamento de matrizes (geralmente através de uma decomposição em valores singulares), APSL é baseada em uma decomposição mista derivada de um modelo latente de classes.
Modelo
editarConsiderando as observações sob a forma de co-ocorrências de palavras e documentos, PLSA modela a probabilidade de cada co-ocorrência como uma mistura de distribuições multinomais condicionalmente independentes:
c representa um tópico e w é uma palavra. Note que o número de tópicos é um hiper-parâmetro que deve ser escolhido com antecedência e não é estimado a partir dos dados. A primeira formulação é a de simetria, onde e são gerados a partir da classe latente de forma semelhante (usando as probabilidades condicionais e ). A segunda formulação é a de assimétria, onde, para cada documento , classe latente é escolhida condicionalmente para o documento de acordo com a probabilidade e uma palavra é gerada a partir dessa classe, de acordo com . Apesar de ter usado palavras e documentos neste exemplo, a co-ocorrência de qualquer par de variáveis discretas pode ser modelada exatamente da mesma maneira.
Assim, o número de parâmetros é igual a . O número de parâmetros cresce linearmente com o número de documentos. Além disso, embora o Análise Probabilistica de Semântica Latente seja um gerador de modelo de documentos, este não é um modelo generativo de novos documentos.
Seus parâmetros são extraídas utilizando o algoritmo EM.
Aplicação
editarAPSL pode ser usado em uma configuração discriminatória, através de kernels fisher.[1]
APSL tem aplicações na recuperação de informações e de filtragem, processamento de linguagem natural, aprendizado de máquina, e áreas afins.
É relatado que modelos de aspectos utilizados no APSL tem problemas de overfitting.[2]
Extensões
editar- Extensões Hierárquicas:
- Geradores de modelos: outros modelos foram desenvolvidos para tratar de um problema do APSL, que não é um gerador de modelo para novos documentos. Por exemplo, Alocação Latente de Dirichlet trata desse problema.
- De ordem mais elevada de dados: Embora isso raramente é discutido na literatura científica, APSL se estende, naturalmente, à ordem superior (dados de três modos e superior), por exemplo, pode-se modelar co-ocorrências ao longo de três ou mais variáveis. Na formulação simétrica acima, isto é feito simplesmente pela adição de distribuições de probabilidade condicional para essas variáveis adicionais. Esta é a analogia probabilística para fatoração de tensores não-negativos.
História
editarEste é um exemplo de um modelo de classes latentes, e está relacionado[5][6] para fatoração de matrizes não negativas. A presente terminologia foi criada em 1999 por Thomas Hofmann.[7]
Veja também
editar- Processamento de termos compostos
- Alocação de Pachinko
- Espaço vetorial
Referências e notas
editar- ↑ Thomas Hofmann, Learning the Similarity of Documents : an information-geometric approach to document retrieval and categorization, 12, pp-914-920, , 2000
- ↑ «Latent Dirichlet Allocation» (PDF). Journal of Machine Learning Research. 3. doi:10.1162/jmlr.2003.3.4-5.993
- ↑ Alexei Vinokourov and Mark Girolami, A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections, in Information Processing and Management, 2002
- ↑ Eric Gaussier, Cyril Goutte, Kris Popat and Francine Chen, A Hierarchical Model for Clustering and Categorising Documents Arquivado em 4 de março de 2016, no Wayback Machine., in "Advances in Information Retrieval -- Proceedings of the 24th BCS-IRSG European Colloquium on IR Research (ECIR-02)", 2002
- ↑ Chris Ding, Tao Li, Wei Peng (2006). "Nonnegative Matrix Factorization and Probabilistic Latent Semantic Indexing: Equivalence Chi-Square Statistic, and a Hybrid Method. AAAI 2006"
- ↑ Chris Ding, Tao Li, Wei Peng (2008). "On the equivalence between Non-negative Matrix Factorization and Probabilistic Latent Semantic Indexing"
- ↑ Thomas Hofmann, Probabilistic Latent Semantic Indexing, Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999