Na computação, uma palavra vazia (ou stop word, em inglês) é uma palavra que é removida antes ou após o processamento de um texto em linguagem natural.[1] Não existe uma lista universal de palavras vazias usadas por todas as ferramentas de processamento de linguagem natural e nem todas ferramentas fazem uso de uma lista dessas palavras. Algumas ferramentas, inclusive, evitam remover as chamadas "palavras vazias" para dar suporte à busca de sentenças.

Qualquer grupo de palavras pode ser escolhido como grupo de "palavras vazias" de acordo com o objetivo do processamento. Para alguns motores de busca, são selecionadas como palavras vazias as palavras mais comuns da língua e palavras funcionais, como o, a, em e no. Embora a utilização de palavras vazias possa simplificar a análise do texto, o uso delas pode causar problemas por impedir a distinção de nomes que fazem uso delas para formar alguma entidade representativa do discurso, como em 'O Teatro Mágico', 'A Bela e a Fera' e 'Firefox OS'. Outros motores de busca removem as palavras mais comuns da busca com o intuito de melhorar o desempenho das buscas.[2]

Referências

  1. Rajaraman, Anand; Ullman, Jeffrey David. Data Mining. [S.l.: s.n.] p. 1-17. doi:10.1017/cbo9781139058452.002 
  2. Stackoverflow: "One of our major performance optimizations for the "related questions" query is removing the top 10,000 most common English dictionary words (as determined by Google search) before submitting the query to the SQL Server 2008 full text engine. It’s shocking how little is left of most posts once you remove the top 10k English dictionary words. This helps limit and narrow the returned results, which makes the query dramatically faster".
  Este artigo sobre computação é um esboço. Você pode ajudar a Wikipédia expandindo-o.