O que você acha da Mineração?

Não, não vou fazer uma análise da Vale (do Rio Doce) hoje não (que frase negativa, não acha?). Vou falar sobre outro tipo de mineração: a de textos. Na verdade, mineração de opiniões, encontradas em textos.

É uma das especialidades da PLN (Processamento de Linguagem Natural), um ramo da IA (Inteligência Artificial) que estuda a linguagem tal qual os humanos utilizam, no dia-a-dia, falando, escrevendo, ouvindo, pensando (calma lá…). Uma busca pela compreensão da linguagem humana pela máquina[bb] sem a necessidade de traduções manuais. O objetivo dessa ciência é fazer com que as máquinas possam um dia conversar com humanos assim como os humanos falam entre si.

Para que isso possa acontecer, a máquina precisa analisar sintaticamente os textos (se estão escritos de forma correta, dentro da estrutura base da linguagem), e  semanticamente (se o texto tem algum ‘sentido’, no tocante às relações entre as palavras do mesmo texto).

Mas, além dessas análises, podemos analisar um texto e classificá-lo em categorias pré-definidas (clustering), onde a máquina pode ajudar (e muito bem já) a saber sobre o que um dado texto fala, e também podemos analisar a Orientação Semântica do texto: sua opinião, sobre o tema que trata, se aquele texto fala positivamente ou negativamente sobre o tema abordado em seu conteúdo.

Nessa vertente, desenvolvo um trabalho, começado em meu TCC, e continuado desde então, sobre mineração de opiniões de conteúdo comum na web, que é, a meu ver, o principal canal de comunicação de nossa época, e principalmente dos jovens. Esse trabalho discursa sobre um sistema que extrai esse conteúdo (textos sobre entidades, como empresas, organizações, pessoas), e aplica um método computacional para extrair essas orientações (em relação à entidade), mostrando ao usuário um parecer sumarizado no período analisado. Resumindo: o sistema pode analisar se estão falando bem ou mal de uma empresa em blogs, portais, etc. É ou não interessante para elas? É o que toda empresa deveria buscar na Web.

Trago esse assunto aqui pois será abordado no mais recente artigo que será publicado no WTI – 2009 (II International Workshop on Web and Text Intelligence) , a ser realizado em Setembro desse ano. Um evento muito legal para quem trabalha com Web e tecnologia. Torçam pela aprovação galera, e quem puder estar lá, até breve!