P. Saleiro, S. Amir, M.J. Silva, C. Soares, “POPmine: Tracking Political Opinion on the Web”, In proceedings of the 14th IEEE International Conference on Ubiquitous Computing and Communications, Liverpool, UK, 2015.
Abstract:The automatic content analysis of mass media in the social sciences has become necessary and possible with the raise of social media and computational power. One particularly promising avenue of research concerns the use of opinion mining. We design and implement the POPmine system which is able to collect texts from web-based conventional media (news items in mainstream media sites) and social media (blogs and Twitter) and to process those texts, recognizing topics and political actors, analyzing relevant linguistic units, and generating indicators of both frequency of mention and polarity (positivity/negativity) of mentions to political actors across sources, types of sources, and across time.
Não é segredo para ninguém que o universo das redes sociais tem vindo a ganhar terreno no espetro político. Essa importância acentua-se ainda mais nos períodos de campanha eleitoral: assessores de imprensa e consultores de comunicação dos líderes partidários desenvolvem verdadeiros planos de ação com vista à conquista de votos nas franjas de eleitorado adepto das redes sociais. Mas qual o verdadeiro impacto dessas estratégias de comunicação no twitter e nos blogues? Como fazer a análise das tendências e de sentimento das mensagens que circulam nas redes sociais?
Investigadores da Universidade do Porto – através da Faculdade de Engenharia (FEUP) e do Laboratório SAPO/U.Porto – e de várias outras universidades portuguesas desenvolveram uma ferramenta capaz de medir a frequência com que os líderes partidários são mencionados no twitter, nos textos dos media e em artigos de blogues. Os dados recolhidos desde 2011 podem ser consultados em www.popstar.pt .
O debate televisivo de 9 de setembro representou mesmo um máximo histórico de menções a líderes partidários desde 2011. No total, António Costa e Pedro Passos Coelho contabilizaram 8702 menções no twitter durante o período 19-23h. Nos media online contabilizaram cerca de 114 notícias.
Comparando o debate radiofónico emitido pela Rádio Renascença, Antena 1 e TSF com o televisivo de 9 de setembro, o número de tweets mencionando pelo menos um dos líderes partidários no período 09-13h é bastante menor – 2985. Esta diferença poderá indicar que o meio de difusão e o horário do debate resultaram num impacto menos significativo nas redes sociais. Verificou-se ainda que as palavras mais associadas aos dois políticos foram terrenos, dívida, milhões, arrogância, Segurança Social e tensão. Quanto aos media online, o debate de ontem representou mais 30 publicações online, contabilizando-se 144.
Como chegar a estes dados?
A recolha e o processamento dos dados são efectuados através da plataforma POPmine, desenvolvida pela FEUP e o Laboratório SAPO/U.Porto. “A plataforma segue cerca de 100 mil utilizadores do twitter classificados como portugueses, notícias online de mais de 50 publicações nacionais e também blogues nacionais. Utiliza técnicas de Data Mining sendo capaz de identificar personalidades mencionadas nos textos, tais como políticos ou jogadores de futebol. Desta forma é possível criar um índice de popularidade nas redes sociais e outros media dessas personalidades”, explica Pedro Saleiro, estudante de doutoramento na FEUP e investigador nos Laboratório SAPO/U.Porto.
O investigador alerta ainda para a necessidade de ler os resultados com cuidado: “Os dados utilizados, assim como em qualquer estudo, como, por exemplo, as sondagens, têm limitações. Por exemplo, neste momento não é possível avaliar a representatividade da amostra da twitosfera portuguesa. As técnicas utilizadas também têm limitações. Por exemplo, a medição de sentimento é um problema muito complexo e para o qual não há ainda uma solução definitiva”.
Eugénio Oliveira, Professor Catedrático do Departamento de Engenharia Informática da FEUP e coordenador científico dos Laboratório SAPO/U.Porto. afirma que “este projeto se enquadra numa linha de investigação que visa extrair conhecimento de grandes volumes de dados disponíveis online.”
Recorde-se que este trabalho foi desenvolvido no âmbito do projecto POPSTAR, apoiado pela Fundação para a Ciência e Tecnologia. A equipa é composta por investigadores do Instituto de Ciências Sociais da ULisboa, do INESC-ID, da Faculdade de Engenharia da Universidade do Porto e do Núcleo de Investigação em Políticas Económicas da Universidade do Minho.
Pedro Saleiro, Luís Rei, Arian Pasquali, Carlos Soares, Jorge Teixeira, Fábio Pinto , Mohammad Nozari, Catarina Félix, Pedro Strecht. (2013) “POPSTAR at RepLab 2013: Name ambiguity resolution on Twitter” CLEF 2013 Evaluation Labs and Workshop – Online Working Notes. 23-26 September, Valencia – Spain.
Abstract: Filtering tweets relevant to a given entity is an important task for online reputation management systems. This contributes to a reliable analysis of opinions and trends regarding a given entity. In this paper we describe our participation at the Filtering Task of RepLab 2013. The goal of the competition is to classify a tweet as relevant or not relevant to a given entity. To address this task we studied a large set of features that can be generated to describe the relationship between an entity and a tweet. We explored different learning algorithms as well as, different types of features: text, keyword similarity scores between enti- ties metadata and tweets, Freebase entity graph and Wikipedia. The test set of the competition comprises more than 90000 tweets of 61 entities of four distinct categories: automotive, banking, universities and music. Results show that our approach is able to achieve a Reliability of 0.72 and a Sensitivity of 0.45 on the test set, corresponding to an F-measure of 0.48 and an Accuracy of 0.908.
O POPSTAR (Public Opinion and Sentiment Tracking, Analysis, and Research) é um projecto de investigação cujo objectivo é desenvolver ferramentas de recolha, medição e agregação de opiniões políticas e económicas veiculadas no Twitter, na blogosfera e nas notícias, assim como o de comparar os dados assim gerados com indicadores mais convencionais de opinião pública, nomeadamente os obtidos através de inquéritos por questionário (sondagens).
Financiado pela Fundação para a Ciência e a Tecnologia desde 2012 está a ser desenvolvido pelo Instituto de Ciências Sociais da ULisboa, INESC-ID, Faculdade de Engenharia da Universidade do Porto e Núcleo de Investigação em Políticas Económicas da Universidade do Minho, e tem por base a plataforma POPmine desenvolvida pela FEUP e os SAPO Labs UP.
O projecto POPSTAR atraíu recentemente a atenção dos media com o lançamento do seu novo website: Público, TVI24.
Gráficos extraídos do website do projecto POPSTAR
Abaixo encontra-se mais informação sobre o site do POPSTAR e sobre dois projectos de investigação financiados pelo SAPO Labs decorrentes de suas extensões naturais.
No site do POPSTAR podem encontrar:
1. Tendências na opinião pública tal como captadas pelas Sondagens, seja em termos de intenções de voto nos principais partidos seja de avaliação da actuação dos principais líderes políticos. O método inovador que agrega os dados de diferentes fontes foi desenvolvido pelo Instituto de Ciências Sociais da Ulisboa e o Núcleo de Investigação em Políticas Económicas da Universidade do Minho. Os dados serão actualizados sempre que saia uma nova sondagem e os todos os seus resultados sejam conhecidos, na imprensa ou no depósito na ERC.
2. Tendências no Buzz sobre os principais líderes político-partidários, ou seja, na frequência (absoluta e relativa) com que são mencionados no Twitter, nas notícias online ou na blogosfera. Os dados vêm de uma plataforma denominada POPmine, desenvolvida pela Faculdade de Engenharia da Universidade do Porto e os SAPO Labs UP. Com estes dados, podemos acompanhar dia a dia a “notoriedade” dos líderes políticos, determinar que dias foram “picos” de cobertura para cada um deles e perceber em que medida vão sendo mais ou menos mencionados em comparação uns com os outros e em três suportes distintos. Esta informação é actualizada diariamente.
3. Tendências no Sentimento em relação aos principais líderes político-partidários no Twitter. Analisando a polaridade de cada tweet, ou seja, determinando se este expressa um sentimento positivo, negativo ou neutro em relação a cada um dos alvos, é possível construir indicadores globais que indicam tendências. Nesta fase, utilizamos dois indicadores possíveis: um rácio (transformado) de menções positivas sobre negativas e o cálculo do share de menções negativas. Para determinar a polaridade de cada tweet, utiliza-se oOpinionizer, uma ferramenta de análise de sentimento em mensagens do Twitter, fruto de trabalho de Investigação e Desenvolvimento do grupo DMIR do INESC- ID Lisboa. Esta informação é actualizada diariamente.
As ramificações de utilização da plataforma POPmine são variadas e profundas e é natural pensar em extensões a vários casos de uso relevantes. Nessa linha de trabalho, foram recentemente aprovados na Call de Financiamento de 2013 dos SAPO Labs dois novos projectos relacionados:
POPmine — onde se pretende melhorar a plataforma POPmine através da (i) implementação de classificadores de sentimento para os media sociais e texto noticioso, (ii) análise do grafo social para classificação da autoridade e influência dos utilizadores de redes sociais e por fim (iii) análise estatística das séries temporais obtidas a partir das tarefas anteriores; no fim deste projecto, deverá ser possível classificar o impacto de uma notícia na opinião pública expressa nos media sociais relativamente a uma dada entidade mencionada na notícia;
PoliticAnalytics — onde se pretende encontrar formas de agregar a frequência (buzz) e o sentimento das mensagens de forma a obter tendências relevantes para a previsão de sondagens.
Uma equipa liderada pela FEUP mas incluindo também elementos da FCUP e da Universidade de Lisboa e também dos laboratórios Labs Sapo, LIACC, INESC TEC e INESC ID obteve uma excelente classificação competição RepLab 2013: primeiro lugar nas tarefas de Filtering e Opinion Mining de acordo com algumas medidas de avaliação e em terceiro lugar de acordo com outras, num total de 11 equipas.
A equipa baseada na U.Porto tem a particularidade e incluir estudantes de vários dos seus cursos de mestrado e doutoramento, incluindo PRODEI, MAP-tele, PDCC, MIEIE e MCC, bem como bolseiros dos Labs SAPO e INESC TEC. Isto ilustra bem a forma como a U.Porto tem fortalecido as suas competências na área de data science, cuja importância para as empresas e para a sociedade é cada vez maior.
Esta equipa competiu na tarefa de Filtering, com o objetivo de criar métodos automáticos de desambiguação de entidades (empresas, celebridades, …) em Tweets. O método desenvolvido utiliza técnicas de processamento de linguagem natural e algoritmos de aprendizagem automática de forma a classificar os Tweets como relacionados ou não com uma dada entidade.
O RepLab é uma competição no âmbito do CLEF 2013 e tem como objectivo a monitorização da reputação de entidades na rede social Twitter.
Esta participação foi feita no âmbito de dois projetos financiados pela FCT, REACTION e POPSTAR.