O projeto Dpikt incide sobre a área da recuperação de informação multimédia, com ênfase na ilustração automática de conteúdos textuais. Representando uma das provas de conceitos de uma tese de doutoramento realizada no Labs SAPO/UP, o protótipo desenvolvido aborda a questão da grande escala, ao indexar textual e visualmente uma coleção de quase dois milhões de fotos jornalísticas e respetivos metadados.
O sistema recomenda potenciais fotos candidatas para ilustrar os textos fornecidos, e permite a exploração visual da coleção com base nas propriedades de cor, textura, contorno e disposição espacial dos vários elementos presentes nas imagens. Este projeto foi financiado pela FCT e pelo SAPO Labs.
O projeto “Juggle” pretende abordar a área de pesquisa de informação musical, focado na tarefa de geração automática de playlists. A música tornou-se parte essencial da vida quotidiana, e existem atualmente soluções variadas para abordar tarefas como identificação, tagging e recomendação. Cada ouvinte tem o seu gosto musical, que varia consoante o estado de espírito, local em que se encontre e em função do que vai ouvindo nas rádios ou lhe é recomendado por amigos.
O serviço MusicBox disponibiliza aos seus utilizadores acesso a um número bastante elevado de músicas, com playlists criadas manualmente ou baseadas nas tracks mais ouvidas/recentes. Analisando o feedback dos utilizadores, as características áudio e a informação de contexto, desenvolveu-se software especializado na geração automática de playlists que vai de encontro aos gostos dos ouvintes e que permite melhorar a experiência de utilização nos serviços existentes, suportando a descoberta de música.
O maior desafio neste projeto foi sem dúvida a larga escala, embora a multimodalidade dos dados tenha sido também um desafio na criação de modelos capazes de combinar características provenientes de três principais fontes: utilizadores, conteúdo áudio e contexto. A abordagem utilizada no Juggle centrou-se na modelação suportada num grafo de conhecimento e na utilização duma base de dados escalável adaptada à resolução de problemas com base em travessias de grafos. Assim, conseguiu-se obter um motor de recomendação se música, extensível com novas características, introduzindo novas ligações e nós no grafo.
[button link=”http://labs.sapo.pt/wp-content/uploads/2013/06/devezas-juggle-v0.2.pdf” style=”download” color=”silver”]Juggle: hybrid Large-Scale Music Recommendation[/button]
P.Saleiro, L.Sarmento, ”Piaf vs Adele: Classifying encyclopedic queries using automatically labeled training data“, Open Research Areas in Information Retrieval (OAIR 2013), 10th International Conference in the RIAO series, May 2013
Encyclopedic queries express the intent of obtaining information typically available in encyclopedias, such as biographical, geograph- ical or historical facts. In this paper, we train a classifier for detect- ing the encyclopedic intent of web queries. For training such a clas- sifier, we automatically label training data from raw query logs. We use click-through data to select positive examples of encyclopedic queries as those queries that mostly lead to Wikipedia articles. We investigated a large set of features that can be generated to describe the input query. These features include both term-specific patterns as well as query projections on knowledge bases items (e.g. Free- base). Results show that using these feature sets it is possible to achieve an F1 score above 87%, competing with a Google-based baseline, which uses a much wider set of signals to boost the rank- ing of Wikipedia for potential encyclopedic queries. The results also show that both query projections on Wikipedia article titles and Freebase entity match represent the most relevant groups of features. When the training set contains frequent positive examples (i.e rare queries are excluded) results tend to improve.
Coelho, F., J. Devezas, and C. Ribeiro (2013). Juggle: Large-scale Discovery in Music Recommendation. In Proceedings of the 10th International Conference in the RIAO Series (OAIR 2013), Lisbon, Portugal.
[button link=”http://josedevezas.com/publications/coelho-juggle_large_scale_discovery_music_recommendation-OAIR2013.pdf” style=”download” window=”yes”]Download do paper[/button]
Abstract: Today’s offer of audio content exceeds the human capability of manually searching datasets with hundreds of songs, demanding automated tools capable of handling music recommendation when faced with large-scale collections. In this work, we address the playlist generation and song discovery tasks with large-scale datasets. It is possible to quickly obtain playlists and explore collections with example- based queries using audio features, lyrics and tags. We developed a music discovery prototype to demonstrate this content based approach. This demo is based on the Million Song Dataset, a large-scale collection of audio features and associated text data comprising almost 300 GB of in- formation.
Coelho, F., J. Devezas, and C. Ribeiro (2013). Large-scale Crossmedia Retrieval for Playlist Generation and Song Discovery. In Proceedings of the 10th International Conference in the RIAO Series (OAIR 2013), Lisbon, Portugal.
[button link=”http://josedevezas.com/publications/coelho-cross_media_retrieval_playlist_generation_song_discovery-OAIR2013.pdf” style=”download” window=”yes”]Download do paper[/button]
Abstract: To explore vast collections of audio content, users require automated tools capable of providing music search and rec- ommendation even when faced with large-scale collections. Collaborative-filtering recommenders rely on user-generated information and may be hindered by the lack of users or a bias for certain popular genres, enclosing users in an infor- mation bubble. Audio content analysis, on the other hand, is a reliable source of audio similarity, used in tasks such as music classification. For highly interactive tasks, however, the performance of analysis algorithms becomes an issue. In this work, we address the playlist generation and song discovery tasks on large-scale datasets. We generate playlists and explore the collections with example-based queries using audio features, lyrics and tags. Approximate indexing and cross-media reranking are used for eciency. Audio content is mapped to textual representations that can be handled by information retrieval libraries. We explored the feasibility of this content-based approach in the Million Song Dataset, a large-scale collection of audio features and associated text data comprising almost 300 GB of information. The proposed strategy can be used indepen- dently as a content-based music retrieval system and as a component for hybrid recommender systems.
Neste projeto pretende-se estudar e caraterizar as pesquisa realizadas no portal SAPO e que têm origem em dispositivos móveis. O objetivo principal consiste em perceber se os hábitos de pesquisa dos utilizadores variam em função do dispositivo utilizado. Mais concretamente, pretende-se perceber se o uso de dispositivos móveis por parte dos utilizadores resulta em padrões de pesquisa diferentes daqueles observados em utilizadores com PCs tradicionais.
Este trabalho dá continuidade a um estudo realizado em 2011 sobre os padrões de pesquisa dos utilizadores do portal SAPO (ver refs.). Com esta proposta, pretende-se aprofundar a caraterização anteriormente realizada tendo agora como foco os utilizadores de dispositivos móveis.
A utilização de dispositivos móveis no acesso à web está em forte crescimento, sendo hoje uma aposta importante na generalidade das empresas ligadas a este meio. Um estudo detalhado sobre os hábitos de pesquisa dos utilizadores destes dispositivos permitirá perceber quais são as rotinas destes utilizadores e, mais importante, adaptar os produtos existentes, em particular o serviços de pesquisa genérico.
Gustavo Laboreiro, Matko Bošnjak, Luís Sarmento, Eduarda Mendes Rodrigues, Eugénio Oliveira (2013). “Determining language variant in microblog messages”, in Proceedings of the 28th Annual ACM Symposium on Applied Computing 2013, Volume I, ACM, ISBN 978-1-4503-1656-9, pp. 902-907.
Abstract: It is difficult to determine the country of origin of the author of a short message based only on the text. This is an even more complex problem when more than one country uses the same native language. In this paper, we address the specific problem of detecting the two main variants of the Portuguese language — European and Brazilian — in Twit- ter micro-blogging data, by proposing and evaluating a set of high-precision features. We follow an automatic classifica- tion approach using a Na ̈ıve Bayes classifier, achieving 95% accuracy. We find that our system is adequate for real-time tweet classification.
O projeto “Visage” propõe o desenvolvimento de um sistema de reconhecimento facial de personalidades. Dada uma foto contendo figuras famosas, pretende-se que o sistema detete as faces presentes e apresente uma lista de possíveis entidades. Com base neste sistema será possível desenvolver aplicações de pesquisa visual capazes de encontrar fotos de uma personalidade específica ou apresentar, para uma foto de rosto fornecida pelo utilizador, a celebridade ou figura pública mais parecida.
A inovação deste projeto está ligada ao estudo do impacto de filtros visuais e de informação de contexto no processo de reconhecimento facial. A utilização de um filtro de “abstração”, que simplifique o conteúdo visual destacando apenas a informação essencial, poderá melhorar a captura das características essenciais e remover informação redundante. Por seu lado, a utilização de informação de contexto poderá aumentar os níveis de confiança no reconhecimento de celebridades ao considerar a sua correlação. Se algumas entidades são fotografadas frequentemente juntas, essa informação poderá auxiliar o sistema em casos de dúvida.
Esta proposta enquadra-se no tema 2.1 “Reconhecimento facial de celebridades” sugerido pelo SAPO. Enquadra-se academicamente na continuação da investigação na área da pesquisa de informação multimédia, visão e aprendizagem computacional no âmbito do Labs SAPO/UP. O projeto terá como “deliverables” um sistema/API de reconhecimento facial
The social media services that have emerged over the past decade have changed the way in which many of us communicate. Consequently, they became an object of various data analyses, such as information extraction and summarization, social network analysis, opinion mining, among others. The data behind these services is vast and keeps growing at immense speed from day to day. Twitter is one of the greatest examples and as a micro-blogging platform has vast potential to become a collective source of intelligence that can be used to obtain opinions, ideas, facts, and sentiments. This project aims to extend the work being developed in the TwitterEcho II project, through the design and integration of a data analytics layer into the current TwitterEcho research platform. The project will initially focus on integrating existing text and social network analysis modules (text pre-processing filters, language classification, opinion mining, topic modelling and influencers detection) into the TwitterEcho architecture and technologies (hadoop-based). The project will also focus on the development of data visualisations for charactering activity patterns and user behavior in Twitter communities.
Atividade deste projeto [postlist tags=”twitterecho”]
O projeto “Juggle” pretende abordar a área de pesquisa de informação musical, focado na tarefa de geração automática de playlists. A música tornou-se parte essencial da vida quotidiana, e existem atualmente soluções variadas para abordar tarefas como identificação, tagging e recomendação. Cada ouvinte tem o seu gosto musical, que varia consoante o estado de espírito, local em que se encontre e em função do que vai ouvindo nas rádios ou lhe é recomendado por amigos.
O serviço MusicBox disponibiliza aos seus utilizadores acesso a um número bastante elevado de músicas, com playlists criadas manualmente ou baseadas nas tracks mais ouvidas/recentes. Analisando o feedback dos utilizadores, as características áudio e a informação de contexto, espera-se desenvolver software especializado na geração automática de playlists que vá de encontro aos gostos dos ouvintes e permita melhorar a experiência de utilização nos serviços existentes.
O processo de seleção foi concluído em outubro de 2012.
Encontram-se abertos concursos para a atribuição de bolsas SAPO para investigação e desenvolvimento em diferentes áreas. Estas bolsas estão associadas a projetos em curso ou em fase de arranque no Laboratório SAPO da Universidade do Porto.
Procuramos candidatos motivados e interessados em desenvolver investigação em Engenharia Informática. As bolsas são apropriadas para Finalistas, Licenciados e Mestres em Engenharia Informática, ou área afins. O processo de seleção terá em consideração o currículo do candidato e a entrevista.
A candidatura é apresentada aos responsáveis do laboratório com uma manifestação de interesse no projeto e motivação do candidato, e resulta na marcação de uma entrevista com o responsável do projeto na FEUP. O processo de seleção decorre até ao final de setembro de 2012. Os pedidos de esclarecimento sobre cada projeto podem ser enviados ao seu responsável.
Descrição Sumária das Bolsas a Concurso
1. Extração de informação de capas de jornais e revistas
(responsável: Sérgio Nunes, FEUP)
Bolsa de 6 meses, renovável por igual período, focada no estudo, implementação e avaliação de soluções para a extração de informação de capas de jornais e revistas existentes em formato digital. Um aspeto particular a estudar prende-se com o reconhecimento automático de rostos nesta coleção.
2. Caracterização de perfis de utilização da web
(responsável: Sérgio Nunes, FEUP)
Bolsa de 6 meses, focada na exploração e caracterização de uma coleção de larga escala de registos de navegação web de utilizadores. Pretende-se identificar e caracterizar perfis e padrões de navegação na web.
3. Geração automática de playlists e recomendação musical – “Juggle”
(responsável: Filipe Coelho, FEUP)
Bolsa de 6 meses, renovável por igual período, para o desenvolvimento de um sistema de geração automática de playlists. Pretende-se processar coleções de larga-escala (milhões de músicas) e analisar a informação disponível, com ênfase nas características áudio e nos gostos dos utilizadores. O projeto inclui a criação de um protótipo mobile e de uma API web.
4. Reconhecimento facial de personalidades – “Visage”
(responsável: Filipe Coelho, FEUP)
Bolsa de 6 meses, renovável por igual período, para o desenvolvimento de um sistema de reconhecimento facial de personalidades. Pretende-se combinar as capacidades de deteção e reconhecimento existentes em software livre com a aplicação de filtros visuais e a informação de contexto das ligações existentes entre personalidades. O projeto inclui a criação de um protótipo mobile e de uma API web.
5. Pesquisa e recomendação de fotos em coleções de larga-escala – “Dpikt”
(responsável: Filipe Coelho, FEUP)
Bolsa de 6 meses, renovável por 6 meses adicionais, para o desenvolvimento de um sistema de recomendação de fotos. Pretende-se processar coleções de larga-escala (milhões de fotos) e combinar a análise de conteúdo visual com a informação proveniente dos utilizadores (tags, ratings, visualizações). O projeto inclui a criação de um protótipo mobile e de uma API web.
6. Extração automática de micro biografias da web – “Verbetes”
(responsável: Jorge Teixeira, FEUP)
Bolsa de 6 meses, renovável por igual período, cujo objetivo é o desenvolvimento de um sistema capaz de automaticamente e periodicamente extrair informação biográfica de entidades- pessoas, organizações e eventos – a partir de documentos disponíveis na web (notícias, Wikipédia, etc.). Existem vários desafios a considerar como a classificação e desambiguação de entidades e a validação automática dos dados.
Contactos
O processo de seleção foi concluído em outubro de 2012.
Mais informações sobre o Laboratório SAPO da Universidade do Porto podem ser obtidas em http://labs.sapo.pt/up/.
Procuramos um bolseiro para trabalhar a full-time em projectos de text-mining e de visualização de informação nos Laboratórios SAPO em Picoas, em Lisboa. O trabalho estará relacionado com os seguintes projectos do Sapo Labs:
Procuramos candidatos com excelentes conhecimentos de programação Javascript+HTML5, PHP/Python/Perl e gosto por visualização de informação. Idealmente, os candidatos deverão ter terminado recentemente a licenciatura/mestrado numa das seguintes áreas: Informática, Ciências da Computação ou Matemática. Serão também considerados candidatos que, apesar de não terem formação nestas áreas, demonstrem fortes competências nas linguagens de programação acima mencionadas. Os bolseiros deverão também ter boas capacidades de comunicação e de trabalho em equipa, visto que terão de estar em contacto permanente com a equipa técnica e equipa editorial do SAPO.
Oferecemos bolsas de iniciação científica, durante 6 meses, renováveis até um ano.