Avatar

Dissertação de mestrado “Never Ending Language Metalearning – Model management for CMU’s ReadTheWeb project”

29 Julho 2015
Sem comentários

Título: “Never Ending Language Metalearning – Model management for CMU’s ReadTheWeb project”

Autor: Tiago Vieira

Orientadores: Prof. Carlos Soares (FEUP)

CursoMestrado Integrado em Engenharia Electrotécnica e de Computadores – Faculdade de Engenharia da Universidade do Porto

Resumo (PT):
A seguinte dissertação terá como objectivo descrever o trabalho que foi efectuado durante o ano que passou. Inicialmente foi feita uma pesquisa sobre o conhecimento que foi descoberto até à actualidade, vulgo estado-da-arte, do qual foi utilizado para o trabalho de definição do problema, recolha de informação, experimentação, recolha de resultados e conclusões finais.De uma forma mais específica, pretende-se introduzir o Never Ending Language Learner (mais conhecido como NELL), os objectivos principais, bem como o seu modo de funcionamento. Durante esta explicação, os pontos que estão menos polidos serão expostos, de forma a que este trabalho sirva como um caminho a seguir para melhorar o seu funcionamento.Devido à exposição que foi feita, o próximo assunto será abordar uma possiblidade de melhorar os resultados falados anteriormente. A abordagem é o Metalearning (ou meta-aprendizagem), que permite caracterizar um conjunto definido de dados (através de variáveis) e, com isso, verificar qual o algoritmo recomendado para processar novos dados que tenham características semelhantes.Depois de uma teoria acrescentada para a recta final do trabalho, passou-se à recolha de informação, explicando o seu formato; ao tratamento dos dados, adaptando-os de forma a estarem prontos para se tirar conclusões; à descrição dos procedimentos que levarão aos resultados; os resultados, per se; e às conclusões que se podem chegar com aquilo que foi produzido.

Abstract (EN):
The main goal of CMU’s ReadTheWeb project is to build a new kind of machine learning system that continuously reads the web, 24 hours per day, 7 days per week. This system is called the Never Ending Language Learner (NELL) [12]. While this goal is not necessarily unheard-of, NELL stands out as being capable of improving the way it learns over time, that is to say, it learns to read the web better than it did the day before. To succeed in such an arduous quest, NELL combines several subsystem components that implement complementary knowledge extraction methods. For the same task, NELL is able to use different extraction methods. The performance of the components that use such methods, that is the quality of the extracted knowledge, will however change over time. In order to maximize the performance of the system as a whole, it becomes necessary to choose the best component for a task at any given time. Due to the amount of data and algorithm’s involved, traditional testing and selection methods are not a viable option. A preliminary approach to use metalearning [35] to address this issue was proposed by Santos [49]. In this project, we extend this work. Our approach seeks to relate the innate (meta)features of the data and the performance of algorithms. A first step will be to gather different sets of data (used in NELL) and test the performance of the above mentioned subsystem components on such data. The results are used to create a meta-learning system that can select the best algorithm for future sets of data. Proven successful, this system can then be implemented on NELL’s framework to improve its learning capability.

Texto integral: Repositório Aberto da UP



Sem comentários