TouriNet - Data Extraction

 
Data Extraction
 
Lo scopo di questa attività sarà quello di sviluppare algoritmi di web scraping per l’acquisizione automatica di dati (strutturati e non strutturati) presenti sul web e lo sviluppo di procedure ad hoc per la loro importazione in un formato omogeneo in un catalogo costruito per lo scopo.
 
In particolare i dati da importare potranno essere di diverse tipologie, che dovranno essere gestite in modo opportuno dalle procedure di web scraping:
 
  • Siti contenenti POI di interesse;
  • Valutazioni strutturate associate a un’entità turistica di interesse o a un POI di rilevanza turistica;
  • Recensioni non strutturate (es. TripAdvisor, Booking, etc.) associate a un’entità turistica di interesse o a un POI di rilevanza turistica;
  • Portali Open Data: le procedure dovranno individuare e importare tutti i dataset di interesse per il progetto pubblicati nel portale, quali ristoranti, strutture alberghiere, musei, ecc.;
  • Informazioni di rilievo turistico (es. Open Street Maps);
  • API: dovranno essere sviluppati connettori che si interfaccino con le API e importino nel database tutte le informazioni di interesse.
 
È inoltre plausibile ritenere che non tutte le informazioni utili e necessarie per arricchire le risposte semantiche di TouriNet siano acquisibili tramite procedure automatiche. Verranno quindi condotte attività di acquisizione manuale dei dati, di standardizzazione e inserimento nella banca dati di TouriNet, al fine di ottenere una base informativa quanto più possibile completa e affidabile.