TouriNet - Data Extraction

Lo scopo di questa attività sarà quello di sviluppare algoritmi di web scraping per l’acquisizione automatica di dati (strutturati e non strutturati) presenti sul web e lo sviluppo di procedure ad hoc per la loro importazione in un formato omogeneo in un catalogo costruito per lo scopo.
In particolare i dati da importare potranno essere di diverse tipologie, che dovranno essere gestite in modo opportuno dalle procedure di web scraping:
- Siti contenenti POI di interesse;
- Valutazioni strutturate associate a un’entità turistica di interesse o a un POI di rilevanza turistica;
- Recensioni non strutturate (es. TripAdvisor, Booking, etc.) associate a un’entità turistica di interesse o a un POI di rilevanza turistica;
- Portali Open Data: le procedure dovranno individuare e importare tutti i dataset di interesse per il progetto pubblicati nel portale, quali ristoranti, strutture alberghiere, musei, ecc.;
- Informazioni di rilievo turistico (es. Open Street Maps);
- API: dovranno essere sviluppati connettori che si interfaccino con le API e importino nel database tutte le informazioni di interesse.
È inoltre plausibile ritenere che non tutte le informazioni utili e necessarie per arricchire le risposte semantiche di TouriNet siano acquisibili tramite procedure automatiche. Verranno quindi condotte attività di acquisizione manuale dei dati, di standardizzazione e inserimento nella banca dati di TouriNet, al fine di ottenere una base informativa quanto più possibile completa e affidabile.