Scraping & Big Data

Scraping

Il web scraping (detto anche web harvesting o web data extraction) è una tecnica che permette l’estrazione di informazioni dai siti web con l’utilizzo di programmi web e spesso include la trasformazione di dati non strutturati di pagine web in database per l’analisi o il riutilizzo del contenuto.

Vengono realizzati e lanciati programmi web che simulano la navigazione umana. Visitando pagine web questi software effettuano la raccolta dei dati necessari e li trascrivono su file (o database) e in seguito vengono utilizzati per le analisi offline.

Nell’attività delle ricerche questo metodo di raccolta dei dati viene spesso utilizzato per effettuare la raccolta delle informazioni di contatto di un particolare target (es. aziende, società su pagine gialle) molto ristretto per poi utilizzarli nelle survey CATI o CAWI.

Raccolta dati sui Social Network, Twitter, Blog …

I Big Data sono le informazioni generate dagli utenti -involontariamente navigando o volontariamente scrivendo nei blog, sui Social Network o twittando- così come quelle informazioni generate per alcune operazioni amministrative come ad esempio i pagamenti via carta di credito.

Public Opinion Quarterly (POQ), la rivista trimestrale di Amercan Association Public Opinion Research (AAPOR), ha dedicato un numero monografico sul passato, il presente ed il futuro delle indagini. Cooper ha denominato questa tipologia di dati gli “organic data”. Questa denominazione non la usa quasi nessuno per cui noi li chiameremo Big Data per chiarezza.

I Big Data non sostituiscono le ricerche statistiche, i sondaggi di opinione o le ricerche di mercato per un semplice motivo: spesso raccolgono poche informazioni (es. mi piace una determinata marca, genere, età, località, ora del post) mentre un questionario normalmente è composto di decine di domande su cui è possibile analizzare eventuali relazioni (ad esempio che prodotto consumo, quali sono i motivi, etc etc). Nello stesso tempo i Big Data possono essere composti di decina di migliaia di casi (es. mi piace appunto su un Social Network) mentre una indagine normalmente non supera i 2.000 rispondenti.

Un altro aspetto da tenere in considerazione sono i due bias dei Big Data:

  • coverage: qual è la copertura di quel determinato Social Network rispetto alla popolazione?
  • measurement: quanti appartenenti a quel Social Network hanno piacere nel dire (e far sapere) la propria opinione su un determinato prodotto?

Questo servizio consiste nel raccogliere e sistematizzare le informazioni che volontariamente o involontariamente vengono lasciate sul web dai “naviganti”: i like di un brand su facebook, una opinione su un politico lasciata su twitter o su un blog, i percorsi dei naviganti da un sito internet all’altro.

Questa tipologia di informazioni sta crescendo continuamente e sono una ghiotta occasione per i tecno-ricercatori di Demetra opinioni.net per fornire un nuovo servizio ai propri clienti.

Hai delle domande o vuoi chiederci un preventivo?