You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

7.8 KiB

Tipi di Dati

Come abbiamo già accennato, i dati sono ovunque. Basta catturarli nel modo giusto! È utile distinguere tra dati strutturati e non strutturati. I primi sono generalmente rappresentati in una forma ben organizzata, spesso come una tabella o un insieme di tabelle, mentre i secondi sono semplicemente una raccolta di file. A volte possiamo anche parlare di dati semi-strutturati, che hanno una sorta di struttura che può variare notevolmente.

Strutturati Semi-strutturati Non strutturati
Elenco di persone con i loro numeri di telefono Pagine di Wikipedia con collegamenti Testo dell'Enciclopedia Britannica
Temperatura in tutte le stanze di un edificio ogni minuto negli ultimi 20 anni Raccolta di articoli scientifici in formato JSON con autori, data di pubblicazione e abstract Condivisione di file con documenti aziendali
Dati sull'età e il genere di tutte le persone che entrano nell'edificio Pagine Internet Flusso video grezzo da una telecamera di sorveglianza

Dove trovare i Dati

Esistono molte possibili fonti di dati, ed è impossibile elencarle tutte! Tuttavia, menzioniamo alcune delle fonti tipiche da cui è possibile ottenere dati:

  • Strutturati
    • Internet of Things (IoT), inclusi dati provenienti da diversi sensori, come sensori di temperatura o pressione, che forniscono molti dati utili. Ad esempio, se un edificio per uffici è dotato di sensori IoT, possiamo controllare automaticamente il riscaldamento e l'illuminazione per ridurre i costi.
    • Sondaggi che chiediamo agli utenti di completare dopo un acquisto o dopo aver visitato un sito web.
    • Analisi del comportamento può, ad esempio, aiutarci a capire quanto profondamente un utente esplora un sito e qual è il motivo tipico per cui lo abbandona.
  • Non strutturati
    • Testi possono essere una ricca fonte di informazioni, come un punteggio complessivo di sentiment, o l'estrazione di parole chiave e significati semantici.
    • Immagini o Video. Un video da una telecamera di sorveglianza può essere utilizzato per stimare il traffico su una strada e informare le persone su potenziali ingorghi.
    • Log dei server web possono essere utilizzati per capire quali pagine del nostro sito sono visitate più frequentemente e per quanto tempo.
  • Semi-strutturati
    • I grafi delle reti sociali possono essere ottime fonti di dati sulla personalità degli utenti e sull'efficacia potenziale nella diffusione di informazioni.
    • Quando abbiamo una serie di fotografie da una festa, possiamo provare a estrarre dati sulla dinamica di gruppo costruendo un grafo delle persone che si fotografano insieme.

Conoscendo le diverse possibili fonti di dati, puoi provare a pensare a diversi scenari in cui le tecniche di data science possono essere applicate per comprendere meglio la situazione e migliorare i processi aziendali.

Cosa puoi fare con i Dati

Nella Data Science, ci concentriamo sui seguenti passaggi del percorso dei dati:

Digitalizzazione e Trasformazione Digitale

Nell'ultimo decennio, molte aziende hanno iniziato a comprendere l'importanza dei dati per prendere decisioni aziendali. Per applicare i principi della data science alla gestione di un'azienda, è necessario innanzitutto raccogliere alcuni dati, ovvero tradurre i processi aziendali in forma digitale. Questo è noto come digitalizzazione. Applicare tecniche di data science a questi dati per guidare le decisioni può portare a significativi aumenti di produttività (o persino a un cambiamento radicale dell'azienda), chiamato trasformazione digitale.

Consideriamo un esempio. Supponiamo di avere un corso di data science (come questo) che offriamo online agli studenti e vogliamo utilizzare la data science per migliorarlo. Come possiamo farlo?

Possiamo iniziare chiedendoci "Cosa può essere digitalizzato?" Il modo più semplice sarebbe misurare il tempo impiegato da ogni studente per completare ogni modulo e valutare le conoscenze acquisite somministrando un test a scelta multipla alla fine di ogni modulo. Calcolando la media del tempo di completamento tra tutti gli studenti, possiamo individuare quali moduli causano maggiori difficoltà e lavorare per semplificarli. Potresti sostenere che questo approccio non sia ideale, perché i moduli possono avere lunghezze diverse. Probabilmente sarebbe più equo dividere il tempo per la lunghezza del modulo (in numero di caratteri) e confrontare quei valori invece. Quando iniziamo ad analizzare i risultati di test a scelta multipla, possiamo cercare di determinare quali concetti gli studenti trovano difficili da comprendere e utilizzare queste informazioni per migliorare i contenuti. Per farlo, dobbiamo progettare i test in modo che ogni domanda corrisponda a un determinato concetto o blocco di conoscenza.

Se vogliamo rendere l'analisi ancora più complessa, possiamo tracciare il tempo impiegato per ogni modulo rispetto alla categoria di età degli studenti. Potremmo scoprire che per alcune categorie di età il completamento del modulo richiede un tempo eccessivamente lungo, oppure che gli studenti abbandonano prima di completarlo. Questo può aiutarci a fornire raccomandazioni sull'età per il modulo e a ridurre l'insoddisfazione delle persone derivante da aspettative errate.

🚀 Sfida

In questa sfida, cercheremo di individuare concetti rilevanti per il campo della Data Science analizzando dei testi. Prenderemo un articolo di Wikipedia sulla Data Science, scaricheremo e processeremo il testo, e poi costruiremo una word cloud come questa:

Word Cloud per Data Science

Visita notebook.ipynb per leggere il codice. Puoi anche eseguire il codice e vedere come vengono effettuate tutte le trasformazioni dei dati in tempo reale.

Se non sai come eseguire il codice in un Jupyter Notebook, dai un'occhiata a questo articolo.

Quiz post-lezione

Compiti

Crediti

Questa lezione è stata scritta con ♥️ da Dmitry Soshnikov


Disclaimer:
Questo documento è stato tradotto utilizzando il servizio di traduzione automatica Co-op Translator. Sebbene ci impegniamo per garantire l'accuratezza, si prega di notare che le traduzioni automatiche possono contenere errori o imprecisioni. Il documento originale nella sua lingua nativa dovrebbe essere considerato la fonte autorevole. Per informazioni critiche, si consiglia una traduzione professionale eseguita da un traduttore umano. Non siamo responsabili per eventuali fraintendimenti o interpretazioni errate derivanti dall'uso di questa traduzione.